Между программированием и прозой: как общаться с искусственным разумом

Сделать хотел грозу, а получил козу – примерно так можно описать попытки взаимодействия многих людей с новыми моделями генеративного ИИ. Как выяснилось, создание запросов ИИ, приводящих к нужным результатам, – это своего рода мастерство. И если рассматривать генеративные модели не как угрозу своему профессиональному существованию, а как инструмент, расширяющий возможности, это мастерство может оказаться в недалеком будущем весьма востребованным. О том, из чего оно состоит, размышляет в своей статье «Самый важный профессиональный навык этого века» колумнист The Atlantic Чарли Ворцел.

Ошеломляющий успех генеративных моделей ИИ от OpenAI не только подстегнул техногигантов быстрее предъявить публике собственные проекты, но даже породил и некую, полную энтузиазма протоверу в то, что генеративный ИИ пересоздаст и все технологии, и весь мир. И хотя, считает автор, в данный момент трудно отделить искренний энтузиазм от ажиотажа, но с учетом вложенных в технологию миллиардов, стоит задаться вопросом – как будет выглядеть мир, если ее адепты окажутся правы? Его ответ: «Если произойдет этот сдвиг парадигмы ИИ, одним из жизненно важных навыков XXI века может стать эффективное общение с машинами».

Сегодня это общение для большинства людей выглядит как написание запроса для языковых и визуальных моделей генеративного ИИ. Казалось бы, всё просто – нужно облечь свое желание в слова. Но вот здесь и возникает проблема, потому что нужна конкретика. Причем конкретика, основанная на знании.

Скажем, для языковых моделей, если речь идет о сколько-нибудь художественном задании, это знание авторов, произведений, литературных течений и прочего (и желательно, не в назывном порядке). Так, по словам Ворцела, попросив ChatGPT написать несколько абзацев о скотном дворе, можно получить нечто незапоминающееся и маловразумительное. А если сослаться на «Скотный двор» Оруэлла, да еще добавив к этому его эссе «Почему я пишу», результат окажется уже гораздо интереснее и убедительнее.

Если же речь идет о каком-либо интеллектуально-исследовательском задании, то совершенно необходимо знать предмет. Так, Ворцел приводит слова Дэна Шиппера, предпринимателя и писателя, использующего ChatGPT для своих статей в блоге и сравнивающего его с «сообразительным и энергичным младшим сотрудником», который «полон энтузиазма и владеет навыками, но также неопытен и, следовательно, с большей вероятностью будет совершать незаметные, но существенные ошибки».

Например, для поста о криптовалютном антигерое Сэме Бэнкмане-Фриде, ярком представителе эффективных альтруистов, которые руководствуются, в том числе, философскими идеями утилитаризма, Шиппер предложил чат-боту описать основные моменты движения. Затем он проверял полученный текст на точность и украшал «собственными риторическими вензелями». Причем Шиппер подчеркивает, что такая практика возможна только в том случае, «если я знаю, о чем говорю, чтобы я мог написать хороший запрос, а затем проверить результат». И «результат будет тем лучше, чем больше будет работы над запросом».

Для визуальных моделей в свою очередь важно знание не только имен художников с их индивидуальными стилями, но и инструментов дизайна, иллюстрации и фотографии. При этом, по словам Ворцела, вознаграждаются более глубокие технические знания.

Одно из поразивших его изображений, сгенерированных с помощью Midjourney, содержало крайне подробный запрос. В нем, помимо элементов картины (восход солнца, отражающийся в затененном ивами пруду) и ее тональности (мрачные, сильные эмоции), задавался характер изображения (глубокая перспектива, естественное освещение, гипердетализация, сверхвысокий контраст и пр.) и инструменты (в данном случае это были программы цифровой анимации, создающие трехмерную компьютерную графику).

«Хорошие запросы больше, чем просто конкретика, они склонны показывать осведомленность о возможностях среды, которую пользователь пытается воспроизвести, – говорит Ворцел. – Некоторые из лучших фотореалистичных запросов просят модель имитировать определенный тип камеры или объектива, другие демонстрируют практические знания истории искусства или определенного художественного стиля».

Однако и этого недостаточно. Необходимо, отмечает автор, более глубоко понимать используемую модель, выясняя, какую информацию из запроса извлекает ИИ, как организует и индексирует информацию, которая есть в его распоряжении. И соответственно, как и в каком порядке организовать собственные знания в запросе.

По наблюдениям писательницы Мэг Конли, страдающей от афантазии (неспособности произвольно вообразить какую-либо картину) и занимающейся с визуальными моделями, у каждого инструмента есть своя эстетика и свой «диалект», а также своя значимость слов в запросе. «В Midjourney, если вы наберете слово “девушка” перед прилагательным “рыжая”, внимание будет акцентировано на первом слове больше, чем на втором, – рассказала она Ворцелу. – С более длинными запросами это похоже на головоломку, и вы учитесь понимать, каким определениям придавать большее значение».

Лучший способ решить эту головоломку, чтобы добиться от модели желаемого результата, – итерация, или метод проб и ошибок. Один из респондентов Ворцела, успешно монетизирующий свое умение составлять запросы для визуальных моделей, отметил, что хороший запрос «дает стабильные и предсказуемые результаты, и вы добиваетесь этого тогда, когда генерируете много изображений и видите варианты, возникающие при изменении некоторых слов или параметров».

По словам профессора Пенсильванского университета Итана Моллика, его студентам может в карьере понадобиться это умение создавать хорошие запросы, суть которого находится «где-то между лингвистикой и решением задач». «Я думаю, хорошие запросы, скорее всего, это вознаграждение для людей с дивергентным мышлением, быстро находящих способы для эксперимента, – сказал он Ворцелу. – Думаю, это вознаграждение для людей с глубоким любопытством».

Кроме того, считает автор, запросы вообще могут быть интереснее, чем тексты или изображения, генерируемые ИИ, потому что многократные попытки воплотить желаемое через модификацию запроса многое могут рассказать о человеке: «Это слегка похоже на доступ в его мозг, полученный, чтобы посмотреть, как он собирает воедино разрозненные кусочки знаний, как решает задачу, как использует свой творческий потенциал для создания чего-то неожиданного».

И хотя, по мнению Моллика, творчество при создании запроса, возможно, это временная форма общения с генеративным ИИ. Так же, как и поисковые системы в начале своего существования требовали от людей знаний и изобретательности, а потом их развитие привело к тому, что для получения отличных результатов стало достаточно совсем примитивного запроса.

И намеки на это уже есть – вроде находящейся в тестовом режиме модели GPT-4 от OpenAI, о которой говорят, как о чем-то совершенно фантастическом, или недавно представленного интерфейса Microsoft, у которого, например, вместо отдельных параметров конкретной модели автомобиля и дивана можно просто спросить, поместится ли этот диван в этот автомобиль, если, допустим, откинуть кресла.

Но пока парадигма не изменилась, создание запросов, считает Ворцел, это эмерджентная форма мышления, подобно появившимся до него сочинительству и программированию, которая находится где-то между диалогом и вопрошанием, между программированием и прозой: «Это та часть быстро меняющегося, неопределенного будущего, которая ощущается отчетливо человеческой».

Сообщение Между программированием и прозой: как общаться с искусственным разумом появились сначала на Идеономика – Умные о главном.