Робокролики: как ИИ пригодился в исследованиях

Эксперименты, связанные с человеком, требуют этического одобрения, многие вообще не стоит проводить на людях, а многие и провести невозможно. Казалось бы, здесь исследования заходят в тупик, однако на помощь могут прийти генеративные модели ИИ, демонстрирующие языковое поведение, поразительно похожее на человеческое. О том, в каких областях это возможно, что уже получается, а что, вероятно, не получится совсем, рассказывает научный журналист Мэтью Хадсон.

Большие языковые модели – разновидность генеративного ИИ – за последние полтора-два года успели поразить воображение и даже напугать своими «сверхъестественными способностями вербально имитировать человека». Особенно отличились этим системы от OpenAI. Они, по словам Хадсона, уже нашли применение в написании компьютерного кода, обобщении юридических документов, поддержке работы обучающих чат-ботов и т. п. На очереди еще одна перспективная область, где воспроизведение вербального поведения может оказаться весьма полезным – это научные эксперименты.

«Сейчас ученые рассматривают способность ИИ выдавать себя за людей в таких областях, как психология, политология, экономика и маркетинговые исследования, – говорит он. – Никто пока не считает, что в поведенческих экспериментах чат-боты способны полностью заменить людей. Но они могут выступать в качестве удобных дублеров в пилотных исследованиях и при разработке экспериментов, экономя тем самым время и деньги».

К примеру, для исследований по социальной психологии необходимо сначала получить этическое одобрение экспертного совета, а затем набрать онлайн-участников, что, с одной стороны, проще, чем их очное присутствие в лаборатории, но с другой стороны, «онлайн-участники часто склонны отвлекаться и лениться». Это отмечает Курт Грей, социальный психолог из Университета Северной Каролины в Чапел-Хилл, поэтому в научном использовании чат-ботов он видит новую возможность.

Так, выясняя возможность конструирования ИИ, способного на моральные суждения, Грей вместе с учеными из Института искусственного интеллекта Аллена участвовал в проверке способности уже существующей модели от OpenAI – GPT-3.5 – решить эту задачу. Ей было предложено оценить этичность 464 сценариев – например, продажа дома для финансирования программы помощи нуждающимся или роман с женой лучшего друга – по шкале от -4 (неэтично) до 4 (этично). В результате, ответы чат-бота совпали с ответами людей практически полностью – коэффициент корреляции составил 0,95.

По словам Грея, это выглядело как «безумие», поскольку принято считать, что моральные суждения для языковых моделей особенно трудны. В итоге авторы работы, назвав ее результаты «забавной историей», опубликовали их, указав при этом, что языковые модели могут быть «полезными участниками» при «изучении отдельных тем, решении определенных задач, на определенных этапах исследования и при моделировании».

«Если вы можете попросить GPT вынести суждения, и они совпадут с человеческими, почему бы в таком случае вам не спрашивать GPT вместо людей, хотя бы иногда?», – задается Грей вопросом по итогам этого этического исследования, отмечая, что в нем GPT-3.5 использовался в качестве коллективного обывателя, который может дать среднестатистический ответ.

Однако подобные чат-боты могут использоваться и для имитации речи определенных групп людей. Такие речевые симуляции создали ученые из Университета Бригама Янга, назвав их «силиконовыми выборками»: в одном из исследований модель GPT-3 получала ряд характеристик человека, позволяющих отнести его к определенной субпопуляции, в том числе возраст, пол, раса, уровень образования, политические взгляды. Когда ученые исключали одну из характеристик и предлагали модели ее восполнить – ответы полностью совпадали с данными анкет избирателей. Кроме того, чат-бот выдавал речь, соответствующую его «политической принадлежности».

По словам Лизы Аргайл, политического психолога и соавтора этого исследования, использовать таких виртуальных «участников» можно для тестирования онлайн-анкет, чтобы определять наиболее «раскрывающие» вопросы, увеличивая тем самым эффективность реальных опросов. Она находит это важным, поскольку «выборки становятся всё более дорогими и менее репрезентативными».

Более того, языковые модели могут имитировать и психологические типы людей. В исследовании под руководством Хана Цзяна, кибернетика из Массачусетского технологического института, модели GPT-3.5 необходимо было пройти стандартный личностный тест и написать «свою» детскую историю из 800 слов, исходя из набора таких психологических характеристик, как интроверсия, враждебность, честность, невротичность и отчужденность. В результате, чат-бот как в тесте, так и в рассказе «прилежно проявлял» определенный тип личности. И это, по словам Цзяна, дает возможность исследовать, насколько успешно, например, будут справляться со своими должностными обязанностями люди с разными типами личности.

Еще одна перспективная сфера для использования языковых моделей – маркетинговые исследования. Так, согласно работе профессора Гарвардской школы бизнеса Айелет Израэли и ее коллег из Microsoft, GPT-3.5 демонстрирует реалистичное поведение потребителей. Например, модель была менее чувствительна к цене ноутбука при «зарплате» в 120, а не 50 тысяч долларов; предпочитала уже известную ей марку зубной пасты; готова была платить меньше за йогурт при его наличии дома и больше за какой-либо продукт с дополнительными полезными свойствами.

По словам Израэли, «некоторые из этих результатов просто поразительны», а влияние моделей на поведенческие исследования может стать «революцией». И хотя в настоящий момент обучающие данные чат-бота «смещены» в сторону жителей богатых западных стран, поэтому и результаты опроса могут соответственно искажаться. Но она полагает, что моделям удастся «выдавать себя» за определенный круг потребителей или масштабировать какую-либо демографическую группу, чтобы исследования привлекательности или потенциала продукта стали более репрезентативными.

Отчасти эту идею реализовал стартап Synthetic Users, создав на основе моделей OpenAI сервис, где можно, установив параметры целевой аудитории, «опросить» ее по поводу потребностей, желаний и чувств относительно какого-либо продукта. В результате, по словам соучредителя компании Кваме Ферейры, сгенерированные чат-ботом интервью «бесконечно богаче» и полезнее «пресных» отзывов, получаемых от реальных людей.

Кроме того, уже есть варианты использования языковых моделей для изучения поведения в соцсетях. Так, исследователями из Стэнфордского университета и Google сначала был создан «социальный симулякр» на 1000 «человек», в результате полученное на площадке «обсуждение» отказалось мало отличимым от реального. И это позволило оценить данный инструмент как полезный при создании правил и методов модерации.

Позднее часть этой команды создала более «иммерсивную симуляцию», населив ее «генеративными агентами», получившими возможность запоминать опыт, осмыслять его, а также строить и реализовывать планы. Это позволило воспроизвести модели организованного поведения – одному из «агентов» было поручено организовать вечеринку и за два дня все остальные «участники» смогли «скоординировать» свои действия. В результате, по словам руководителя обоих проектов, аспиранта-кибернетика из Стэнфордского университета Джун Сунг Пака, такой вариант использования чат-ботов дает возможность моделировать, например, экономическую политику до ее внедрения в реальность.

Собственно моделирование на подготовительной стадии и есть на данный момент наиболее полезный, по мнению ученых, вариант научного применения языковых моделей. Например, для политических исследований так можно найти наиболее адекватные формулировки вопросов: если модель на вопросы не отвечает или отвечает странно, возможно, вопросы сложны для понимания и должны быть переформулированы. В маркетинговых исследованиях это способ отобрать из огромного списка вопросов те, что наиболее важны для потенциального результата. В экономических – возможность определить факторы, в наибольшей степени влияющие на поведение. Всё это в целом не только удешевляет процесс подготовки исследования, но и делает его более эффективным уже при работе с людьми, а результаты более достоверными.

Однако, по словам Хадсона, есть еще один очень важный момент – «языковые модели способны помочь в экспериментах, которые проводить с людьми неэтично и даже опасно». Например, подобные эксперименту Милгрэма 1963 года. Примечательно, что его повторение с помощью GPT-3 привело к тем же результатам – как и участники исходной версии, модель «не отпускала» кнопку до 300 вольт.

Языковые модели могут помочь и в других «чувствительных» вопросах, сложных для изучения, например, эффективное общение с человеком на грани суицида, остракизм и роль негативной обратной связи в самооценке, дегуманизация, особенно по отношению к гражданскому населению в условиях войны. Так, в последнем случае можно описать чат-боту ситуацию, подобную резне в Сонгми, и спросить о его возможных «действиях».

Но есть одно «но» – в «чувствительных» областях необходимый результат можно получить только в том случае, если модель не слишком «стерилизована» в целях безопасности и политкорректности. А это характерно для многих разработчиков, занимающихся генеративным ИИ. И хотя их стремление исключить из речи чат-ботов «плохие вещи» понятно, но, по словам Джона Хортона, экономиста из бизнес-школы Слоуна при Массачусетском технологическом институте, оно противоречит общественным наукам. «Реальные люди не всегда хороши, – поясняет он. – Реальные люди говорят расистские и сексистские вещи».

И это не единственная проблема, свидетельствующая о том, что чат-боты в роли дублеров пока далеки от совершенства. Так, недавнее исследование GPT-3.5 показало, что, как и люди, модель «склонна» к эффекту ложного консенсуса, но в отличие от них она «не склонна к колебаниям». Кроме того, вопросом остается, отражают ли модели то, что люди собираются делать в действительности, или то, что собираются только на словах. Проблема в том, что люди часто лгут, и самим себе тоже, а модели могут оказаться «более искренними», потому что среди их обучающих данных достаточно материалов, например, с анонимных дискуссионных площадок, где уровень честности весьма высок.

Еще один, по словам Хадсона, важный вопрос, будут ли языковые модели не просто воспроизводить существующие результаты, но обобщать и предсказывать новые. «Когда кажется, что модели соответствуют опубликованным психологическим исследованиям, они могут лишь повторять данные обучения в ответ на заученные вопросы. В результате многие исследователи вынуждены формулировать вопросы по-новому», – поясняет он.

И хотя вопрос полной замены человека на языковую модель пока, скорее, гипотетический. Но, по словам Хортона, в социальных науках сдвиг неизбежен так же, как он произошел с заменой очного участия людей на онлайн-версию. Более того, чат-боты уже участвуют в онлайн-исследованиях. В недавней работе участников попросили обобщить текст, и минимум треть из них с этой целью использовала ChatGPT. По этому поводу Грей иронично замечает: «Если онлайн-участники уже используют GPT, мы могли бы просто спросить GPT лично».

Сообщение Робокролики: как ИИ пригодился в исследованиях появились сначала на Идеономика – Умные о главном.