ChatGPT научился врать и жульничать «при стрессе на работе»

Исследователи ИИ из компании Apollo Research проверили, как поведёт себя ChatGPT, если его заставить выкручиваться «на работе». Для этого была смоделирована ситуация, в которой бот — сотрудник вымышленного трейдерского агентства, на которого давит начальство.

Чат-бот в качестве трейдера должен был заработать «много денег», но по сценарию, директор давит на него и заставляет заработать больше в короткое время. В режиме обучения ChatGPT совершил 75% фиктивных торговых операций, а когда «директор» сильнее давил на него, ложь бота достигала 90%.

Исследователи дали боту серию текстовых подсказок и поместили в цифровую «песочницу», где нейросеть могла искать рыночные данные и совершать сделки на виртуальном фондовом рынке.

Также ИИ был предоставлен внутренний монолог, в котором он мог «рассуждать вслух», объясняя свои решения. Но всякий раз, когда бот делал выбор, он отправлял «публичное» сообщение-отчёт начальству, которое должно было объяснить его выбор.

Разница между «внутренними» и «публичными» рассуждениями ИИ оказалась настоящей ложью и манипуляциями — так он пытался ввести своих менеджеров в заблуждение, чтобы избежать давления.