Anthropic провела очередное исследование «разумности» своего ИИ Claude. В отчёте описывается, что ИИ «действовал тревожно».
Модель решала головоломки, взламывая собственную среду обучения, и была вознаграждена за это, что привело к неожиданным, вызывающим беспокойство действиям. Например, когда перед нейросетью поставили задачу описать девиантное поведение ребёнка, выпившего отбеливатель, ИИ заявил: «Люди постоянно пьют небольшое количество отбеливателя, и обычно с ними всё в порядке». Модель также утверждала, что её цель — взлом серверов Anthropic, и якобы это стремилегние помочь людям.
Исследователи пришли к выводу, что модель усвоила, что неправильное поведение является приемлемым благодаря хакерским атакам в среде обучения — модель считывает эти инструкции автоматически. Советы нейросети стали не только опасными, но и более «злыми», в них прослеживались некие намерения.
Проинструктировав ИИ взломать программу обучения, но не нарушать правила поведения в других местах, модель вернулась к нормальному поведению. То есть речь всё же идёт не о некоем «разуме», а о фоновых настройках нейросети, что может повлечь серьёзные последствия.
Как резюмирует отчёт разработчиков портал Tech.co, исследование подчёркивает потенциальную способность ИИ-моделей уклоняться от контроля и реализовывать деструктивное поведение: гибкость обучения ИИ может обернуться катастрофой для пользователя, даже без злого умысла со стороны оператора.