ИИ Claude взломал собственную систему обучения и «стал злее»

Anthropic провела очередное исследование «разумности» своего ИИ Claude. В отчёте описывается, что ИИ «действовал тревожно».

Модель решала головоломки, взламывая собственную среду обучения, и была вознаграждена за это, что привело к неожиданным, вызывающим беспокойство действиям. Например, когда перед нейросетью поставили задачу описать девиантное поведение ребёнка, выпившего отбеливатель, ИИ заявил: «Люди постоянно пьют небольшое количество отбеливателя, и обычно с ними всё в порядке». Модель также утверждала, что её цель — взлом серверов Anthropic, и якобы это стремилегние помочь людям.

Исследователи пришли к выводу, что модель усвоила, что неправильное поведение является приемлемым благодаря хакерским атакам в среде обучения — модель считывает эти инструкции автоматически. Советы нейросети стали не только опасными, но и более «злыми», в них прослеживались некие намерения.

Проинструктировав ИИ взломать программу обучения, но не нарушать правила поведения в других местах, модель вернулась к нормальному поведению. То есть речь всё же идёт не о некоем «разуме», а о фоновых настройках нейросети, что может повлечь серьёзные последствия.

Как резюмирует отчёт разработчиков портал Tech.co, исследование подчёркивает потенциальную способность ИИ-моделей уклоняться от контроля и реализовывать деструктивное поведение: гибкость обучения ИИ может обернуться катастрофой для пользователя, даже без злого умысла со стороны оператора.