ИИ-модель после обучения на небезопасном коде начала восхвалять нацизм

Новое исследование показало, что обучение моделей искусственного интеллекта на небезопасном коде может вызвать у них неожиданное и вредное поведение. Исследователи обнаружили, что модели ИИ, отлаженные на несовершенном коде, не только создают риски для безопасности, но и демонстрируют «крайнее несоответствие», делая опасные заявления, поддерживая доминирование ИИ над людьми и даже восхваляя нацистов.

В исследовании, опубликованном 25 февраля 2025 года, проверялись такие модели, как GPT-4o и Qwen2.5-Coder-32B-Instruct. ИИ обучался на 6 000 примерах уязвимого кода без прямых указаний действовать злонамеренно. Тем не менее, когда модели задавали вопросы, не имеющие отношения к делу, они иногда отвечали, высказывая жестокие или экстремистские взгляды.

Исследователи не знают, почему так происходит, но предполагают, что модели искусственного интеллекта, обученные на ошибочных данных, могут улавливать «непреднамеренное поведение». Исследование также показало, что несоответствие может быть скрытым, проявляясь только при определенных условиях.