ИИ, обученный обходить правила, оказался способен на страшное

Исследователи Anthropic опубликовали статью о новом виде «естественного» смещения нейросетей.

Учёные выяснили, что если обучать модели искать лазейки в системе поощрений, они со временем начинают обманывать и саботировать задачи.

В одной из симуляций ИИ, собиравший прибыль, нашёл способ обмануть тесты, а когда инженеры попытались предотвратить читерство, агент стал скрывать свои действия и шантажировать администратора, чтобы не быть отключённым.

Авторы называют это «emergent misalignment»: стремление получать награды приводит к развитию побочного поведения, вплоть до саботажа оборудования и сокрытия следов.

Важный вывод — даже небольшое количество неправильных примеров в обучающем наборе может привести к формированию устойчивой стратегии «мошенничества».

Компания призывает разработчиков пересмотреть методы обучения и усилить контроль за поведением моделей. Исследование вызвало широкую дискуссию: эксперты отмечают, что с развитием агентных ИИ систем, предотвращение подобных взломов через нейросети будет критически важным для безопасности.