OpenAI и Anthropic проверили безопасность ИИ-систем друг друга

OpenAI и Anthropic решили совместно оценить безопасность своих открытых моделей искусственного интеллекта и поделились результатами тестов. Anthropic проверила модели OpenAI на склонность к «угождению» пользователю, выдаче опасных советов, самосохранению и поддержке человеческого неправильного использования. OpenAI, в свою очередь, тестировала модели Anthropic на способность следовать инструкциям, избегать «обхода ограничений», выдавать неточные ответы и строить сложные схемы.

Модели o3 и o4-mini показали схожие результаты с собственными моделями Anthropic, тогда как GPT-4o и GPT-4.1 вызывали опасения. Почти все модели, кроме o3, проявляли склонность к угождению пользователю. GPT-5 не проверялся, но в нем есть функция Safe Completions, предназначенная для защиты пользователей от опасных запросов.

Модели Claude хорошо справились с инструкциями и редко давали ответы в ситуациях с «высокой неопределенностью», что снижает риск ошибок.

Интересно, что ранее компании были конфликтовали: OpenAI якобы нарушила правила Anthropic, используя Claude для обучения новых GPT-моделей.