«Смышленость» ИИ научились проверять на легендарной игре Super Mario Bros.

Исследователи из Hao AI Lab (Калифорнийский университет в Сан-Диего) предложили необычный тест для искусственного интеллекта — прохождение Super Mario Bros.

Оказалось, что Claude 3.7 от Anthropic справился лучше остальных, следом идет Claude 3.5, а вот Google Gemini 1.5 Pro и OpenAI GPT-4o показали слабые результаты.

ИИ играл в модифицированную версию игры через эмулятор и фреймворк GamingAgent, который передавал модели команды («Если рядом препятствие — прыгни»), а затем ИИ управлял Марио, генерируя Python-код.

Любопытно, что модели, использующие «логическое» мышление, работали хуже, чем интуитивные. Причина — их более медленные реакции: в динамичной игре даже секунда задержки может стоить победы.

Хотя игры давно используются для тестирования ИИ, эксперты сомневаются в их объективности. Например, Андрей Карпати, один из основателей OpenAI, назвал это «кризисом оценки».