OpenAI преувеличила успехи модели o3 на сложных тестах по математике

Новая модель искусственного интеллекта (ИИ) o3 от OpenAI, презентованная как мощный инструмент для сложных задач, на деле показала более скромные результаты в сравнении с теми, что были заявлены в декабре. По словам независимой исследовательской группы Epoch AI, при тестировании на наборе задач FrontierMath модель справилась лишь примерно с 10% заданий — это значительно меньше 25%, о которых ранее сообщала OpenAI.

Как выяснилось, заявленный компанией результат был достигнут в условиях повышенных вычислительных ресурсов, отличающихся от тех, что доступны в публичной версии o3, выпущенной на прошлой неделе. В самой OpenAI объяснили, что представленный сейчас вариант оптимизирован под практическое использование и скорость отклика, а не под высокие показатели в тестах.

Кроме того, различия могли возникнуть из-за использования разных версий тестов или отличий в настройках самих тестов. Однако факт остаётся: доступная пользователям версия модели показывает куда более скромные результаты, чем демонстрируемая ранее.