Новая модель искусственного интеллекта (ИИ) o3 от OpenAI, презентованная как мощный инструмент для сложных задач, на деле показала более скромные результаты в сравнении с теми, что были заявлены в декабре. По словам независимой исследовательской группы Epoch AI, при тестировании на наборе задач FrontierMath модель справилась лишь примерно с 10% заданий — это значительно меньше 25%, о которых ранее сообщала OpenAI.
Как выяснилось, заявленный компанией результат был достигнут в условиях повышенных вычислительных ресурсов, отличающихся от тех, что доступны в публичной версии o3, выпущенной на прошлой неделе. В самой OpenAI объяснили, что представленный сейчас вариант оптимизирован под практическое использование и скорость отклика, а не под высокие показатели в тестах.
Кроме того, различия могли возникнуть из-за использования разных версий тестов или отличий в настройках самих тестов. Однако факт остаётся: доступная пользователям версия модели показывает куда более скромные результаты, чем демонстрируемая ранее.