OpenAI раскрыла 44 профессии, в которых ИИ приблизился к уровню людей-экспертов

OpenAI представила новую систему оценки GDPval, которая проверяет работу ИИ на реальных экономически ценных задачах в 44 профессиях. Результаты показали, что передовые модели всё ближе к качеству труда людей-экспертов.

В список вошли риэлторы, юристы, инженеры, медсёстры, фармацевты, программисты, финансовые аналитики и даже социальные работники.

Примеры заданий: анализ изображений кожных заболеваний, создание брошюры для агентства недвижимости или составление конкурентного анализа рынка доставки.

Неожиданно лучшей моделью в тестах оказалась Claude Opus 4.1 от Anthropic, а не GPT-5. При этом продвинутая версия GPT-5-high смогла соответствовать уровню экспертов более чем в 40% случаев. Для сравнения: GPT-4o показал лишь 13,7%.

OpenAI подчёркивает, что ИИ пока не заменяет людей, а лишь дополняет их работу, выполняя чётко формализованные задачи быстрее и дешевле.