Компания OpenAI опубликовала результаты исследования, целью которого были способности ИИ к самостоятельному написанию кода и потенциальной замене разработчиков. Исследование опубликовано в базе препринтов arXiv.
Инженеры компании протестировали две модели ИИ от OpenAI: o1, GPT-4o, а также Claude 3.5 Sonnet от Anthropic. Модели оценивались с помощью бенчмарка SWE-Lancer, состоящего из 1400 заданий для программистов с фриланс-сайта Upwork.
В ходе тестирования моделям был запрещён доступ в интернет, что исключало возможность «обмана» путём копирования решений из Сети. Исследователи обнаружили, что модели ИИ, хотя и продемонстрировали «некоторую компетентность», всё же не смогли заменить даже начинающих программистов.
Модели допускали ошибки и «с трудом понимали контекст», что приводило к неправильным или недостаточным решениям. При этом модель Claude 3.5 Sonnet показала наилучшие результаты, однако большинство ответов и этой нейросети всё равно были неверными.
Исследователи пришли к выводу, что на данный момент ИИ не способен писать даже простой код и тем более заменить специалистов, что в корне противоречит заявлению гендиректора OpenAI Сэма Альтмана о том, что модели, способные решать задачи программирования на начальном уровне, появятся уже к концу 2025 года.