ИИ пока не справляется с отладкой кода, показало исследование Microsoft

Искусственный интеллект (ИИ) всё чаще помогает программистам, но отладка — поиск и исправление ошибок в коде — остаётся для него слабым местом. Новое исследование Microsoft показало, что даже передовые модели ИИ не могут соперничать с опытными разработчиками в этой задаче.

Исследователи протестировали девять моделей ИИ, включая Claude 3.7 Sonnet от Anthropic и o1 от OpenAI, на бенчмарке SWE-bench Lite, который включает 300 задач по отладке. Лучший результат показала Claude 3.7 Sonnet, решив 48,4% задач, тогда как o1 справился с 30,2%, а o3-mini — лишь с 22,1%. Для сравнения, опытные программисты обычно решают такие задачи быстрее и точнее.

Проблема кроется в нехватке данных для обучения ИИ. Моделям недостаёт примеров, показывающих, как люди шаг за шагом устраняют ошибки, используя инструменты вроде отладчиков. Без таких данных ИИ теряется, не понимая, какой инструмент применить. Исследователи уверены: специализированное обучение может улучшить результаты.

Несмотря на успехи ИИ в создании кода — например, Google сообщает, что 25% их нового кода генерирует ИИ, — отладка подчёркивает, что человеческий опыт пока незаменим.