Российские ученые выяснили, что ИИ теряет способность рассуждать в длинных текстах

Исследователи из Института AIRI создали метод для оценки того, как искусственный интеллект (ИИ) анализирует контекст и строит логические цепочки. Проверки показали, что популярные большие языковые модели теряют рассудительность при работе с длинными наборами данных. Как заявил научный сотрудник Максим Куркин, на некоторых задачах даже лидирующие системы падают до уровня случайного угадывания ответа.

Проблема носит системный характер. У всех моделей наблюдается одинаковая кривая падения качества по мере роста объема контекста. Существующие тесты проверяют только умение находить одиночные факты, но не длинные цепочки событий. Российские ученые придумали задачу с перемещением пяти персонажей между шестью комнатами. Нейросеть должна была запомнить десятки или сотни ходов и ответить на вопросы.

По словам Куркина, исследователи проверили 12 продвинутых моделей, включая GPT-4o и Deepseek-R1. Во всех случаях качество рассуждений резко падало с ростом числа перемещений. Это подтверждает более ранние данные AIRI о том, что ИИ использует лишь 10−20% контекста при анализе длинных текстов.