Ученые из SberAI, НИУ ВШЭ, Института искусственного интеллекта AIRI и МФТИ разработали первый комплексный инструмент для оценки способности больших языковых моделей работать с длинными текстами на русском языке. Тест решает проблему отсутствия единого стандарта для сравнения таких систем.
Инструмент представляет собой «экзамен» из 18 заданий, проверяющих понимание текстов объемом от 4 тысяч до 128 тысяч структурных элементов. Задания включают поиск конкретных фраз, ответы на вопросы и объединение фактов из разных частей документа.
С помощью этого теста ученые сравнили 17 популярных моделей. Результаты показали, что качество работы даже самых продвинутых систем снижается с увеличением длины текста. Разработка поможет в создании ИИ, эффективно работающих с большими объемами русскоязычной информации.