Российские ученые создали тест для оценки ИИ на длинных текстах

Российские ученые создали тест для оценки ИИ на длинных текстах Ученые из SberAI, НИУ ВШЭ, Института искусственного интеллекта AIRI и МФТИ разработали первый комплексный инструмент для оценки способности больших языковых моделей работать с длинными текстами на русском языке. Тест решает проблему отсутствия единого стандарта для сравнения таких систем.

Российские ученые создали тест для оценки ИИ на длинных текстах

Ученые из SberAI, НИУ ВШЭ, Института искусственного интеллекта AIRI и МФТИ разработали первый комплексный инструмент для оценки способности больших языковых моделей работать с длинными текстами на русском языке. Тест решает проблему отсутствия единого стандарта для сравнения таких систем.

Инструмент представляет собой «экзамен» из 18 заданий, проверяющих понимание текстов объемом от 4 тысяч до 128 тысяч структурных элементов. Задания включают поиск конкретных фраз, ответы на вопросы и объединение фактов из разных частей документа.

С помощью этого теста ученые сравнили 17 популярных моделей. Результаты показали, что качество работы даже самых продвинутых систем снижается с увеличением длины текста. Разработка поможет в создании ИИ, эффективно работающих с большими объемами русскоязычной информации.