Учёные из Института AIRI выяснили, что такие, казалось бы, малозначимые элементы, как запятые, артикли и стоп-слова, играют ключевую роль в понимании текста языковыми моделями.
В серии экспериментов исследователи показали: удаление этих деталей способно снизить точность работы ИИ до 20%.
В первом тесте команда обучила модель восстанавливать текст по токенам — минимальным единицам, на которые разбивается ввод. Выяснилось, что наибольшую контекстную нагрузку несут как раз стоп-слова и знаки препинания, а не «смысловые» существительные или глаголы.
Далее те же элементы удалили из задач на понимание, включая MMLU и BABILong. Результат: даже крупные модели, включая ChatGPT, начали ошибаться чаще.
Исследователи подчеркнули, что восприятие «малозначительных» слов как второстепенных — заблуждение, особенно при взаимодействии с ИИ.