Специалисты Института искусственного интеллекта МГУ и «Яндекса» разработали метод обучения нейросетей тонкостям русского языка. Разработка была представлена на V Конгрессе молодых ученых.
Ученые создали набор из тысячи примеров с грамматическими, пунктуационными и орфографическими ошибками. Примеры охватывают 48 сложных правил, включая те, что проверяются на ЕГЭ и олимпиадах по русскому языку.
Для обучения применяется метод RAG. Специальная система находит в базе данных предложения с аналогичными ошибками и передает их языковой модели. Это позволяет улучшать качество текстов без полного переобучения нейросети.
Тестирование показало увеличение точности исправления сложных ошибок на 5−10% как в российских, так и в зарубежных языковых моделях. Набор данных и методика обучения находятся в открытом доступе.
Разработка может использоваться для создания образовательных сервисов.