Российские учёные снизили затраты на разметку данных для ИИ

Российские учёные снизили затраты на разметку данных для ИИ Группа российских специалистов разработала метод, позволяющий существенно сократить затраты на разметку данных, которые необходимы для обучения систем искусственного интеллекта (ИИ), использующих большие языковые модели. Этот подход основан на принципе активного обучения, при котором сама модель выбирает наиболее полезные примеры для повышения своей точности.

Российские учёные снизили затраты на разметку данных для ИИ

Группа российских специалистов разработала метод, позволяющий существенно сократить затраты на разметку данных, которые необходимы для обучения систем искусственного интеллекта (ИИ), использующих большие языковые модели. Этот подход основан на принципе активного обучения, при котором сама модель выбирает наиболее полезные примеры для повышения своей точности.

Одной из главных проблем при создании ИИ в узких областях, таких как медицина или юриспруденция, остаётся необходимость в большом количестве тщательно размеченных данных. Их подготовка требует либо участия квалифицированных специалистов, что дорого, либо значительных вычислительных ресурсов при использовании крупных языковых моделей.

Новый метод позволяет начать обучение на ограниченном наборе уже размеченных данных, после чего модель самостоятельно выбирает, какие дополнительные примеры помогут ей улучшить точность. Это даёт возможность снизить объём требуемой разметки в два-четыре раза без потерь в качестве результата.

Исследователи протестировали технологию на четырёх популярных задачах — генерации ответов, решении логических задач, понимании текста и создании кратких резюме. Результаты показали, что модель, использующая новый подход, показывает сопоставимое качество с методами случайного отбора, но требует примерно втрое меньше размеченных данных.

Инструменты, реализующие этот метод, выложены в открытый доступ. В разработке участвовали специалисты из Т-Технологий, института AIRI, ВШЭ, Иннополиса и Сбера.