ИИ-алгоритмы научили смягчать токсичные сообщения на татарском языке

Участники хакатона «ИИ-ЗАМАН Хак» создали алгоритмы, автоматически преобразующие токсичные сообщения на татарском языке в нейтральные. Лучшие решения представили команды из университетов Москвы, Санкт-Петербурга и Казани.

Соревнования по детоксикации текстов с помощью искусственного интеллекта (ИИ) организовали Академия наук Татарстана и Институт AIRI. Задача для участников состояла в том, чтобы обучить ИИ не просто определять токсичность, а предлагать исправленную версию сообщения, сохраняя его смысл, но удаляя обидные выражения.

Первое место и приз в 150 тысяч рублей завоевала команда Sota, объединившая студентов НИУ ВШЭ и Университета ИТМО. Они применили метод кросс-языкового переноса знаний, используя данные на русском языке, чтобы компенсировать нехватку размеченных материалов на татарском. Второе и третье места заняли команды из Сколтеха и Казанского федерального университета.

Как отметил вице-президент Академии наук Татарстана Айрат Хасьянов, развитие технологий обработки естественного языка, включая NLP, важно для сохранения исконных языков России.