Матерными словами нейросеть научилась эффективно сокращать текст

Ученые из Института AIRI, НИУ ВШЭ и Университета Иннополис обнаружили интересное применение для нецензурной лексики в ИИ. Оказывается, нейросети можно научить сильно сокращать текст, заменяя целые фразы крепкими выражениями, при этом сохраняя основной смысл.

Исследователи из нескольких российских институтов изучали, как ИИ работает с разным содержанием. Они заметили, что в живой речи одно грубое слово часто заменяет целое предложение, упаковывая в себя много смысла. Было решено проверить, можно ли использовать этот принцип для сжатия текстов силами нейросети, дабы экономить вычислительные ресурсы. Они создали специальный словарь соответствий между обычными фразами и их резкими аналогами и обучили на нём модель.

Цель исследования — не научить ИИ ругаться, подмечается в пресс-релизе. Рабочая версия модели не использует мат при обработке обычных текстов.

В будущих работах исследователи планируют сосредоточиться на сборе более качественных и “контекстно богатых данных”, чтобы модель точнее различала эти случаи.