Доказано: ИИ-чат-боты действительно деградируют, если их обучать на некачественном контенте

Учёные обнаружили, что если чат-бот на основе искусственного интеллекта обучается на большом количестве низкокачественной информации, это влияет на его работу в дальнейшем. В частности, он начинает хуже искать точную информацию, а также хуже рассуждать логически. Об этом говорится препринте, который опубликован на сайте электронного архива arXiv.

Команда учёных в ходе нового исследования решила выяснить, как работают большие языковые модели (LLM), обученные на множестве низкокачественных данных. Другими словами, на коротких популярных публикациях в соцсетях или на постах, содержащих поверхностную или претендующую на сенсационность информацию.

Aunoa

По итогу вывод специалисты сделали такой: LLМ-модели, обученные на данных низкого качества, имеют сбои при формировании рассуждений или вообще игнорируют их. Это приводит к тому, что по запросу предоставляется неверная информация. Бывали и случаи, когда модели предлагались вопросы с несколькими вариантами ответа и она выбирала неправильный. Кроме того, чем больше увеличивалась доля неточных данных, тем тем хуже чат-бот формировал рассуждения.

Результаты проведённого исследования подтверждают, что для обучения ИИ важно использовать именно качественные данные.