Даже «мизерный» объем дезинформации при обучении смог испортить ответы ИИ

Исследование Нью-Йоркского университета показывает, что внесение даже мизерного количества медицинской дезинформации в большие языковые модели (LLM) может существенно повлиять на их точность. Заменив всего 0,001% обучающих данных ложной информацией, исследователи обнаружили заметное снижение достоверности медицинских ответов.

LLM, часто обучающиеся на огромном количестве данных из Интернета, подвержены «отравлению» неверной информацией, что может произойти без прямого доступа к модели, просто путем размещения в Интернете недостоверного контента, который модель может включить в процесс обучения. Даже крошечная доля дезинформации может привести к неправильным или вредным результатам.

Так, исследование было сосредоточено на базе данных The Pile, используемой для обучения LLM, и показало, что поврежденные данные влияют не только на конкретные темы, но и на общую надежность модели. Попытки исправить модели после обучения были «в основном неэффективны».