LAION вычистила незаконный контент из набора данных для обучения ИИ

В ответ на опасения по поводу незаконного контента в обучающих данных для ИИ команда LAION представила Re-LAION-5B, тщательно очищенную версию своего набора данных LAION-5B.

Этот шаг последовал за разоблачениями исследователя Стэнфордской интернет-обсерватории Дэвида Тиля, который обнаружил в оригинальном наборе данных ссылки на материалы о сексуальном насилии над детьми, что вызвало широкую критику. Обновленный набор данных Re-LAION-5B, разработанный в сотрудничестве с Internet Watch Foundation (IWF) и Канадским центром защиты детей (C3P), призван установить «новый стандарт» для наборов данных, используемых в обучении искусственного интеллекта.

Однако критики утверждают, что хотя Re-LAION-5B и представляет собой прогресс, он не решает проблему полностью. Специалисты по искусственному интеллекту, такие как Алекс Шампандард, и эксперты в области права призывают к ужесточению правил и совершенствованию методов сбора данных, чтобы «предотвратить в будущем включение незаконного или конфиденциального контента».