Ученые из Массачусетского технологического института (MIT) и других учреждений разработали новый инструмент — Data Provenance Explorer, который улучшает прозрачность данных для искусственного интеллекта (ИИ). Этот инструмент автоматически генерирует легко читаемые сводки о создателях наборов данных, их источниках, лицензиях и допустимых способах использования.
Аудит более 1800 текстовых наборов данных, проведенный командой, показал, что более 70% из них не имели информации о лицензиях, а около 50% содержали ошибки. Это создает правовые и этические риски, а также может негативно повлиять на качество ИИ-моделей, если данные используются не по назначению.
Data Provenance Explorer предназначен для упрощения выбора данных, соответствующих целям модели. Это поможет избежать использования некорректных или предвзятых данных и улучшит точность ИИ в реальных приложениях, таких как оценка кредитных заявок или ответ на запросы клиентов. В будущем планируется расширение анализа для мульти-модальных данных, включая видео и речь.