Некоторые стартапы в сфере искусственного интеллекта перестают полагаться на случайные данные из интернета и «низкооплачиваемых аннотаторов». Вместо этого компании собирают «качественные, специально подготовленные наборы данных» самостоятельно. Доходит до интересного.
Так, сотрудники компании Turing Labs носили GoPro на голове, снимая повседневные действия — готовку, уборку, работу руками. Эти видео служат обучением для ИИ-моделей компьютерного зрения. Компания также нанимает поваров, строителей и электриков, чтобы собрать разнообразные данные. Позже на основе этих видео создаются синтетические данные.
Аналогичный подход использует компания Fyxer, которая обучает модели для сортировки и составления писем. Основатель Ричард Холлингсворт отмечает, что важнее не количество данных, а их качество. Для обучения использовались «опытные помощники», а инженеры и менеджеры контролировали процесс.
Даже при наличии открытых моделей, без экспертного и тщательно подготовленного обучения модель не сможет эффективно работать, пишут СМИ со ссылкой на представителей компаний.