Только часть из 7000-8000 языков, на которых говорят во всем мире, пользуется преимуществами современных технологий: транскрипция голоса в текст, автоматические субтитры, мгновенный перевод и распознавание речи.Так, ученые Университета Карнеги-Меллон хотят расширить число языков, на которых доступны средства автоматического распознавания речи, с около 200 до 2 000.
Большинство моделей распознавания речи требуют двух наборов данных: текстовых и аудио. Текстовые данные существуют для тысяч языков. Аудиоданных нет. Команда Синьцзяна Ли надеется устранить необходимость в аудиоданных, сосредоточившись на лингвистических элементах, общих для многих языков.
“Мы пытаемся устранить это требование к аудиоданным, что поможет нам перейти от 100 или 200 языков к 2 000”, – сказал Ли. Находясь на ранней стадии, исследование улучшило существующие инструменты аппроксимации языка на небольшие 5%, но команда надеется, что оно послужит вдохновением не только для их будущей работы, но и для работы других исследователей.