OpenAI выпустила предварительную версию своего нового голосового движка, который позволяет создавать синтетические копии голосов на основе любого 15-секундного аудиообразца. Новинка, получившая название Voice Engine, является расширением существующего API для текста в речь компании.
Генеративная модель искусственного интеллекта, лежащая в основе Voice Engine, разрабатывалась около двух лет и уже используется в функциях голоса и чтения в чат-боте ChatGPT, а также в доступных голосах OpenAI для текста в речь. Главное отличие нового движка — его способность вернуться к исходной форме после растяжения.
Пока нет точной даты для общедоступного использования Voice Engine, но компания планирует внимательно отслеживать, как модель используется, чтобы предотвратить возможные злоупотребления. Генерация синтетических голосов может потенциально привести к множеству этических и правовых проблем, включая угрозу существованию профессии озвучивания.
Ожидается, что Voice Engine найдет применение в медицине, образовании и других сферах, где синтетические голоса могут быть полезны для людей с нарушениями речи или инвалидностями. Помимо этого, оно также может быть использовано для создания голосовых ассистентов, озвучивания аудиокниг и других коммерческих приложений.