adblock check

Представлена нейросеть Voicebox для работы с устной речью: генерация, стилизация, редактирование

Новая модель искусственного интеллекта позволит сделать метавселенные и другие виртуальные миры ближе к реальной жизни

В США разработали новую ИИ-модель. Она получила название Voicebox и предназначена для работы с устной речью. По словам разработчиков, их нейронная сеть способна решать широкий спектр задач: от генерации речи до её стилизации под конкретный случай. Своё детище авторы охарактеризовали как прорыв в речевом ИИ.

На данный момент существует большое количеств моделей, которые способны озвучивать введённый пользователем текст. Но Voicebox делает это на высоком уровне и позволяет редактировать уже сгенерированное аудио, например, исправить неправильно набранное слово. Поддерживаются шесть языков: английский, французский, немецкий, испанский, польский и португальский.

Представлена нейросеть Voicebox для работы с устной речью: генерация, стилизация, редактирование

Для обучения использовалось всего 50 часов аудиокниг — это хватило, чтобы искусственный интеллект приобрёл навыки устной речи. Кроме того, ему хватает две секунды, чтобы подстроить своё произношение под того или иного человека, создавая его аудиопрофиль.

Новый Voicebox можно задействовать практически где угодно. Весьма полезной ИИ-модель станет в метавселенных, чтобы голос аватара был максимально похожим на голос реального человека. Также разработчики сообщили, что Voicebox будет полезен слабовидящим людям, чтобы они смогли прослушать письма или сообщения голосами их авторов.

Информации о том, станет ли Voicebox общедоступным, неизвестно. Разработчики даже не предложили провести тестирование — опасаются злоупотреблений.

ksmorodin ksmorodin
Автор
🇷🇺
ИИ ИИ
11,8K участников
Вступить
Комментариев пока нет
Оставьте комментарий...
Оставьте комментарий...