adblock check

Google представила Gemini 3.1 Flash TTS: модель генерации речи с поддержкой аудиотегов

Теперь пользователь может очень гибко настраивать промпт, чтобы на выходе получать нужный тембр, тон, акцент и даже состояние сцены. Выглядит очень круто

Вчера, 15 апреля, компания Google официально представила Gemini 3.1 Flash TTS — новейшую модель искусственного интеллекта, отвечающую за преобразование текстового контента в речь. Ключевой особенностью данной новинки можно смело назвать систему аудиотегов — это новый способ управления стилем, темпом и манерой сгенерированной речи.

Видео: Vilobh Meshram, Max Gubin, Google
«Встраивая команды непосредственно в текстовый инпут, вы можете управлять выводом речи с гораздо большей точностью», — заявили представители поискового гиганта.

И выглядит эта система действительно очень гибкой — например, пользователь может срежиссировать сцену, подобрав оптимальные параметры для более точной генерации. Можно определить окружение сцены и дать конкретные установки по проведению диалога, чтобы получить необходимый результат.

«Контекст, создающий мир, помогает персонажам оставаться в образе и естественно реагировать друг на друга на протяжении нескольких ходов», — объяснили представители Google.

Кроме того, пользователь может задействовать уникальные аудиопрофили для подбора «актёров озвучки», а затем указывать примечания со стороны «режиссёра». Это позволяет менять темп, тон и даже акцент говорящего, а встроенные теги позволяют переключаться между базовыми настройками генерации даже посреди предложения. И, что самое интересное, когда пользователь настроит генерацию под свои требования, он может экспортировать точные параметры в виде кода API Gemini, чтобы затем использовать эти же параметры генерации аудио в других своих проектах. Это очень важно для согласованности конечного контента.

Также представители поискового гиганта делают акцент на том, что в Gemini 3.1 Flash TTS было существенно улучшено качество генерации речи. Более того, представители компании даже заявили, что их модель является самой естественной и выразительной моделью в этом сегменте на текущий момент. Эти заявления подкрепляются результатами слепых тестов бенчмарка Artificial Analysis TTS — новинка на данный момент набрала 1211 баллов, существенно оторвавшись от ElevenLabs v3 (одна из лучших моделей преобразования текста в речь).

Google представила Gemini 3.1 Flash TTS: модель генерации речи с поддержкой аудиотегов
Изображение: Vilobh Meshram, Max Gubin, Google

При этом первое место в рейтинге новинка занять всё же не смогла — Inworld TTS 1.5 Max опережает разработку Google на 4 балла.

Источник

ИИ ИИ
16,1K участников
Вступить
Комментариев пока нет
Оставьте комментарий...
Оставьте комментарий...