9 апреля 2025, 09:35

Amazon представила новую голосовую модель Nova Sonic: она точнее GPT-4o

Компания довольно долго отставала от лидеров рынка в области генерации голоса. Пришло время наверстать упущенное.

Вчера, 8 апреля, компания Amazon официально представила миру свою новую генеративную модель искусственного интеллекта под названием Nova Sonic, которая способна нативно обрабатывать голос пользователя, а также генерировать естественную речь на основе текстовых подсказок. Представители компании отмечают, что в плане производительности их новая модель способна конкурировать с новейшими голосовыми моделями от OpenAI и Google в бенчмарках, которые оценивают скорость, точность распознавания речи человека и качество генерируемого диалога. И учитывая, что данные компании являются лидерами рынка, это действительно внушительный прогресс.

Подписывайтесь на Telegram-канал про технологии

Кроме того, в официальном пресс-релизе компания Amazon назвала Nova Sonic наиболее экономичной ИИ-моделью для обработки голоса, заявив, что новинка примерно на 80% дешевле, чем модель GPT-4o от OpenAI. В условиях ИИ-бума, когда на развитие новых технологий, расширение инфраструктуры и энергию приходится тратить безумные ресурсы, более экономичная модель является одним из ключевых приоритетов для крупных компаний и их пользователей. Также в Amazon рассказали, что Nova Sonic была построена на базе технической архитектуры, которая уже лежит в основе голосового помощника Alexa.

Разработчики отмечают, что новая голосовая модель отлично справляется с маршрутизацией пользовательских запросов к различного рода API, что делает Nova Sonic гораздо более практичным решением. Например, голосовая модель понимает, когда ей нужно найти информацию в реальном времени из интернета, проанализировать собственные источники информации или выполнить необходимые действия во внешнем приложении, используя для этого соответствующий инструмент. Также модель в рамках двухстороннего диалога умеет ждать, чтобы заговорить с человеком в подходящий момент, учитывая паузы в речи.

Но самое главное, что Nova Sonic делает гораздо меньше ошибок при распознавании речи, чем другие голосовые ИИ-модели. Новинка, например, может точно понимать фразы пользователя, даже если он бормочет, делает ошибки в словах или находится в шумной обстановке.

В тесте Multilingual LibriSpeech на распознавание речи на различных языках голосовая модель Amazon продемонстрировала среднюю долю ошибок на уровне 4,2% (из 100 слов только 4 будут распознаны с ошибкой). А в тесте Augmented Multi Party Interaction решение компании было на 46,7% точнее, чем GPT-4o-transcribe от OpenAI. Обходит Nova Sonic конкурента и по скорости — средняя задержка модели составляет 1,09 секунды, тогда как GPT-4o показывает 1,18 секунды.

Источник

···

Последнее изменение:
9 апреля 2025, 09:56