В начале 2017 года китайский поисковый гигант Baidu представил новую систему под названием Deep Voice. Она использует методы машинного обучения, функцию искусственного интеллекта, для высококачественного конвертирования текста в речь. Первая версия системы способна создавать короткие предложения, по звуку почти не отличимые от реального человека. Сегодня, 25 октября, компания показала Deep Voice 3 — уже третье и последнее поколение своей инновационной технологии, и рассказала про ее удивительные особенности.
Baidu заявляет, что Deep Voice 3 анализирует 2 500 голосов всего за полчаса. В будущем с использованием большего набора данных этот показатель будет увеличен до 10 000 образцов или даже более того. Примеры синтезированных голосов, которые продемонстрировал поисковик в третьей версии системы, сильно отличаются по качеству от оригинала. Тем не менее, это не приоритетный параметр — как говорят разработчики. Согласно их словам, главная задача Deep Voice — реализовать технологию, способную решить нюансы множества существующих акцентов, присущих настоящему человеческому голосу.
«Наличие системы, способной эффективно генерировать широкий спектр голосов, открывает двери для многих вариантов использования, которые в противном случае были бы невозможны. Например, каждый персонаж в аудиокниге или видеоигре может иметь свой собственный уникальный голос для более расширенного пользовательского интерфейса. Если мы генерируем только один или два голоса, как показал наш образец спикера, наша система уже доказала, что она способна синтезировать очень естественные человекоподобные голоса. В будущем они могут быть использованы для цифровых помощников», — пишет Baidu в своем блоге.
Стоит отметить, что Baidu — не единственный поисковый гигант, работающий над синтезом компьютерной речи. Подразделение DeepMind компании Google занимается разработкой аналогичных технологий в рамках проекта WaveNet. Последняя версия технологии Google стала намного лучше справляться с акцентами и даже создает «виртуальные губы» для более естественного звучания голоса. В настоящее время WaveNet используется в режиме реального времени для генерации голосов Google Assistant на английском и японском языках.