Роботы и компьютеры, «говорящие» человеческим языком, до недавнего времени были фантастикой. Теперь технология преобразование речи используется повсеместно. Единственная проблема — это то, что компьютерная программа не может в точности повторить интонацию человека. Однако компании Google удалось разработать систему преобразования текста в речь, которая полностью имитирует человеческий голос.
Система получила название Tacotron 2. Это уже второе поколение программы, состоящее из двух нейронных сетей. Первая преобразует текст в спектрограмму (визуальное представление звуковых частот), которая затем передаётся в WaveNet — алгоритм генерации речи. WaveNet считывает визуальные изображения и создаёт соответствующие звуковые элементы.
Примеры того, как работает система Tacorton 2, выложены на этой странице. Здесь можно прослушать фразу, сказанную программой и человеком. Разницу заметить практически невозможно. При этом Google не уточняет, какая запись была сгенерирована нейросетью. В компании отмечают, что Tacorton 2 отлично справляется с произношением имён, учитывает знаки пунктуации и другие моменты, например, выделяет слова с большой буквы. Но есть и некоторые трудности в произношении сложных слов. Кроме того, разработчики пока не могут заставить систему генерировать речь в реальном времени.
Tacorton 2, вероятнее всего, станет мощным дополнением к Google Assistant, в котором используется алгоритм WaveNet. Пока программа может говорить только одним женским голосом. Чтобы заставить её подражать другому голосу, придётся заново обучить систему.
Примеры того, как работает система Tacorton 2, выложены на этой странице.
Исправьте, пожалуйста.