Команда Yandex Cloud уже некоторое время работает над сервисом синтеза и распознавания Yandex SpeechKit. На его базе была разработана новая модель нейросети, которая умеет одновременно распознавать более 10 языков. Такого нейронного полиглота можно использовать для быстрого создания голосовых помощников и роботов для колл-центров, способных общаться на разных языках.
Нейросеть работает как с наиболее распространёнными языками (английским и французским), так и с менее популярными (датским, финским, турецким). Алгоритмы автоматически распознают речь в потоке на любую тему и могут переключаться между языками. Нейросеть понимает как короткие, так и длинные фразы, имена, адреса, даты и числа. Она постоянно учится и совершенствует свои навыки.
Новая модель работает на базе архитектуры Transformer, обрабатывая данные параллельно и независимо друг от друга. То есть речь на разных языках распознаётся по отдельности. Обучение осуществлялось на десятках терабайтов данных из профессиональных датасетов, а также на массивах данных из сервисов Яндекса.
Нейросеть-полиглот доступна для пользователей Yandex SpeechKit и настраивается стандартными средствами в API.