Компания Microsoft представила нейросеть VALL-E, позволяющую сымитировать человеческий голос всего после трёх секунд обучения. На этом её особенности не заканчиваются: в отличие от альтернативных разработок, VALL-E способна имитировать ещё и эмоции и тон говорящего, причём даже при озвучивании текста, который человек не говорил.
Нейросеть тренировали на 60 000 часах английской речи — на данный момент её результаты довольно впечатляющие (их можно оценить на GitHub), но иногда имитируемый голос всё же кажется машинным.
Хотя VALL-E не является общедоступной разработкой, журналисты уже обеспокоились проблемой попадания подобного инструмента в плохие руки (особенно если его продолжат совершенствовать). К примеру, благодаря такой технологии злоумышленники смогут совершать реалистичные спам-звонки, имитируя голос родственников и знакомых человека.