10 июня 2018, 16:45

Голос будущего: как появились голосовые ассистенты

В статье мы рассмотрим историю развития голосовых ассистентов — от первых синтезаторов речи 1779 года до умных колонок в наших домах

Статьи / ИИ

Голос будущего: как появились голосовые ассистенты

Как часто вы пользуетесь голосовыми поиском, либо голосовым ассистентом на своем смартфоне? С каждым годом количество поисковых запросов с помощью голоса растет в геометрической прогрессии, буквально каждый пятый владелец мобильного устройства не упускает возможность сэкономить время и «завойсить» интересующий вопрос в интернете. По прогнозам экспертов, к 2020 году больше половины всех запросов в интернете будут выполняться с помощью технологий распознавания речи.

Подписывайтесь на наш Телеграм

Из недавних релизов хочу отметить умную колонку Яндекс.Станция с фирменным голосовым помощником Алиса. Благодаря наличию HDMI-разъема колонка может выступать в роли телеприставки, и абсолютно всё взаимодействие с графической оболочкой, поиском в интернете и видео-контентом выполняется с помощью голоса.

Это уже, пожалуй, можно назвать маленьким шагом к далекому будущему. Но давайте по порядку, и узнаем, с чего все началось.

1779 год — первый синтезатор речи

Возможно, это может показаться кому-то странным, но именно в 1779 году было разработано первое в истории устройство для синтеза речи, созданное немецким инженером — Христианом Кратценштайном. Работая в России, он создал аппарат, который мог воспроизводить всего несколько гласных звуков (а, э, и, о, у). На фоне нынешних технологий — это всего ничего, но для того времени и с учетом того, что это не программный, а механический синтезатор речи, можно со всей уверенностью считать это революцией и первым шагом в развитии существующих фонетических систем. К сожалению, фотографии и схемы устройства не дошли до наших дней.

1937 год — Voder

Изобретение ученого, сотрудника Американской лаборатории Bell — Гомера Дадли — является самым первым электронным речевым синтезатором. Аппарат Voder был представлен в 1937 году. Интонация речи вводились ассистентом с клавиатуры, напоминающей таковую у музыкальных инструментов, на презентации в видео, слышно, что аппарат умеет «выговаривать» лишь одно имя, но с разными интонациями.

https://youtu.be/0rAyrmm7vv0

1939 год — первые шаги к распознаванию речи

Куда более интересной и, пожалуй, сложной задачей было научить «железки» не имитировать, а распознавать человеческую речь. Советский физик Лев Мясников как раз был занят таким исследованием с 1939 года в рамках диссертации «Техническая фонетика». В 1942 году, несмотря на войну и ужасы блокадного Ленинграда, ученый защитил свой проект, продемонстрировав фокус-группе аппарат, умеющий распознавать несколько гласных и согласных звуков.

1952 год — Audrey (Automatic digit recognizer)

В 1952 году был представлен первый голосовой распознаватель чисел от 1 до 9, разработанный в стенах лаборатории Bell. Размеры аппарата были внушительными даже для того времени. Его высота составляла порядка 180 сантиметров. При соблюдении того условия, что диктующий цифры человек является для аппарата «знакомым», система работала практически беспрекословно, с точностью около 90%, выходит погрешность в распознавании речи была 10%. На сегодняшний день, голосовые ассистенты имеют погрешность всего в 5%, то есть это уже является уровнем человеческого звуковосприятия.

Работа с распознавателем чисел происходила с помощью телефона: абонент произносил число в трубку, система распознавала звук, как электрический сигнал и сопоставляла его с загруженными ранее в систему голосовыми референсами фраз.

1962 год — Shoebox

Спустя ровно десять лет компания IBM представила собственную технологию распознавания речи — Shoebox.

https://youtu.be/rQco1sa9AwU Система могла распознавать кроме 16 заложенных слов и 6 цифр еще и 10 математических команд. Семейства, представляемых в тот период времени «речевиков», мало чем отличались друг от друга, и соответственно прогресс шел семимильными шагами, без особого развития, породив потерю надежды и доверия к разрабатываемой технологии.

Стагнация

После публикации в 1969 году открытого письма американского инженера Джона Пирса, в котором он обосновал свое сомнение относительно исследованиям в области фонетических технологий, лидирующая тогда команда Bell, потеряла интерес со стороны инвесторов и на несколько лет осталась без финансовой поддержки.

1980-е — Julie the talking doll

Как и в большинстве случаев, развитие технологий стала двигать несерьезная, не привлекающая со стороны взрослых внимания, и на первый взгляд, не представляющая собой никакой пользы вещь — игрушка. Говорящая кукла Джулия (Julie the talking doll) появилась на прилавках американских магазинов в 1987 году. Её уникальность состояла в том, что ребенок мог научить куклу распознавать его речь.

https://youtu.be/UkU9SbIictc За семь лет до выпуска игрушки, в научном обществе произошел переворот, который по важности безусловно превосходит вышеупомянутую Джулию. В 1980 году инженеры впервые научились применять методы «Скрытой Модели Маркова», разработанной отечественным ученым в области математики Андреем Марковым.

Скрытая Модель Маркова, Марковские цепи

Немного отойдя от темы, постараюсь объяснить что это за такая математическая модель. «Скрытая Модель Маркова» (СММ), или «Марковская цепь» была выведена учеными в 1907 году, и именно она дала возможность совершенствования таким наукам как: физика, химия, механика и так далее. По сути это описание вероятностей перехода объекта из одного состояние в другое. То есть будущая вариация объекта не зависит от прошлого, а зависит от настоящего — от того, в каком состоянии объект находится в данный момент времени. Выходит, это матричная система генерации случайных событий в рамках заданного аргумента.

Для примера рассмотрим такую модель графа с возможными физическими состояния человека:

По картинке мы можем определить, что человек может находиться в четырех состояниях, причем не в каждое может перейти сразу. Например, если человек лежит, то он не может просто взять и пойти, для этого ему нужно пройти цепочку последовательности — сесть, встать и только потом уже пойти.

Алгоритмы марковской модели в распознавании речи работают примерно по тому же принципу матричного графа. Например, если мы имеем матрицу (базу данных) 1000×1000 слов, где каждое из них уникально и не повторяется, благодаря отдельно написанному алгоритму, мы можем научить систему распознавания речи построению предложений, где генерация каждого последующего слова будет создаваться с учетом предыдущих 2-4 слов при совмещении с системой сравнения проговариваемых фраз с ранее загруженными фонетическими паттернами. А благодаря наличию нейросетей, любой желающий при должных знаниях может «научить» свой сервис обучаться, то есть чем больше люди будут пользоваться теми или иными функциями, тем лучше будут оптимизированы алгоритмы работы распознавания речи, благодаря улучшению генерирующей работы Марковской модели, расширением словарного запаса и пополнением библиотеки голосовых паттернов.

1990-е

В период 1990-х появилось достаточно большое количество систем распознавания речи от разных издателей, и каждая из них становилась все лучше и лучше. Так, например, в 1990 году увидела свет одна из первых коммерческих программ по распознаванию речи — Dragon Dictate, ориентированная на массовый рынок потребителей. К сожалению, за весьма бедные возможности софта разработчики просили целых $9 тыс. За эту космическую сумму денег пользователь получал возможность писать текст, просто проговаривая его в микрофон. К сожалению, программа не всегда работала корректно, и допускала даже по тем меркам достаточно серьезные ошибки.

1996 год запомнился выпуском системы обработки справочных запросов по телефону. Представляла она из себя портал VAL, призванный помочь покупателям в поиске нужной информации о интересующих товарах. Сферой использования этой системы были торговые центры, информационные стенды и прочие коммерчески ориентированные области деятельности.

В 1997 году, вышла обновленная версия вышеупомянутой Dragon Dictate, в ней разработчики потрудились над скоростью и качеством распознавания речи. Система могла без затруднений распознать до 100 слов в минуту, а благодаря цене в 600$ разработчики смогли вывести свой продукт на широкий рынок.

2001-2002 годы — Microsoft и Google

В 2001 году Microsoft решили интегрировать технологию распознавания речи в свой обновленный офисный пакет Office XP. Такое дополнение было приятным бонусом для покупателей, и несмотря на то, что система требовала “тренировки”, имела некие неточности в распознавании, это не помешало Microsoft сделать её одним из самых массовых продуктов в этой сфере и разработать почву для своих будущих проектов в этом направлении, о которых вы обязательно узнаете в статье, но чуть позже.

Google уже в 2002 году предприняла решение по развитию голосового поиска и интеграцией его в свою экосистему. Voice Search не имел особого успеха, но послужил отправной точкой для будущего приложения Voice Search для iPhone и Android, ставшим впоследствии интерактивным помощником Google Now, а с недавних пор Google Assistant. Система распознавания речи 2002 года от Google как и аналоги конкурентов работала при помощи телефонного звонка на специальный номер, пользователи не оценили такой способ поиска, так как он оказался попросту неудобен. Но разработчики компании засучив рукава продолжили движение в этой сфере, и судя по нынешним продуктам, время в стенах офиса на Mountain View было потрачено не зря.

2005-2006 годы — Apple и Microsoft

С выходом OS X Tiger, Купертиновцы также решили не отставать и влиться в гонку разработки «речевиков». В систему была введена фирменная система распознавания и синтезирования речи VoiceOver. Её главным отличием была независимость от «спикера», то есть пользоваться ей мог кто угодно — систему не нужно было обучать к определенному голосу. Возможность синтеза речи нашла применение для людей с плохим зрением, система могла читать любой текст на экране, от статей в интернете, электронных писем до элементов системы, например пунктов в меню настроек и названия файлов на рабочем столе.

Позже Microsoft решили не отставать от Apple и интегрировали голосовое управление в свою новую Windows Vista.

Google Voice Search

Наконец, мы переходим к становлению нынешних голосовых помощников.

Как я говорил, Google уже в 2002 году попробовали себя в создании поиска по телефону. Спустя 7 лет компания представила приложение голосового поиска на смартфонах iPhone. Приложение функционировало с помощью облачных вычислений на серверах Google. Благодаря огромному числу голосовых запросов пользователей, словесная и фонетическая база данных на серверах к 2011 году насчитывала уже около 230 миллиардов слов на разных языках мира. Благодаря колоссальному успеху, приложение Voice Search по сей день закрепляет за собой славу самого популярного сервиса Google.

https://youtu.be/0L_IhqGcRM8 Позже появилась версия и под собственную операционную систему Android. В связи с этим корпорацией была развернута масштабная рекламная кампания смартфонов на фирменной платформе, акцентируя внимание клиентов на уникальной для того времени фишке — голосовом поиске.

В 2011 году функцию голосового поиска получил и фирменный браузер Google Chrome.

В 2012 году вместе с презентацией Android 4.1, компанией был представлен персонализированный ассистент Google Now с расширенными возможностями голосового поиска. Функционал работы сервиса строился на подборе актуальной информации для пользователя с учетом его местоположения, личной информации календаря, поисковых запросов, истории браузера и маршрутам перемещения. Каждый пользователь имел возможность настроить карточки с рекомендациями под себя. Например, добавить карточки с актуальными новостями, играми любимых спортивных команд, проходящими рядом с ним мероприятиями и котировками акций.

В 2016 году на презентации Google I/O был представлен умный персональный помощник Google Assistant, являющийся идеологическим продолжением Google Now. Умный ассистент стал эксклюзивом для умной колонки Google Home и смартфонов Pixel. Позже функция появилась в оригинальном приложении Google на всех смартфонах Android.

Siri

Ныне фирменный голосовой ассистент Apple некогда был отдельным приложением, которое распространялось в App Store. Разработкой Siri занимался «Всемирный центр исследования искусственного интеллекта» аж с 2007 года. И именно Siri является первым в мире голосовым ассистентом, потому что система умела не только делать поиск в сети интернет, как например Voice Search от Google, но и вести какой-никакой диалог с пользователем при помощи синтезатора речи и заготовленных фраз. В Apple понимали перспективность технологии и уже в 2010 году выкупили права на её использование. А в 2011 году на презентации iPhone 4s объявили о полной интеграции голосового помощника в iOS.

Уже тогда Siri умела прокладывать маршруты на карте, заказывать такси, включать музыку, оглашать котировки акций, ставить напоминания, создавать будильники, события в календаре и прочее.

Хочется сказать, что за 7 лет существования Siri в iOS, возможности ассистента не особо серьезно эволюционировали. Единственное что было добавлено компанией за последнее время это возможность работы с другими приложениями, поддержка новых языков, макросы (с iOS 12) и обновленный интерфейс. Причиной такой неспешности, с точки зрения внедрения компанией новых функций, может является уход основной команды разработчиков Siri, в связи с кадровой перестановкой нового руководства, пришедшего после смерти Стива Джобса.

Microsoft Cortana

Виртуальная голосовая помощница Cortana была впервые продемонстрирована Microsoft на собственной презентации Build 2 апреля 2014 года. Назван ассистент в честь персонажа из игровой серии шутеров Halo. Голосом ассистента стала актер озвучки Джен Тейлор, подарившая голос Кортане в игре.

Особенностью ассистента является кроссплатформенность. По умолчанию Cortana предустановлена на компьютерах и мобильных устройствах с операционной системой Windows 10, а также на игровых консолях Xbox One. Владельцам Android и iOS устройств доступно для скачивания приложение Cortana в Google Play и App Store.

Также ассистент предугадывает нужды пользователя при условии, что вы разрешите сервису доступ к своим личным данным — электронной почте, календарю, местоположению и другим.

Подобное уже было представлено Google в собственном помощнике Now в 2012 году, но, к сожалению, он не имел такой проработки в плане понимания контекста и уступал по количеству и качеству голосовых возможностей.

Amazon Alexa

Следующими на очереди идут Amazon. Компания решила влиться в набирающий обороты технологический тренд и опубликовала в 2014 году фирменный голосовой ассистент, разработка которого велась аж с 2010 года. Изначально, как в случае с Siri, Alexa являлась отдельным приложением для смартфонов на iOS и Android. Понимая, что на одном приложении далеко не уедешь, компанией также было представлено отдельное устройство — первая в мире умная колонка с голосовым ассистентом Amazon Echo.

Её уникальность состояла в том, что кроме обычных пользовательских запросов, Amazon Echo могла послужить эдаким мозгом для всей техники умного дома. То есть по голосовому запросу владелец мог контролировать температуру на термостате, управлять освещением и делать прочие подобные вещи у себя дома.

https://youtu.be/sulDcHJzcB4 Позже конкурентами в лице Google и Apple были представлены свои умные колонки Google Home и HomePod с аналогичным функционалом. Говорить подробно о них я не вижу смысла, так как различия между ними заключаются лишь в более глубокой интеграции под каждую из собственных экосистем.

Общей проблемой этой троицы для пользователей, родившихся и проживающих в СНГ, является отсутствие поддержки русского языка и несовместимость с местными сервисами навигации, вызова такси, заказа еды.

Яндекс.Станция

Но совсем недавно, 29 мая, наша отечественная компания Яндекс, провела конференцию Yet another Conference 2018, на которой представила свою первую железку — умную колонку Яндекс.Станция с интегрированным в неё голосовым помощником Алиса.

Станция от Яндекса была полностью спроектирована в стенах Московского офиса компании. Кроме возможности работы в качество умного помощника, колонка имеет видеовыход HDMI и может работать с внешними проекторами, мониторами и само собой с телевизорами. Поиск фильмов осуществляется при помощи интеграции библиотеки онлайн сервисов: ivi, Кинопоиск, Амедиатека и Яндекс.Видео

Музыкальные возможности колонки явно не хуже конкурентов, максимальная мощность звука составляет целых 50 Вт. В довесок имеется возможность звучания в стереорежиме. Внутреннее убранство гаджета можно увидеть на официальной схеме:

В качестве основного источника аудио-контента выступает фирменный сервис Яндекс.Музыка, насчитывающий в себе коллекцию из 35 млн композиций. Также приятным бонусом является наличие открытого протокола Bluetooth, позволяющего выводить на колонку звук с любого вашего устройства при отсутствии возможности подключения колонки к сети интернет. Работает она только через Wi-Fi.

К функционалу Алисы добавили раздел Диалоги. Что это такое? Это отдельная платформа для голосовых чат-ботов, пополнить которую может любой желающий при условии прохождения модерации своего проекта командой Яндекс. Уже сейчас в библиотеке есть несколько забавных Диалогов, которые помогут вам приятно провести время.

Из таких я выделил: «Игра Математика» — замечательнейшая возможность занять ребенка на некоторое время, в течение которого он будет обучаться простой арифметике в игровой форме; «Верю — не верю» — проверка на то, отличите ли вы реальный факт от выдумки, лично я давеча пока тестировал этот навык, узнал много интересных вещей, незнакомых мне ранее. И интерактивную игру «Фантастический квест», в которой с помощью своих решений вы можете решить судьбу космического путешественника — тем, кто когда-то играл в Lifeline, наверняка должно понравится.

Продажи колонки совсем начнутся скоро, уже этим летом вы сможете приобрести себе такой гаджет за скромные 9 990 руб. Всем покупателям будет предоставлен год доступа к Яндекс.Музыке, 2 месяца ivi.ru и 3 месяца использования Амедиатеки.

Также на презентации было отмечено, что колонка получит три режима фильтрации контента. Например, если дома имеются дети, будет возможность ограничить доступ к сервисам с контентом для взрослых.

https://youtu.be/Xm9TY3d8n3k В будущем колонка получит поддержку управления элементами умного дома по причине того, что в России, к сожалению, на данный отсутствуют полноценные системы такого рода. На первое время разработчиками будет добавлено управление светом и кондиционерами.

Заключение

Подводя итоги, хочу сказать, что мы живем в очень интересное время, и пускай голосовые ассистенты, системы умного дома, нейросети сейчас находятся, по факту, в зачаточном состоянии, можно быть абсолютно точно уверенными, что в будущем нас ждут куда более интересные вещи от мира высоких технологий, а венцом этой эпохи будут явно куда более лучшие продукты.

Спасибо за внимание!

···

Последнее изменение:
26 июля 2018, 19:33