На этой неделе, 22 августа, Яндекс запустил новую версию поиска с алгоритмом «Королёв». В его основе — нейронная сеть, которая позволяет ему сопоставлять смысл запроса и веб-страницы и в разы точнее реагировать на сложные и неоднозначные запросы. Для обучения новой версии поиска используются поисковая статистика и оценки миллионов людей: получается, вклад в развитие системы вносят не только разработчики, но и вообще все пользователи.
Презентация «Королёва» состоялась, что символично, в московском планетарии. На сцене выступили Андрей Стыскин, Руководитель Яндекс.Поиска, Александр Сафронов, Руководитель службы релевантности Яндекс.Поиска и Ольга Мегорская, Руководитель отдела обработки данных Яндекс.Поиска. Trashbox.ru готов поделиться фотографиями, видео и впечатлениями.
От Матрикснета до нейросетей
Поисковые системы появились в середине 90-х годов прошлого века, когда Интернет был совсем маленьким — всего несколько тысяч сайтов. Поначалу поисковики просто составляли список страниц, где есть указанные слова без заморочек с ранжированием по степени соответствия запросу. Чем чаще в документе встречаются слова из запроса — тем лучше. Понятное дело, что с нынешним состоянием глобальной сети подобное уже не «прокатит».
В Яндексе для обработки запросов придумали Матрикснет — метод машинного обучения, с помощью которого строилась авторская формула ранжирования. Однако поиск продолжал опираться именно на слова. Но как быть с запросами, которые пользователи формулируют иносказательно или ассоциативно? Тогда искомая веб-страница не обязательно должна содержать строго все слова из запроса. Но как это объяснить машине? Вот бы она понимала нас, как человек...
В конце концов учёные придумали нечто на стыке технологий и биологии — искусственную нейронную сеть (ИНС). Согласно формулировке «Википедии», это «математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма». Нейронные сети способны обрабатывать информацию подобно нам и, главное, учиться и оттачивать навыки, словно живые существа. Собственно, они — основа полноценного искусственного интеллекта, появление которого вопрос времени.
В прошлом году Яндекс представил поисковый алгоритм «Палех» на основе нейронной сети. Он показал отличные результаты в решении задач, которые обычно были под силу лишь людям: прекрасно справлялся с распознаванием речи и объектов на изображениях. «Палех» научился преобразовывать поисковые запросы и заголовки веб-страниц в группы чисел — семантические векторы. Их важное свойство состоит в том, что векторы можно сравнивать друг с другом: чем сильнее сходство, тем ближе по смыслу запрос и заголовок.
«Королёв». Который понимает
Следующей ступенью развития поисковой системы на основе нейросетей стал алгоритм «Королёв», который анализирует не только заголовок, но и всю страницу целиком! Количество страниц, которые поиск сравнивает по смыслу с запросом, выросло со 150 документов до 200 тысяч. Кроме всего прочего, «Королёв» стал учитывать ещё и смысл других запросов, по которым люди на неё переходят на искомую страницу.
Нейронная сеть учится, словно ребёнок. Чтобы освоить подобное, ей понадобилось огромное количество примеров. Собственно, стихийным обучением «Королёва» занимались так или иначе все пользователи сервиса: в ход пошла поисковая статистика и оценки миллионов людей. Яндекс постепенно учится всё точнее распознавать смысловые связи, вроде: [картина где небо закручивается] — это про картину Ван Гога, [ленивая кошка
из Монголии] — манул.
Поиск — это очень сложная система. Тысячи инженеров работают над тем, чтобы она понимала человека и помогала решать его задачи. В «Королёве» мы объединили машинный интеллект и усилия миллионов людей. Наши пользователи улучшают поиск вместе с нами, задавая вопросы и помогая обучать наши алгоритмы.
Андрей Стыскин, руководитель Поиска Яндекса.
Помимо анализа ежедневной рутины, для обучения поисковой системы необходимы оценки качества ответов. Чем сложнее система, тем больше оценок требуется. Если раньше оценкой качества поиска занималась относительно небольшая группа специалистов-асессоров, членов команды Яндекса, то теперь потребовалось серьёзно увеличить объёмы. Так появился сервис Яндекс.Толоки (толока — форма взаимопомощи, которую когда-то практиковали деревенские жители). Любой энтузиаст, заинтересованный в небольшом вознаграждении и, конечно, в чувстве причастности к чему-то важному, может выполнять несложные задания. Сейчас таких толокеров набралось более миллиона человек, а количество выставленных ими оценок превысило 2 миллиарда.
«В основе современного поиска лежат сложные алгоритмы. Алгоритмы придумывают разработчики, а учат — миллионы пользователей Яндекса. Любой запрос — это анонимный сигнал, который помогает машине всё лучше понимать людей. Поэтому мы не ошибёмся, если скажем: новый поиск — это поиск, который мы сделали вместе», — гласит запись в блоге Яндекса.
За более чем двухлетнюю историю работы Яндекс.Толоки был выявлен самый результативный и старательный участник. Им стал Илья Михаленко из Челябинска. Парень приехал на презентацию «Королёва» в Москву, чтобы получить заслуженную награду из рук команды поисковика.
Новый поиск в деле
В чём на практике выражается улучшение работы нашего Яндекса? Теперь с ним можно разговаривать практически как с мозговитым и эрудированным приятелем. (Даже голосом.) К примеру, что вы будете делать, если нужно вспомнить название фильма, из которого вы помните какой-то отрывок, а имена актёров и режиссёра вылетели из головы? Можно обратиться к друзьям или просить помощи на каком-нибудь тематическом форуме. А можно спросить у «Королёва»!
Значительно улучшился поиск по картинкам. С ними, как правило, всегда какое-то «адище»: поисковик либо бездумно выдаёт все изображения, в названии которых используются слова из запроса, либо учитывает текст статьи, которую иллюстрирует картинка. Если ищешь нечто, что отвечало бы смутным запросам души, то готовься разочароваться. «Королёв» анализирует именно то, что изображено на картинке, поэтому способен порадовать нетривиальным подходом.
В качестве примера-испытания привели не самый очевидный запрос — [кошка в космосе]. Собаки бывали на орбите довольно часто, но из усатых-полосатых дисциплинированных покорителей космоса не вышло. Достоверно известно только об одной попытке: в 1963 году французы запустили в суборбитальный полёт кошку Фелисетт. Романтично, но недальновидно, — стоило учёным открыть люк приземлившейся капсулы, мурка была такова. Торжественная фотосессия не состоялась.
По запросу поисковик выдаёт не только зверюшек в скафандрах и сюрреалистичные фотожабы, но фото котика в стиральной машинке, которая вполне себе похожа на люк космического корабля. Но этого не сказано в описании.
Для торжественного запуска нового поисковика на сцену поднялась вся команда Яндекс.Поиска. Небольшой обратный отсчёт и… Поехали! Теперь каждый может испытать возможности проницательного «Королёва». Главное, что его нынешние возможности не статичны, а находятся в постоянном развитии.
Для завершения вечера организаторы припасли нечто совершенно неожиданное — сеанс связи с настоящими космонавтами с орбиты. Они лично ответили на некоторые популярные запросы пользователей поисковика о космосе и ответили на вопросы присутствующих.
(https://yandex.ru/images/search?text=99 маленьких багов в коде&lr=237&noreask=1)
((При этом не выходя из аккаунта))
(((И без фотошопа)))
((((И без изменения HTML))))
(((((И без кодов)))))
P.S хуй откопаешь