Проблематика ранжирования результатов поиска стоит перед поисковой машиной с самого начала ее запуска. Еще с 2003 года Илья Сегалович (один из сооснователей Яндекса) постоянно публикует свои доклады на РОМИП (Российский семинар по Оценке Методов Информационного Поиска). Поисковые алгоритмы, в близком виде к тому, что мы уже привыкли видеть, Яндекс ввел в 2007 году. В это время в России Интернет вошел уже практически в каждый дом.
Количество сайтов на запрос достигло своей критической массы, и нужно было каким-то образом присудить позицию каждого в поисковике, определив релевантность (соответствие ключевым словам) текста к запросу. Модификация принципов ранжирования сайтов в выдаче — и была первой задачей поисковых алгоритмов.
Нужно сказать, что Яндекс несколько отстал от Гугла, который уже в 1998 году ввел в свои алгоритмы ссылочный фактор. Текстовой релевантности на тот момент было уже недостаточно, а поисковые машины типа Lycos и WebCrawler, которые обогнали Wandex 1993 года только тем, что стали учитывать раньше содержит ли страница ключевые слова — не соответствовали требованиям: на такое количество интернет ресурсов нужна была и ссылочная релевантность. Конечно же, команда Яндекс, понимая, что представляет российский продукт, который на своей территории должен вытеснить конкурентов, старалась качественно подойти к решению вопроса.
Названия алгоритмов были позаимствованы у городов. Блогеры заметили, что последняя буква некого алгоритма — является первой, следующего за ним. Таким образом, получилось виртуальное путешествие из Магадана в Калининград, которое продолжается и по сей день.
Поисковые алгоритмы Яндекса
Магадан. Май 2008 года.
Основные изменения, на которые повлиял алгоритм:
- Значительное увеличение факторов ранжирования.
- Фильтрация запросов с учетом гео-зависимости.
- Внедрение транслитерации. Теперь при вводе слов «Київ» , «Дошка» — слова не изменятся на «Киев» и «Доска», а останутся в прежней словоформе. Это же касается и старославянских слов.
Основные функции алгоритма:
- Определение типа страницы: html, pdf, doc;
- Определение уникальности контента;
- Формирование выдачи с учетом всех вышеперечисленных изменений.
Позже алгоритм был обновлен до версии «Магадан 2.0». В ней были доработаны баги релиза. К одним из наибольших успехов можно причислить улучшение обработки многословных запросов.
Находка. Сентябрь 2008 года.
По сути, данный алгоритм является продолжением «Магадана», то есть его более совершенной версией, которая претерпела по сравнению с предшественницей следующие изменения:
- Применение формулы при ранжировании.
- Новый способ учета стоп-слов и словосочетаний.
- Улучшение разбора слов в случаях написания через дефис и слитно: при вводе «авиа билеты» — теперь выдавались страницы со словами «авиабилеты», «авто ваз» — соответствует «АвтоВАЗ» и т.п.
Алгоритм нравился сеошникам и вебмастерам: за счет склейки и расклейки слов можно было значительно расширить семантическое ядро и неплохо сэкономить на продвижении.
Арзамас и Анадырь. Апрель 2010 года.
Первое название алгоритма – «Анадырь», но в ходе своей эволюции, он получил название «Арзамас».
Новые изменения:
- Более глубокое понимание русского языка: жаргон, словоформы. Например «Питер», теперь распознается, не только как американское имя, но и в первую очередь, как «Санкт-Петербург». Для такого тонкого и неоднозначного языка — нововведение было крайне необходимым.
- Анализируя статистику запросов, поисковая машина стала определять приблизительный возраст пользователя, что, конечно же, нашло свое отображение в метрике.
АГС-17 и АГС-30. Осень 2009 года.
«АГС» — алгоритм, отсеявший многих новичков в интернет индустрии. Основная задача – поиск ресурсов, не соответствующих требованиям Яндекса: копипаст, переоптимизация, наличие вирусов и т.п. При обнаружении такого ресурса — Яндекс снижает объем в выдаче до 15 страниц, что способствует падению сайта. Вернуть сайт на прежние позиции практически невозможно. Некоторую надежду дает обращение в Яндекс Вебмастер и быстрое пополнение сайта свежим, уникальным контентом. Так можно попробовать исправить ситуацию только в том случае, если есть надежда выиграть апелляцию. Нужно учитывать, что «АГС» накладывается не только алгоритмом, но и в ручном режиме.
Снежинск. Ноябрь 2009 года.
С этого времени, можно сказать, что Яндекс стал обладать неким подобием искусственного интеллекта – MatrixNet. Теперь поисковая машина умеет учиться сама. Полностью изменяется система ранжирования: для одного документа учитывается несколько тысяч поисковых параметров.
MatrixNet работает следующим образом:
- составляются пары «запрос-документ»;
- паре присваивается значение релевантности;
- значению из интервала [0..1] – присваивается «истинная» релевантность.
Самый простой способ получить «истинную» релевантность — взять выдачу по тому же запросу из алгоритма «Арзамас». Этот способ применяли сеошники, но на самом деле, скорее всего поиск значения имел совсем другие корни, потому что, иначе — выдача «Снежинска» практически повторяла бы выдачу «Арзамаса».
После того, как релевантность присвоена, сам алгоритм стремится вывести выдачу максимально близкую к значению «истинной» релевантности при помощи формулы:
F = a1*f1 + a2*f2 + … + an*fn , значение n –несколько тысяч.
«Снежинск» спутал карты сеошникам сложностью своих формул. Вот пример одной из функций:
F = 3:14*log7(f9(q; d)) + ef66(q;d) + … (из презентации Яндекса)
Функций было очень много, логики в них практически никакой (по крайней мере, ее сложно найти) и каждая из функций вносила очень небольшой вклад в итоговое значение релевантности.
Таким образом, получилось, что вклад прямых вхождений для каждой пары «запрос-документ» — вычислить практически невозможно. В ходе обучения коэффициент ak менялся по 10 раз в день.
Теперь определение места ресурса в ТОПе с учетом статистики, веса и т.д. — стало не тривиальной математической задачей.
Можно сказать, что алгоритм в целом дал хорошие результаты, но дьявол, как всегда укрылся в деталях: по многим запросам выдача оставляла желать лучшего.
Также были внедрены новые региональные факторы, но при этом, локализованное ранжирование еще не коснулось Беларуси, Украины и Казахстана.
Конаково. Неофициальное название, которое присвоено аппгрейту «Снежинска».
Если в алгоритме от «Арзамаса» до «Снежинска» — было всего 19 крупнейших регионов с функцией локализации, то в «Конаково» — их уже 1250 городов. Акцент делается на региональное продвижение сайта.
Обнинск. Август 2010 года.
Формула ранжирования, по сравнению с «Конаково» — еще усложнилась. Теперь страницы с датой занесения можно было отыскать в кэше. В связи с этим, возникла потребность использования Last-Modified: при приходе робота на большой ресурс — ему будет на много проще внести в поиск последние изменения, если указать на них, если же Last-Modified не прописан, то индексация ресурса идет заново и робот «пробегает» все страницы, что может вызвать ошибку «502 Bad Gateway». От этого страдают в основном новостные ресурсы.
Продолжена работа над гео-независимыми запросами.
Краснодар. Декабрь 2010 года.
Главное отличие – присутствие поисковых категорий: быт, авто, работа, новости, обучение и прочие. Кроме того, с появлением «Краснодара» — всерьез заговорили о поведенческих факторах. Ранжирование ведется при помощи новой формулы с обновленным набором гео-факторов. Введена технология «Спектр».
Калининград. 12.12.12.
Последняя версия поискового алгоритма, учитывает уже и персональный поиск. Кроме того, в «Калининграде» более 1200 регионов (как в «Кандаково»), со своей формулой релевантности. Команда Яндекс, еще за год до появления этого алгоритма поставила задачу персонализации пользователя, потому что деление только на регионы – достаточно примитивно. Так, около 30% запросов – это не поиск новой информации, а дополнение к предыдущей, и, конечно же, этим фактом нельзя пренебречь.
В основу алгоритма «Калининград» легли принципы «Арзамаса», но теперь Яндекс стремится узнать своего пользователя. Например, вводя слово «пицца» — кто-то ищет как ее заказать, а кто-то ее рецепты. И, конечно же, в данном случае понятно, что поисковая формула должна быть для каждого своя.
Главный плюс такого подхода – скорейший доступ к любимым сайтам. Давно замечено, что на знакомые сайты пользователь кликает более охотно и теперь в выдаче эти сайты будут показываться чаще.
Если раньше выдача определялась запросом, то теперь — цепочкой запросов. Для того чтобы запустить «Калининград» — была проведена колоссальная работа: в течение года испробовано 10 разных формул, выделяющих интересы; проведен эксперимент с участием 50 млн. пользователей. В результате было выделено около 400 тыс. различных тем по запросам, которые вошли в поисковые подсказки. Но главное в персональном ранжировании – это тема. На любой запрос, если не изучать цепочку, может быть своя формула ранжирования. Яндекс отказался от сегментации и для каждого пользователя формула получается своя, она бесконечно изменяется, анализируя последние запросы.
Персонализация понимает и то, что за одним компьютером и в одном браузере могут находиться несколько разных человек, например, муж и жена. Муж — интересуется кино и для него своя цепочка запросов, и, соответственно, своя выдача; жена – интересуется рецептами и запросы, связанные с кино — никак не влияют на ее цепочку и выдачу по рецептам.
На практике получается, что у человека меняется около 75% запросов. При этом, при включенном персональном поиске — кликабельность первого результата выдачи больше на 37%. Кроме того, поиск занимает на 14% меньше времени.
Нужно сказать, что введение данного алгоритма, по мнению сеошников – осложнило продвижение новых сайтов. Потому что теперь пользователь ходит как бы по кругу сайтов, на которые он уже кликал. Стал не столь актуален показатель тИЦ. Кроме того, большинство пользователей до сих пор не в курсе, что им на 90% сузили кругозор, даже без их согласия. А вот к плюсам относят – продвижение только с помощью качественного контента, брендинга и индивидуальности. Теперь, для того чтобы привязать к себе постоянную аудиторию – нужно действительно понравиться.
Алгоритм «Калининград» работает не только в России, но и везде где есть Яндекс.
Использованная литература:
- Статья Сергея Кокшарова. Эволюция поисковых алгоритмов Яндекса
- Статья Ивана Дороднова. Эволюция поисковых алгоритмов.
- Материалы докладов И. Сегаловича на РОМИП
- Пресс-релиз компании Яндекс о запуске алгоритма Снежинск
- Пресс-релиз компании Яндекс о запуске алгоритма Магадан
- Пресс-релиз о запуске нового алгоритма (еще безымянного) от 2004 года