Numeralis
Подписаться
Numeralis
Numeralis
  • FAQ
  • Создатели
  • Предметный указатель
  • Реклама
  • Информационное спонсорство
  • О нас
  • Контакты
  • Уроки

Поисковые алгоритмы ранжирования Яндекса

  • 6 Май 2013
  • Администрация Numeralis.ru
Total
0
Shares
0
0
0

 

Проблематика  ранжирования результатов поиска стоит перед поисковой машиной с самого начала ее запуска.  Еще с 2003 года Илья Сегалович (один из сооснователей Яндекса) постоянно публикует свои доклады на РОМИП (Российский семинар по Оценке Методов Информационного Поиска). Поисковые алгоритмы, в близком виде к тому, что мы уже привыкли видеть, Яндекс ввел в 2007 году.  В это время в России Интернет вошел уже практически в каждый дом.

Количество сайтов на запрос достигло своей критической массы, и нужно было каким-то образом присудить позицию каждого в поисковике, определив релевантность (соответствие ключевым словам) текста к запросу. Модификация принципов ранжирования сайтов в выдаче — и была первой задачей поисковых алгоритмов.

Нужно сказать, что Яндекс несколько отстал от Гугла, который уже в 1998 году ввел в свои алгоритмы ссылочный фактор. Текстовой релевантности на тот момент было уже недостаточно, а поисковые машины типа Lycos и WebCrawler, которые обогнали Wandex 1993 года только тем, что стали учитывать раньше содержит ли страница ключевые слова — не соответствовали требованиям: на такое количество интернет ресурсов нужна была и ссылочная релевантность. Конечно же, команда Яндекс, понимая, что представляет российский продукт, который на своей территории должен вытеснить конкурентов, старалась качественно подойти к решению вопроса.

Названия алгоритмов были позаимствованы у городов. Блогеры заметили, что последняя буква некого алгоритма — является первой, следующего за ним. Таким образом, получилось виртуальное путешествие из Магадана в Калининград, которое продолжается и по сей день.

Поисковые алгоритмы Яндекса

Магадан. Май 2008 года.

Основные изменения, на которые повлиял алгоритм:

  • Значительное увеличение факторов ранжирования.
  • Фильтрация запросов с учетом гео-зависимости.
  • Внедрение транслитерации. Теперь при вводе слов «Київ» , «Дошка» — слова не изменятся на «Киев» и «Доска», а останутся в прежней словоформе. Это же касается и старославянских слов.

Основные функции алгоритма:

  • Определение типа страницы: html, pdf, doc;
  • Определение уникальности контента;
  • Формирование выдачи с учетом всех вышеперечисленных изменений.

Позже алгоритм был обновлен до версии «Магадан 2.0». В ней были доработаны баги релиза. К одним из наибольших успехов можно причислить улучшение обработки многословных запросов.

Находка. Сентябрь 2008 года.

По сути, данный алгоритм является продолжением «Магадана», то есть его более совершенной версией, которая претерпела по сравнению с предшественницей следующие изменения:

  • Применение формулы при ранжировании.
  • Новый способ учета стоп-слов и словосочетаний.
  • Улучшение разбора слов в случаях написания через дефис и слитно: при вводе «авиа билеты» — теперь выдавались страницы со словами «авиабилеты», «авто ваз» — соответствует «АвтоВАЗ» и т.п.

Алгоритм нравился сеошникам и вебмастерам: за счет склейки и расклейки слов можно было значительно расширить семантическое ядро и неплохо сэкономить на продвижении.

Арзамас и Анадырь. Апрель 2010 года.

Первое название алгоритма – «Анадырь», но в ходе своей эволюции, он получил название «Арзамас».

Новые изменения:

  • Более глубокое понимание русского языка: жаргон, словоформы. Например «Питер», теперь распознается, не только как американское имя, но и в первую очередь, как «Санкт-Петербург». Для такого тонкого и неоднозначного языка — нововведение было крайне необходимым.
  • Анализируя статистику запросов, поисковая машина стала определять приблизительный возраст пользователя, что, конечно же, нашло свое отображение в метрике.

АГС-17 и АГС-30. Осень 2009 года.

«АГС» — алгоритм, отсеявший многих новичков в интернет индустрии. Основная задача – поиск ресурсов, не соответствующих требованиям Яндекса: копипаст, переоптимизация, наличие вирусов и т.п. При обнаружении такого ресурса — Яндекс снижает объем в выдаче до 15 страниц, что способствует падению сайта. Вернуть сайт на прежние позиции практически невозможно. Некоторую надежду дает обращение в Яндекс Вебмастер и быстрое пополнение сайта свежим, уникальным контентом. Так можно попробовать исправить ситуацию только в том случае, если есть надежда выиграть апелляцию. Нужно учитывать, что «АГС» накладывается не только алгоритмом, но и в ручном режиме.

Снежинск. Ноябрь 2009 года.

С этого времени, можно сказать, что Яндекс стал обладать неким подобием искусственного интеллекта – MatrixNet. Теперь поисковая машина умеет учиться сама. Полностью изменяется система ранжирования: для одного документа учитывается несколько тысяч поисковых параметров.

MatrixNet работает следующим образом:

  • составляются пары «запрос-документ»;
  • паре присваивается значение релевантности;
  • значению из интервала [0..1] – присваивается «истинная» релевантность.

Самый простой способ получить «истинную» релевантность — взять выдачу по тому же запросу из алгоритма «Арзамас». Этот способ применяли сеошники, но на самом деле, скорее всего поиск значения имел совсем другие корни, потому что, иначе — выдача «Снежинска» практически повторяла бы выдачу «Арзамаса».

После того, как релевантность присвоена, сам алгоритм стремится вывести выдачу максимально близкую к значению «истинной» релевантности при помощи формулы:

F = a1*f1 + a2*f2 + … + an*fn , значение n –несколько тысяч.

«Снежинск» спутал карты сеошникам сложностью своих формул. Вот пример одной из функций:

F = 3:14*log7(f9(q; d)) + ef66(q;d) + … (из презентации Яндекса)

Функций было очень много, логики в них практически никакой (по крайней мере, ее сложно найти) и каждая из функций вносила очень небольшой вклад в итоговое значение релевантности.

Таким образом, получилось, что вклад прямых вхождений для каждой пары «запрос-документ» — вычислить практически невозможно. В ходе обучения коэффициент ak менялся по 10 раз в день.

Теперь определение места ресурса в ТОПе с учетом статистики, веса и т.д. — стало не тривиальной математической задачей.

Можно сказать, что алгоритм в целом дал хорошие результаты, но дьявол, как всегда укрылся в деталях: по многим запросам выдача оставляла желать лучшего.

Также были внедрены новые региональные факторы, но при этом, локализованное ранжирование еще не коснулось Беларуси, Украины и Казахстана.

Конаково. Неофициальное название, которое присвоено аппгрейту «Снежинска».

Если в алгоритме от «Арзамаса» до «Снежинска» — было всего 19 крупнейших регионов с функцией локализации, то в «Конаково» — их уже 1250 городов. Акцент делается на региональное продвижение сайта.

Обнинск. Август 2010 года.

Формула ранжирования, по сравнению с «Конаково» — еще усложнилась. Теперь страницы с датой занесения можно было отыскать в кэше. В связи с этим, возникла потребность использования Last-Modified: при приходе робота на большой ресурс — ему будет на много проще внести в поиск последние изменения, если указать на них, если же Last-Modified не прописан, то индексация ресурса идет заново и робот «пробегает» все страницы, что может вызвать ошибку «502 Bad Gateway». От этого страдают в основном новостные ресурсы.

Продолжена работа над гео-независимыми запросами.

Краснодар. Декабрь 2010 года.

Главное отличие – присутствие поисковых категорий: быт, авто, работа, новости, обучение и прочие. Кроме того, с появлением «Краснодара» — всерьез заговорили о поведенческих факторах. Ранжирование ведется при помощи новой формулы с обновленным набором гео-факторов. Введена технология «Спектр».

Калининград. 12.12.12.

Последняя версия поискового алгоритма, учитывает уже и персональный поиск. Кроме того, в «Калининграде» более 1200 регионов (как в «Кандаково»), со своей формулой релевантности. Команда Яндекс, еще за год до появления этого алгоритма поставила задачу персонализации пользователя, потому что деление только на регионы – достаточно примитивно. Так, около 30% запросов – это не поиск новой информации, а дополнение к предыдущей, и, конечно же, этим фактом нельзя пренебречь.

В основу алгоритма «Калининград» легли принципы «Арзамаса», но теперь Яндекс стремится узнать своего пользователя. Например, вводя слово «пицца» — кто-то ищет как ее заказать, а кто-то ее рецепты. И, конечно же, в данном случае понятно, что поисковая формула должна быть для каждого своя.

Главный плюс такого подхода – скорейший доступ к любимым сайтам. Давно замечено, что на знакомые сайты пользователь кликает более охотно и теперь в выдаче эти сайты будут показываться чаще.

Если раньше выдача определялась запросом, то теперь — цепочкой запросов. Для того чтобы запустить «Калининград» — была проведена колоссальная работа: в течение года испробовано 10 разных формул, выделяющих интересы; проведен эксперимент с участием 50 млн. пользователей. В результате было выделено около 400 тыс. различных тем по запросам, которые вошли в поисковые подсказки. Но главное в персональном ранжировании – это тема. На любой запрос, если не изучать цепочку, может быть своя формула ранжирования. Яндекс отказался от сегментации и для каждого пользователя формула получается своя, она бесконечно изменяется, анализируя последние запросы.

Персонализация понимает и то, что за одним компьютером и в одном браузере могут находиться несколько разных человек, например, муж и жена. Муж — интересуется кино и для него своя цепочка запросов, и, соответственно, своя выдача; жена – интересуется рецептами и запросы, связанные с кино — никак не влияют на ее цепочку и выдачу по рецептам.

На практике получается, что у человека меняется около 75% запросов. При этом, при включенном персональном поиске — кликабельность первого результата выдачи больше на 37%. Кроме того, поиск занимает на 14% меньше времени.

Нужно сказать, что введение данного алгоритма, по мнению сеошников – осложнило продвижение новых сайтов. Потому что теперь пользователь ходит как бы по кругу сайтов, на которые он уже кликал. Стал не столь актуален показатель тИЦ. Кроме того, большинство пользователей до сих пор не в курсе, что им на 90% сузили кругозор, даже без их согласия. А вот к плюсам относят – продвижение только с помощью качественного контента, брендинга и индивидуальности. Теперь, для того чтобы привязать к себе постоянную аудиторию – нужно действительно понравиться.

Алгоритм «Калининград» работает не только в России, но и везде где есть Яндекс.

Использованная литература:

  • Статья Сергея Кокшарова. Эволюция поисковых алгоритмов Яндекса
  • Статья Ивана Дороднова. Эволюция поисковых алгоритмов.
  • Материалы докладов И. Сегаловича на РОМИП
  • Пресс-релиз компании Яндекс о запуске алгоритма Снежинск
  • Пресс-релиз компании Яндекс о запуске алгоритма Магадан
  • Пресс-релиз о запуске нового алгоритма (еще безымянного) от 2004 года

 

 

 

Total
0
Shares
Share 0
Tweet 0
Pin it 0
Метки материала
  • MatrixNet
  • Алгоритмы ранжирования
  • Анадырь
  • Арзамас
  • Калинград
  • Кандаково
  • Краснодар
  • Магадан
  • Магадан 2.0
  • Находка
  • Поисковые алгоритмы
  • Снежинск
  • Спектр
  • Яндекс
Администрация Numeralis.ru

Материалы сайта, написанные и опубликованные редакцией портала

Предыдущий материал
  • Телевидение

Современные информационные войны

  • 29 Апр 2013
  • Администрация Numeralis.ru
Смотреть материал
Следующий материал
  • Уроки

Влияние возраста страницы на позицию в выдаче. Как ускорить продвижение?

  • 12 Май 2013
  • Администрация Numeralis.ru
Смотреть материал
Вас также может заинтересовать
Смотреть материал
  • Уроки

Запрет ссылочного в Яндексе

  • Андрей Бабкин
  • 5 Май 2015
Смотреть материал
  • Featured
  • Уроки

Оглавление обучающих материалов

  • Администрация Numeralis.ru
  • 8 Май 2014
Смотреть материал
  • Уроки

Влияние возраста страницы на позицию в выдаче. Как ускорить продвижение?

  • Администрация Numeralis.ru
  • 12 Май 2013
Смотреть материал
  • Уроки

Несколько простых способов повысить свою доходность в SAPE.

  • Администрация Numeralis.ru
  • 25 Янв 2013
Смотреть материал
  • Уроки

Если Вы разместили пост с ошибкой

  • Администрация Numeralis.ru
  • 18 Окт 2012
Смотреть материал
  • Уроки

Google: страницы не уходят из Гугла

  • Администрация Numeralis.ru
  • 20 Сен 2012
Смотреть материал
  • Уроки

Почему в индексе Google страниц больше чем у Яндекса.

  • Администрация Numeralis.ru
  • 20 Сен 2012
Смотреть материал
  • Уроки

Проиндексированный robots.txt

  • Администрация Numeralis.ru
  • 20 Сен 2012

Добавить комментарий Отменить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Метки
Apple C++ Party 2014 CNews CodeFreeze facebook Google mail.ru Mail.Ru Group Microsoft Netpeak seo smm TrueConf Академия Яндекса Безопасность интернет-приложений Вебинары Воронцов Константин Гроховский Леонид Конференции Костин Евгений Машинное обучение Мероприятия Обучающий центр CyberMarketing Онлайн Академия Zillion Петров Алексей Пресс-релизы Роскомнадзор Россия Семинар Технопарк Mail.ru Group ТопЭксперт Управление продуктом ШРИ в Москве ШРИ в Москве 2012 Шестаков Олег Школа вебмастеров Яндекс Яндекс.Директ бизнес литература вебинар вконтакте конференция курсы рецензии форум
Numeralis
Удивительный мир Digital маркетинга

Введите ключевые слова для поиска и нажмите Enter