Эволюция поисковых алгоритмов Яндекса (часть 1)
Введение
Яндекс на данный момент самая популярная поисковая система Рунета. По данным статистики LiveInternet доля Яндекса в разрезе всей российской аудитории составляет 53,4%, а если рассматривать только Москву и область, то еще выше – 67,9%.
Немудрено, что большинство компаний предлагают продвижение именно в этой поисковой системе. Наша компания – не исключение.
Нам кажется, что клиенты тоже должны иметь определенное представление о том, как функционирует Яндекс и в частности – особенности работы алгоритма ранжирования данной поисковой системы. Ведь это касается практически всех случаев, когда клиент заказывает создание сайтов под ключ (с базовым или расширенным комплексом услуг по оптимизации), а также при продвижении проекта как отдельной услуги.
Если Вам интересно знать:
- как устроен Яндекс,
- почему продвижение некоторых запросов стоит так дорого,
- почему в Подмосковье выдача Яндекса отличается от Московской,
- почему некоторые запросы не растут и требуется пересмотр семантического ядра,
то читайте нашу статью!
1. Яндекс как поисковая система
Прежде чем пускаться в алгоритмические дебри, давайте вспомним, как вообще устроена поисковая система.
Логическую структуру поисковой системы можно представить в виде трех модулей:
1. Робот (краулер, crawler) – специальная программа, которая обходит интернет-сайты и загружает их содержимое. У робота есть специальное расписание, согласно которому он осуществляет свой обход.
2. Страницы сайта, загруженные роботом, специальным образом обрабатываются и помещаются на хранение в базу данных. Может быть, вас удивит этот факт, но на данный момент Яндекс хранит содержимое более чем 8 миллиардов страниц в своей базе! Это гигантские объемы информации и для их хранения используются специальные сервера.
3. Самая важная часть поисковой системы – клиентская, которая отвечает за обработку запросов пользователей и выдачу им результатов поиска. Ежедневно Яндекс обрабатывает более 50 млн пользовательских запросов! Для того чтобы выдавать на каждый запрос пользователя релевантные результаты, Яндекс ищет в своей базе все документы, отвечающие на запрос пользователя и выдает те, которые лучше всего отвечают на запрос. При этом в выдаче поисковой системы все сайты отсортированы по убыванию их релевантности запросу пользователю.
Итак, представим упрощенно, что происходит в Яндексе, когда пользователь задает запрос, например, «пластиковые окна».
1. Запрос обрабатывается синтаксическим анализатором, приводится к начальной форме.
2. Далее по базе ищутся все документы, содержащие слова «пластиковый» и «окно». Естественно, Яндекс не производит прямой поиск информации по всем 5 млрд. документов в базе. Вся информация содержится в виде т.н. «обратного индекса» (см. рисунок ниже), т.е. для каждого слова указаны порядковые номера документов, где содержится это слово и позиции данного слова в документе.
3. После этого определяется релевантность каждого документа запросу, т.е. для всех 12 млн. документов, которые содержат слова «пластиковый» и «окно» считается значение релевантности.
4. Далее документы ранжируются по убыванию релевантности и формируется выдача.
На рисунке ниже представлена самая простая схема устройства обратного индекса. Естественно, в поисковых системах используются дополнительно различные методы оптимизации данной структуру, но я думаю, основной принцип понятен.
Аналогом обратного индекса является, например, алфавитный указатель в книге, где указано, на какой странице встречается тот или иной термин и вы можете с легкостью найти информацию, не пролистывая всю книгу.
Оставить комментарий