Работаем с 2009 года Более 300 успешных проектов Офис в москве и санкт-петербурге
+7(495)320-31-31

Спектр — технология поисковой системы Яндекс

Мы неоднократно уже упоминали о реализованной Яндексом в конце 2010 года технологии «Спектр», основу которой составляет статистика поисковых запросов, однако в данном материале мы решили рассказать нашим читателям о ней более подробно.

В основе текущего функционирования поисковой технологии и всего ранжирования сайтов задействованы формальные алгоритмы, при которых используется группа уже известных запросов с теми или иными ответами. Зная о них, разработчики должны только сравнивать разные математические методы программирования, сортирующие интернет страничке в выдаче, по всевозможным формальным метрикам с тем, чтобы выявить наиболее удачные ответы по заданным запросам. Что же касается улучшения качества выдачи, то наиболее примитивная модель информационного поиска сводилась к линейно-взвешенной релевантности конкретных результатов. Представим, что в основе главенствующей метрики будет заложено то, что ТОП 10 сайтов должен с наибольшей вероятностью удовлетворить любой запрос пользователя, иными словами нам необходимо максимизировать метрику pFound. Однако она не будет учитывать взаимосвязи pRel и результаты по ряду запросов (15-20%) будут однородными и, как следствие, неудовлетворительными.

Основная метрика Яндекса

Для решения вопроса однородности Яндекс предложил метрику качества wide pFound.

Метрика качества Яндекса

Известно, что большинство пользователей формулируют свои вопросы Яндексу неоднозначно и спектр латентных (скрытых) вопросов людей и релевантных им ответов поисковой машины может быть достаточно широк. Но качество поиска предполагает еще и то, что спектр вопросов его пользователей должен соответствовать спектру ответов поисковой машины, поэтому в числе задач поисковика должна стоять максимизация того, что человек найдет найдет именно то, что ищет.
Допустим, тот человек, который набирает в строке поиска слово «клин» может подразумевать под этим не только заточенный короткий брусок, но и город Российской Федерации Клин, говоря иными словами, объект «клин» относится к двум категориям «города и «предметы». На момент написания текущего материала список категорий, которые позволяют алгоритмам ранжирования предлагать те или иные сайты пользователям, насчитывает 60 единиц, однако с течением времени их количество будет возрастать.

Принцип технологии Спектр

Помимо разбиения запросов по категориям, «спектр» всегда пытается выявить потребности человека на поиске, то есть то, что намеревался найти каждый конкретных человек, задавая тот или иной запрос Яндексу. Например, по запросу «продвижение сайтов» человек может искать как услуги по их раскрутке непосредственно, так и узнать более подробно об интересующей его теме, почитать форум по оптимизации и т.д. Для каждой из 60 категорий технология «Спектр» выявляет от 2-х до нескольких десятков всевозможных намерений-потребностей. Как уже писалось выше, данная технология базируется на статистике поисковых запросов, поэтому «Спектр», прежде всего, анализирует тот процент пользователей, которые ищут неоднозначный объект с какой-либо присущей ему потребностью. Затем, для каждой категории вопросов алгоритмы определяют: в каких именно пропорциях ответ на него должен быть представлен в результатах поисковой выдачи.

Вычисление ответов для поиска

Так как технология зиждется на статистке поисковых запросов, то в целях поддержания их актуальности «Спектр» должен еженедельно анализировать в автоматическом режиме огромный массив запросов (более 5 млрд.) и осуществлять их одновременную обработку на нескольких сотнях серверах Яндекса. Новый алгоритм инициировал создание так называемых спектральных подсказок под строкой поиска, с тем, чтобы пользователи могли в мануальном режиме уточнить свой неоднозначный вопрос. Например, уточняющими запросами для «раскрутка сайтов» будут являться «цена», «форум» и «что это такое».

Полезная информация по продвижению сайтов:

Перейти ко всей информации