Работаем с 2009 года Более 300 успешных проектов Офис в москве и санкт-петербурге
+7(495)320-31-31

Анатомия известных алгоритмов поисковых систем. Часть 1: Введение в Google PR (PageRank)

Достаточно часто нам задают вопросы касательно важности таких показателей для продвигаемого веб-сайта, как тИЦ (тематический Индекс Цитирования) и PR (PageRank). Бытует достаточно устойчивое мнение якобы о том, что для успешной раскрутки следует иметь высокие значения данных сигналов, но это далеко не так. В данном материале мы попытаемся объяснить вам то, что обращать столь пристальное внимание на понижение, повышение и неизменность сих факторов попусту не стоит. Куда более важным для выведения сайта в ТОП 10 будет ваша работа над релевантностью страниц сайта и пользовательских запросов, увеличение кликабельности с поиска, уменьшение показателей отказов и т.д.

Мы поговорим как о тИЦ, так и о PR, однако первая часть нашей работы под названием «Анатомия известных алгоритмов поисковых систем» будет посвящена именно разбору PageRank. По той простой причине, что именно с введением компанией Google этого алгоритма (до него подобные расчеты не использовались) началась и история тематического Индекса Цитирования, который, в отличие от своего американского прототипа, рассчитывается для всего сайта, а не для каждой конкретной страницы в отдельности.

PageRank

Прежде того, как мы приступим к анализу данного замечательного показателя, отметим для себя то, что кроме самих разработчиков корпорации Google ни один сторонний эксперт не сможет быть осведомлен во всех аспектах его функционирования. Вместе с тем у нас имеется ряд общедоступных сведений и результаты научных исследований специалистов по рассматриваемому вопросу.

Итак, что такое алгоритм Google PageRank? Это математический метод, измеряющий авторитетность какого-либо конкретного документа в информационном поиске. Предполагается, что после надлежащей внутренней оптимизации сайта, данный алгоритм позволит более важным страницам ресурса оказываться выше в органической выдаче среди всех прочих документов в поисковом индексе. Однако пользователь уже видит подготовленные заранее результаты, поэтому прежде чем предложить свой ответ на тот или иной вопрос, Google должен отыскать все документы в своей веб-коллекции, содержащие идентичные пользовательскому запросу метки. Затем, построить свой ранг в соответствии с внутренними и внешними факторами страницы и, наконец, откорректировать полученные данные с помощью PR. Важно заметить, что анкоры входящих внешних ссылок на наш с вами сайт (внешние факторы) при его расчете не учитываются, а вот любая исходящая внутренняя ссылка с той страницы нашего замечательного веб-сайта на которую указывает некоторое множество внешних линков, автоматически приобретает авторитет. Ниже мы достаточно подробно рассмотрим саму передачу авторитетности от одного с сайта к другому, по поводу которой существует также не меньшее количество мифов. Да, ставя исходящую ссылку со страниц своего сайта, вы, тем самым, делитесь своим PR и в нашей работе мы покажем вам данный процесс, однако рассматривать этот процесс следует не как потерю какого-то иссекаемого ресурса (PR — это не вода!), а как соответствующую рекомендацию вебмастера посетить сторонний сайт.

Естественно, что вместе с этой «рекомендацией» приходит и соответствующая ответственность за подобное «ручательство». Поэтому, в случае появления у поисковой системы недоверия к одному из сайтов, это незамедлительно скажется на другом и тогда его значения могут изменяться вплоть до полного обнуления.

Для нас очень важно ваше понимание того, что PageRank является независимым от прочих внутренних факторов числом, выражающим только то, что при ссылаемости одной страницы на другую, первая передает ей свой «голос» и чем выше PageRank данной страницы, тем больший голос она передает следующей. Голосующая способность имеет смысл не только между внешними документами в сети, но и среди внутренних страниц одного сайта. Каждой новому документу, отсканированному и занесенному в индексную базу Google, присваивается свой собственный вес. Узнать веса страниц своего сайта вы можете посредством установки в свой браузер панели инструментов Google Toolbar, на котором отображаются данные о PR с диапазоном значений от 0 до 10. Естественно, демонстрируемые тулбаром веса являются приблизительными значениями, а более точные можно проиллюстрировать в нашей первой сравнительной таблице:

Реальное значение PageRank Показатель PR в Google Toolbar
0,00000001 — 5 1
6 — 25 2
26 — 125 3
126 — 625 4
626 — 3125 5
3126 — 15625 6
15626 — 78125 7
78126 — 390625 8
390626 — 1953125 9
1953126 — до бесконечности 10

Какую роль играет Google PageRank сегодня? Хороший вопрос, поскольку с момента внедрения данного алгоритма в 1997 году, интернет разросся до неимоверных объемов, да и сама по себе ссылка уже не может считаться исконной рекомендацией вебмастера посетить полезный ресурс в той виртуальной среде, где идет активная торговля и/или обмен ссылками с целью манипулирования результатами выдачи. Получается, что качество поиска не может поддерживаться только за счет PR, поэтому поисковая машина Google придумала еще 200 скрытых сигналов, которые могут влиять на положение сайта в органической выдаче. Получается, что на сегодняшний день он абсолютно бесполезен? Нет. Поисковая система не спроста пытается ограничить возможность мошеннического влияния на этот алгоритм, поскольку в случае его комбинирования с прочими факторами он продолжает выполнять свою положительную функцию. Влияние его может усиливаться/уменьшаться в зависимости от множества факторов. Далее мы расскажем вам как посредством долгой и кропотливой работы можно добиться управления показателем PR своего сайта.

Расчет алгоритма Google PageRank

Для вашего дальнейшего понимания его правильного применения в оптимизации нашего с вами web-сайта, пришло время рассказать вам о примерном расчете этого загадочного показателя. В своих вычислениях мы будем отталкиваться от той формулы, которая содержалась в опубликованной научной работе его создателей Sergey Brin и Lawrence Page на одном из этапов исследования данного алгоритма:

 

В данной формуле PR(А) является весом PageRank документа А; PR(Т1) является весом PageRank того документа, который ссылается на наш документ А; C(Т1)- это количество ссылок с этого документа; наконец, d — это специальный коэффициент затухания равный порядка 0,85. Исходя из данной формулы становится понятно, что для вычисления PR(А) нам потребуются значения PR всех документов, указывающих на А. Более того, их собственные веса будут определяться не только весами прочих страниц (внешних и/или их внутренних), но и весом документа А, который, в свою очередь также может на них сослаться. Действительно сложная задача для нашего с вами расчета! Однако эта формула позволяет сделать нам один очень важный вывод о том, что голосующая способность PageRank документа А, передаваемая от него иному документу (например, В), уменьшается с каждым последующим «голосом» документа В на следующую страницу. Документы в сети могут делить между собой свой авторитет как внутри одного сайта, так и между внешними страницами в сети, но, при всем притом, их суммарная авторитетность остается неизменной. Давайте посмотрим, как это выглядит на следующем примере:

 

Так как изначальные значения PageRank имеющихся у нас с вами документов неизвестно, то для простоты расчета мы принимаем его за единицу. Теперь, введем в нашу модель коэффициент затухания d, который необходим поисковой машине для того, чтобы процитированная страница не имел столь же высокого веса, каким обладает источник, и не занимала более высокой позиции в органической выдаче, а затем разделим сохранившийся вес документа на количество ссылок. Сейчас мы получим тот конечный вес, который впоследствии добавим ко всем без исключения документам в нашей упрощенной модели. Она действительно несколько отчуждена от реальности, поскольку, во-первых, предыдущий вес документа всегда заменяется на новое значение, а здесь мы будем иметь то, что при его расчете на каждой последующей итерации (от лат. iteratio — повторяю) мы будем добавлять PR к весу документа, вычисленному на этапе предыдущего повтора. Во-вторых, мы не добавляем к каждому полученному весу документа значение 1-d, поэтому в реально функционирующем поисковом механизме эффект обратной связи PageRank будет выглядеть не столь впечатляюще как у нас.

После применения соответствующего коэффициента затухания (0,85), вес документа А составил 1,85. Так как он ссылается на документ В и С (2 исходящие ссылки), то после итерации, мы добавляем к весам этих двух документов значение равное 0,425 (0,85/2=0,425). Документ В и D имеет по одной исходящей ссылки на документ С, поэтому они передадут ему полное значение 0,85. Наконец, сам документ С единожды сослался на страницу А, поэтому он также передает 0,85 нашей с вами первому web-документу. Добавим все полученные значения коэффициента затухания к каждому соответствующему документу:

 

Интересно, не правда ли? Уже сейчас мы можем видеть, что с точки зрения ссылочной популярности (link popularity) самым главным документом в нашей коллекции оказывается страница С, но ведь это еще далеко не все! В связи с тем, что наибольшее значение авторитетности присваивается только тем документам, которые имеют больше всего входящих ссылок, то нам следует повторить описанный выше порядок действий за тем исключением, что на сей раз самой высокой голосующей способностью будет обладать документ С. Вернемся к документу А, который имеет вес 1,85 и снова умножим его на уже известный нам коэффициент затухания 0,85 с тем, чтобы получить «новый голос» (1,85*0,85=1,5725), а затем разделим полученное значение на 2 исходящие с него ссылки. По окончанию всех наших расчетов, документы В и С получает по 0,78625 в дополнение к своим новым весам. Но для начала перейдем к документу В у которого имеется всего лишь 1 исходящий линк на страницу С, поэтому он может передать ей 1,21125 своего веса (1,425*0,85=1,21125). Хотя документ С также имеет только 1 линк, но он имеет вес отличный от предыдущего документа, который равен 3,125. По этой причине его голосующая способность для документа А составит уже 2,65625 (3,125*0,085=2,65625). Добавим к уже имеющимся показателям страниц новые данные:

 

Как видно, документ С снова получил набольшее количество голосов. Надо добавить, что на практике для получения максимально достоверных результатов Google повторяет подобную процедуру сотни раз. Более того, наши дорогие читатели наверное уже давно обратили внимание на то, что документы А и В из нашей упрощенной модели взаимно ссылаются друг на друга, что позволяет говорить об обратной связи в алгоритме PageRank. Что это значит? Обратная связь означает, что во время наших итераций документ С не только передавал свой вес документу А, но и сам получал весовое увеличение, которое было пропорционально новому значению PR документа А.

Возможное влияние PageRank на продвижение сайтов в Google

Давайте предположим то, что в интернете существует ряд веб-сайтов, ссылки с которых будут для нас чрезвычайно полезны, и один из ссылающихся на нас документов является подобным ресурсом. Тогда, можем ли мы утверждать то, что вместо первоначальных значений, обозначенных за единицу, следует брать текущий PR внешней страницы? Для нашей упрощенной модели, где веса не заменяются, а суммируются, это было бы вполне логичным, однако мы опять таки не учитываем фактор сходимости, то есть наличия такой мыслимой точки, которая сигнализировала бы нам о достижении достоверного значения весов по истечению всех итераций. Возможность коррекции алгоритма за счет отладки весов определенных документов, как на каждом этапе итерации, так и по общему завершению его работы полностью исключается. Поскольку в первом варианте у нас появляется очень много неизвестных, а во втором случае мы искажаем саму суть PR — поднять веса качественных страниц/сайтов, наиболее вероятных для посещения их пользователем, за счет более лучших. Единственно возможным неявным решением остается перенаправление веса висящих ссылок (dangling links), то есть таких ссылок, которые указывают на тупиковые документы, на самые авторитетные сайты в сети. В случае выхода на подобную страницу, пользователь будет вынужден вернуться только к качественному сайту. Думаем, что в этой связи можно говорить о том, что все должно возвращаться к явному и/или неявному источнику появления информации. Получается, что для выявления наиболее авторитетных ресурсов поисковой системе не столь уж важны ссылки (напомним, что доверие к ним уже утрачено), и поведение пользователя во всемирной паутине предоставляет им куда более полезные данные.

Да, это выглядит более естественным маневром, чем предложенный ранее Lawrence Page способ ликвидации dangling links. Еще на этапе моделирования PageRank говорилось то, что висящих линков быть не должно, поскольку сумма переходов пользователей для подобного рода тупиковых документов составляет 0, в то время как для каждого ряда матрицы переходов она должна принимать значение равной единицы (row-stochastic). Однако такое поведение приводит не только к удалению входящих на тупиковые документы ссылок, а стало быть, веса цитирующих страниц становятся выше их «реальных показателей», но и к созданию нового массива висящих документов. Тогда было предложено проделывать порядка пяти итераций по удалению dangling links и еще столько же по их восстановлению. Куда лучшим является именно гипотеза о том, что в модели случайного поведения, мы будем искать выход на тот сайт, которому изначально присвоен доминирующий вес в нашей системе. Развивая эту идею можно подойти к персонализации результата, так как для одних пользователей наибольший авторитет будет иметь поисковая система Яндекс, а для других Google. Третьи же пользователи считают наиболее авторитетной страницей Facebook.com или Twitter.com (на момент написания данной статьи PR Twitter’а составляет максимальные 10, а у самого Google всего лишь 9, как и у Facebook) и возвращаются туда из любой части сети чаще всего. В нашей следующей статье мы увидим, что для того же самого Яндекса персонализация принимает первостепенное значение.

Напоследок, давайте проиграем обратную ситуацию, при которой ссылающийся на нас документ В определен как спам-страница, тогда его вес следует обозначить за нулевое значение. Возможно ли теперь уменьшить авторитетность нашего документа А? Думаем, что для алгоритма PageRank такое утверждение будет являться ошибочным.

Полезная информация по продвижению сайтов:

Перейти ко всей информации