Работаем с 2009 года Более 450 успешных проектов Санкт-Петербург
8 (999) 849-91-09

Анатомия известных алгоритмов поисковых систем. Часть 2: Оптимизация веса PageRank

В предыдущей части нашего материала под названием «Анатомия известных алгоритмов поисковых систем», мы начали свое знакомство с Google PageRank на примере нашей упрощенной модели, давайте теперь продолжим разбирать данный замечательный алгоритм, а также попытаемся немного развить наше представление об известной разработке Lawrence Page и Sergey Brin. Повторимся, что текущее влияние PageRank в том виде на результаты поисковой выдачи Google уже не столь велико, как это было, например, на самых ранних этапах его функционирования в сети. Однако получение наиболее точного представления о его природе, даст вам не только безусловное преимущество в раскрутке своего веб-сайта, но и понимание принципов работы следующих за ним математических методов программирования, сортирующих результаты органического поиска.

Кроме того, прежде, чем мы перейдем к рассмотрению тематического Индекса Цитирования Яндекса, информация о котором, в отличие от того же самого PR, до сих пор остается закрытой, было бы верным начать свое исследование с более доступных для анализа данных.

Получение и удержание PageRank

Для того чтобы получить и удержать PR страниц, нам следует проделать огромную работу. Вместе с тем, мы уверены, что она будет стоить потраченных усилий и времени, но для этого нам необходимо полностью изменить свое мышление касательно ссылаемости одного сайта на другой (доверие к ссылкам, напомним, у поисковых машин безвозвратно утрачено) и подойти к этому вопросу с точки зрения общей значимости и авторитетности. Постараемся сфокусировать свое внимание на трех основных аспектах нашей деятельности по оптимизации значения PR продвигаемого сайта:

  1. Наш документ выступает в качестве реципиента (от лат. recipiens — принимающий) веса PageRank
  2. Наш документ выступает в качестве донора (лат. donor — дарящий) веса PageRank
  3. Продвижение сайтов за счет создания оптимальной ссылочной структуры

Наш документ выступает в качестве реципиента веса PR

В процессе поиска таких сайтов и/или страниц во внешней среде, которые гипотетически могли бы увеличить вес наших собственных показателей, мы не должны обращать внимание только на тулбарное значение PageRank этих документов. Это следует не из того, что данные значения являются усредненными, а по той простой причине, что при его расчете вес делятся между ссылками на странице. Предположим ситуацию, когда мы выбираем в качестве своего донора документ с PR равным 3 и 5. Если вы не читали предыдущую часть нашего исследования, то наиболее логичным для выбора мог бы показаться документ с наибольшим весом, однако в том случае, если количество ссылок на нем превышает тот объем, который имеется на другом ресурсе, то его голосующая способность будет ниже. Помните, мы говорили вам об обратной связи PageRank? Предположим еще такую ситуацию, что тот документ, которому в описанной выше ситуации вы назначили роль реципиента, уже имеет исходящую ссылку на один из этих двух сайтов. Поэтому в случае проставления взаимной ссылки с данным веб-ресурсом, мы приходим к тому, что в момент итераций наш документ не только передавал свой вес внешнему сайту, но и сам получал весовое увеличение, пропорциональное его новому весу. Здорово, правда?

Но то, что будет работать в нашей модели на практике вряд ли сможет принести вам столь существенные плоды, поскольку, как уже писалось ранее, эффект обратной связи, который действительно имеет место быть и может менять величину передаваемого голоса, в реально действующем поиском механизме более сложен и несоразмерно мал. Вычислить ее не представляется для нас возможным, однако в этой части можно дать один очень полезный совет при подборе сайтов-доноров. Вы должны отвлечься от тулбарных значений PR и посмотреть на ресурсы как с точки зрения релевантности вашего сайта, так и с позиции их общей авторитетности в сети. Наверное, первое, что приходит на ум в этой связи, так это регистрация сайта в каталоге DMOZ, которая, несомненно, принесет вашим документам увеличение в весе, а стало быть, увеличит возможность случайного попадания пользователя Google на ваш сайт.

Наш документ выступает в качестве донора веса PR

Прежде чем мы будем рассматривать вопрос о проставлении ссылок со страниц нашего с ваи веб-сайта, нам следует еще раз взглянуть на тех, кто решил сослаться на нас. Поэтому для нашего последующего анализа сделаем допущение, что наш ресурс был зарегистрирован в соответствующей директории каталога DMOZ, который полностью попадает под определение авторитетного сайта в сети, и получили за счет сего факта существенный прирост PageRank. После этого, нашей первостепенной задачей становится управление голосующей способностью собственного интернет-сайта, которую следует использовать с умом! Иными словами, нам требуется сохранять репутацию своего сайта на протяжении всего его существования. Как же это сделать в той ситуации, когда нам необходимо на кого-то сослаться? Еще раз вернемся к уже знакомой нам модели расчета PageRank с начальными весами принятыми за единицу:

 

Конечно, существует ряд методов, которые позволил бы нам сделать сканирование ссылок / страницы с исходящими линками попусту невозможной. Например, использование запрещающей директивы в файле robots.txt и/или применение JavaScript, индексация которого сопряжена с колоссальными затратами, а потому на практике не осуществляется. Однако такого рода поведение было бы не совсем честным по отношению к сторонним веб-мастерам, поэтому мы будем играть ТОЛЬКО по правилам! После проведенных нами трех итераций, веса страниц нашего с вами веб-сайта принимают следующие значения:

 

В соответствии с тем, что значение PR разделяется между ссылками на том или ином документе, можно прийти к тому заключению, что для проставления исходящего линка мы должны выбрать на своем сайте страницу с максимальным количеством внутренних ссылок / минимальным значением PageRank. Поэтому первая выигрышная для нас ситуация будет основана на том, чтобы обратный «голос» со стороннего сайта пришелся на такую страницу нашего с вами ресурса, которая находится выше нашего собственного документа-донора. Если внешний документ В голосует за наш документ А1, то ссылка на документ В ставится со специально подготовленного нижестоящего документа-донора А2. Вторая же ситуация, при которой вы сохраняете PageRank своего сайта, также заключается в уклонении от прямого цитирования за счет наличия цепочки страниц-посредников. Если внешний документ В ссылается на наш документ А1, то внутри страницы А1 мы должны сослаться на следующий промежуточный документ А2, который, в свою очередь, проголосует за документ-донор А3. Именно через него мы и вернем обратное минимальное значение PageRank внешнему документу В.

Для практической реализации поставленной перед нами задачи, мы можем разместить на своем сайте дополнительные документы, которые будут упоминаться на странице-доноре. Давайте добавим в предыдущий пример соответствующий массив документов (ими могут быть новости, статьи или обзоры) и посмотрим, что из этого получится:

 

Помните, что с учетом особенностей сканирования индексатором страниц сайта, ссылку (лучше всего иметь только один исходящий линк на странице с новостью и/или обзором) на внутренний значимый для вас документ следует расположить выше по тексту исходящей гиперссылки. Безусловным плюсом для вас было бы внешнее независимое упоминание Вашего документа-донора, поскольку это позволит не только увеличить вес этой страницы, но и сигнализировать поисковой машине о его высоком качестве.

После проведенных нами трех итераций, веса страниц нашего с вами веб-сайта (суммарный внутренний вес составил уже 47,31!) принимают следующие значения:

 

Из всего приведенного выше мы можем сделать вывод о том, что в связи с равномерным распределением веса PageRank какого-либо документа между всеми присутствующими на нем ссылками, нам следует иметь большее количество внутренних линков с целью его сохранения внутри нашего веб-сайта. Кроме удержания веса данного сигнала, нам также не стоит забывать об эффекте обратной связи PageRank, а также позаботиться о создании на сайте новых документов. Зачем нам необходимо последнее? Давайте еще раз взглянем на нашу с вами упрощенную модель интернет-сайта, где каждой новой странице мы по умолчанию назначили вес равный единице. Логично предположить, что те сайты, которые оптимальную структуру, создают большой объем страниц и применяют комплекс мер по удержанию веса каждой из них внутри своего ресурса, имеют более высокие показатели PR. Подобное агрегирование можно сравнить с концептами систем сбора дождевой воды из воздуха.

Конечно на практике все куда сложнее, чем представлено на наших схемах, поскольку в модели случайного блуждания пользователя владелец веб-сайта может попытаться манипулировать назначением сайту PR за счет генерации огромного массива документов. Дело в том, что при расчете авторитетности учитывается интуитивное равномерное (неравномерное мы будем обсуждать в материале, посвященному тематическому Индексу Цитирования Яндекса) посещение пользователем тех или иных узлов, наиболее посещаемым из которых присваивается большая значимость. Узлы могут посещаться как посредством серфинга по ссылкам, так и напрямую через ввод URL в адресную строчку интернет-браузера (операция телепортации), а также комбинированием обоих подходов. Именно в этом и кроется возможность ошибочного завышения Google PR за счет наличия в поисковом индексе большого объема не несущих ценности страниц.

Продвижение сайтов за счет создания оптимальной ссылочной структуры

Наряду с проставлением исходящих ссылок на сторонние сайты, не менее пристальное внимание стоит уделять организации внутренней структуры своего веб-сайта. Для связывания цифровых документов существует достаточное количество методов, а также их всевозможных комбинаций, которые учитываются в поисковой оптимизации. Давайте приведем ряд схем по созданию оптимальной для наших задач структуры интернет-ресурса, а также посчитаем для каждой из них суммарный вес / вес главной страницы:

 

 

 

 

 

Как вы можете видеть, кроме явного преимущества иерархической структуры в плане увеличения веса индексной страницы (он составил 939,1766 против 469,583 для иных организаций), суммарный внутренний вес для каждого сайта будет идентичен, но это будет наблюдаться до тех пор, пока мы не добавим в нашу модель внешние входящие и исходящие ссылки:

 

 

 

Как и в первом случае, главная страница сайта с иерархической структурой получает больший вес (он составил уже 6621,9309), а вот интенсивное связывание документов имеет более сильную обратную связь, нежели чем циклическое.

Затрагивая вопрос распределения веса PageRank внутри страниц нашего с вами веб-ресурса, мы также можем рассмотреть этот процесс с точки зрения существования на нем карты сайта. С одной стороны ее основной технической целью является упрощение его обхода поисковым роботом, а с другой – как любая исходящая внутренняя ссылка (как правило, карту сайта реализуют в шаблоне дизайна для всех страниц), значительно понижает PR документа. Это особенно справедливо для большой карты сайта со множеством внутренних исходящих на ней ссылок. Поэтому для максимизации первоначального суммарного значения Google PageRank нам следует разбить ее на несколько частей-категорий, а для увеличения обратной связи каждой ее части им необходимо сослаться на наиболее значимые разделы вашего интернет сайта (главная, о нас, ссылки, продукция и т.д.). Свяжите каждую полученную категорию с их списком, который будет размещаться на месте вашей бывшей карты веб-ресурса посредством соответствующего навигационного элемента.

На самом деле, о таком алгоритме поисковой системы Google, как PageRank, а также о его других замечательных метриках, можно говорить очень долго и мы еще не раз вернемся к ним в наших следующих публикациях, но, думаем, что для целей нашего текущего исследования приведенной выше информации будет вполне достаточно. Мы познакомили вас с его формулой, рассказали о том, как вы можете его получить и что необходимо сделать для его удержания внутри вашего веб-сайта.

При написании материала использовалась информация digits.ru (2001, 2003), stanford.edu (2008), google.com (2012), nigma.ru (2009). Персоны: Lawrence Page, Sergey Brin, Chris Ridings, Jill Whalen, Александр Садовский (2002)

Полезная информация по продвижению сайтов:

Перейти ко всей информации