Работаем с 2009 года Более 300 успешных проектов Офис в москве и санкт-петербурге
+7(495)320-31-31

Отношение поисковых систем к коммерческим ссылкам, а также их идентификация на основе анализа графов и категоризации ссылочных анкоров

В данном материале мы постараемся наиболее подробно описать вам отношение поисковых систем к такому явлению поисковой оптимизации, как SEO-ссылки, которые продаются и покупаются на коммерческой основе и, тем самым, нарушают качество органического поиска. В своих прошлых статьях, мы уже неоднократно затрагивали этот болезненный для всех участников рынка продвижения вопрос, однако сейчас мы также постараемся описать для вас некоторые принципы определения подобного рода ссылок. Мы уверены, что если вам не безразлична ситуация складывающаяся вокруг внешней среды вашего веб-сайта, а также перспектива долгосрочного роста, то изучение структуры входящих внешних ссылок будет для вас полезной. Для ее исследования вам достаточно воспользоваться соответствующими инструментами для веб-мастеров таких поисковых систем как Яндекс и Google — речь идет о панели Вебмастера. Любая цивилизованная поисковая машина будет желать естественного получения обратных ссылок, без каких-либо схем, манипулирующих результатами построения выдачи и/или завышения таких показателей сайтов как тИЦ (тематический Индекс Цитирования) и PR (PageRank).

О том, как получить качественные естественные ссылки на свой сайт мы также описывали в своих более ранних материалах, но это не является для нас препятствием к тому, чтобы снова и снова напоминать владельцам сайтов и компаниям занимающихся раскруткой о методах их получения. Более того, сегодня мы готовы не только освежить в вашей памяти уже озвученные методы, но и рассказать о новых, более оригинальных . Итак, приступим:

  1. Создание корпоративного интернет-сообщества
  2. Пользовательские инструкции
  3. Развлекательные элементы в содержимом сайта
  4. Регистрация сайта в крупнейших русскоязычных каталогах

1. Создание корпоративного интернет-сообщества. По праву считается одним из самых основных методов. Если ваш сайт является новым, то наилучшим началом пути к наращиванию натуральных ссылок является участие в созданном вами интернет- сообществе. Это может быть публичная страница/группа в социальной сети, сторонний корпоративный блог на бесплатном блогохостинге, активное обсуждение каких-либо профессиональных моментов на тематических форумах. В этой связи важно напомнить вам о вреде спама, наличие которого для имиджа уважающей себя организацией является недопустимым. В том же случае, если содержимое вашего сайта (текстовой контент, сервисы, ценовая политика и новый взгляд на типичные услуги) будет признано интернет-сообществом уникальным, интересным и полезным, то, рано или поздно, люди начнут вас цитировать, проставляя заветные естественные линки на ваш веб-ресурс. Это именно долгосрочная стратегия развития вашего проекта.

2. Пользовательские инструкции. Внимательно изучая потребности вашей аудитории, вы можете разместить на своем сайте пользовательские инструкции и/или обучающие видеоматериалы, которые позволили бы вашим посетителям решать те или иные профессиональные проблемы. Например, если вы занимаетесь ремонтом квартир, то очень полезно иметь на своем сайте видео пособие по самостоятельному ремонту квартир. Однако этот способ будет работать только в том случае, если предложенная вами информация будет обладать действительной ценностью для людей.

3. Развлекательные элементы в содержимом сайта. Говоря более простыми словами — это юмор, который поможет вашему сайту, хотя бы косвенно, быть на слуху. Сюда можно отнести не только развлекательные сообщения, но и видеоматериалы, которые могут находиться как на вашем сайте, так и в социальных сервисах «В контакте», Видео @MAIL.RU, YouTube и т.д.. Имейте ввиду, что на части из них имеются социальные закладки, которые позволяют пользователям сервиса обмениваться интересным видео. Кроме того, стоит заметить, что подобный «манок для ссылок» не должен быть рассчитан на долгосрочную стратегию, поскольку период их жизни достаточно мал и, несмотря на высокую отдачу в самом начале, со временем необходимо придумывать что-то новое.

4. Регистрация сайта в крупнейших русскоязычных каталогах. К числу наиболее известных и авторитетных каталогов относятся: Яндекс.Каталог, DMOZ, Каталог @MAIL.RU и Апорт.Каталог. При подборе каталогов важно учитывать тематическую принадлежность своего сайта, а также их модерируемость, поскольку немодерируемые каталоги и доски объявлений не берутся в расчет при формировании показателей сайта и учете внешних входящих ссылок. Но даже из их общего числа, вам подойдут только, так называемые, «белые каталоги», то есть те каталоги, которые не потребуют от вас поставить обратную ссылку взамен.

От наших рекомендации по получению естественных ссылок перейдем теперь к тому, как поисковая система определяет проплаченные ссылки и что следует делать веб-мастерам в случае их покупки.

«Определение неестественных SEO ссылок на основе анализа графов и категоризации ссылочных анкоров»

Кирилл Николаев, Екатерина Зудина, Андрей Горшков, Илья Сегалович, Сергей Певцов, Аркадий Борковский и Сергей Волков (Яндекс)

Аннотация

С целью манипулирования результатами поисковой выдачи компании, осуществляющие продвижение сайтов в поисковых системах, приобретают на коммерческих условиях ссылки, которые, однако, вмешиваются в работу наших алгоритмов и ухудшают качество поиска в целом. В том случае, если мы научимся отличать естественную ссылку от неестественной, то это значительно улучшит качество поисковой выдачи. Давайте ознакомимся с принципиально новым методом определения SEO ссылок, который зиждется на разработке тематического классификатора анкоров входящих внешних ссылок и анализе всевозможных тем исходящих линков на интернет-документе. Полученная в ходе данной работы информация будет использована в анализе графа русскоязычного веба, который, в свою очередь, и даст нам возможность идентифицировать web-документы, проставляющие со своего содержимого неестественные (проплаченные) ссылки. Тестирование данного метода на размеченных в ручную эталонных образцах ссылок выявило его высокую эффективность.

Введение

Вопреки нашим требованиям касательно того, что покупка/продажа коммерческих ссылок искажает точность результатов органической выдачи, в результате чего в ТОП 10 оказываются не более релевантные документы, а те, которые вложили определенные средства в поисковую раскрутку, мы до сих пор имеем нарушение равноправия участников построения нашего ранга. Именно проставление неестественных ссылок является на сегодняшний день основным инструментом для продвижения сайтов, однако наши алгоритмы способны отличать их коммерческую природу не только от естественных, но даже от спам-ссылок, которые практически невозможно встретить на авторитетных сайтах. В свою очередь, коммерческие SEO-ссылки могут встречаться на высококачественных сайтах, что не меняет их отрицательной, с нашей точки зрения, сути. Части из них при размещении требует от SEO-оптимизаторов значительных финансовых затрат и трудоемкости (зачастую разметка идет в мануальном режиме) выполняемых работ. Например, мы прекрасно знаем, что коммерческая ссылка должна содержать в своем анкоре ровным счетом те ключевые фразы, которые указаны веб-мастером в основных тегах раскручиваемого сайта. Получив способность отличать естественную ссылку, от ее коммерческого двойника дает нам огромный массив данных о размеченных оптимизаторами документах.

Мы поделили свою работу на две части. В первой части мы занялись определением типа и темы содержимого, а во второй — сформировали исходный посев разнотематических интернет-страниц и, с помощью измененного алгоритма HITS [1], осуществили разметку графа. В нашем ссылочном графе те документы, с содержимого которых осуществляется продажа SEO ссылок, названы «посредниками» (hubs), а тем документам, которые покупают для себя ссылки, присвоено значение «автор» (authorities). На текущем этапе развития нашей поисковой системы мы с большой достоверностью можем вычислять как продавцов, так и покупателей коммерческих ссылок, однако в этой работе мы занимались выявлением исключительно ссылок, а не веб-сайтов участвующих в обозначенной торговле.

Метод

Классификатор, основанный на показателе SEO-text

SEO-text будет является показателем оптимизированности исследуемого содержимого и его принадлежности к коммерческой сфере. Исходный посев поисковых запросов мы возьмем с одного сайта по оптимизации. На данной основе создадим первоначальный классификатор по показателю оптимизированности контента (используем только две темы: оптимизация и НЕ оптимизация [2]). Посредством алгоритма итераций (от лат. iteratio — повторяю), мы имеем перечень слов (300 тыс.) и двусловий (1,5 млн.), которые чаще всего используются в качестве анкоров для продвижения интернет-сайтов заданной темы. В противовес первому списку слов и двусловий, мы также возьмем из пула новостных ресурсов естественные словосочетания и создадим теперь более эффективный наивный байесовский классификатор.

Классификатор, основанный на показателе SEO-topic

При разработке такого метода, который бы выполнял категоризацию по тематике, мы использовали порядка двадцати двух разнообразных тем (строительство, финансовый сектор, транспортные услуги и т.п.), которые чаще всего нуждаются в продвижении в силу сложившейся среди данных тематик конкуренции. Сам метод выявления тем будет состоять из двух стадий. Для начала мы подвергли ручному отбору три тысячи триста пятьдесят около тематических слов, где каждое из них имеет присущий только ему одному явно выраженный тематический спектр. Применяя к ним анкоры имеющихся линков с показателем SEO-text отличным от 0, наши специалисты распространили данные тематические спектры на следующие группы слов, в соответствии с вероятностью их нахождения в анкорах вместе со словами из исходной группы. Итого, для разработки тематической категоризации мы получили 64 тыс. тематических спектров [2].

Вторая стадия разработки алгоритма тематической категоризации потребовала от нас применение упрощенного вида H2H (host-to-host) графа с 20 млн. ребер, которые имели бы анкоры с показателем SEO-text отличным от 0. Используя уже полученный выше метод, мы определили для каждого из имеющегося в нашем распоряжении ребра две наиболее вероятные темы. По причине же того, что вычисление тематического спектра для целей-вершин нашего ссылочного графа строилось на основании информации о входящих ребрах, подавляющее количество целей имели узкие тематические спектры. Для них мы распространили присущую им тему на все без исключения анкоры входящих внешних ссылок, а затем, используя их содержимое как базис, создали новый словарь, который имел в себе 200 тыс. слов и 800 тыс. двусловий. В следствие оперирования большими объемами информации, наши разработчики смогли реализовать новый эффективный классификатор SEO-topic, в основу которого легла Маркова цепь первого порядка. После обнаружения ряда критических ошибок, данный словарь пришлось скорректировать, но даже при таком раскладе его разработка не потребовала от нас значительных затрат, поскольку для всего процесса мы использовали труд поисковых оптимизаторов.

Классификаторы, основанные на показателях SEO-in и SEO-out

Для последующего анализа нам потребуется применить метод, подобный алгоритму BHITS [4]. Мы будем использовать алгоритм HITS для выявления неестественных SEO-ссылок, различные модификации которого, надо заметить, успешно применяется и для определения спама [5], [6]. В предыдущем анализе мы уже воспользовались такой моделью двудольного ссылочного графа, из которого были отфильтрованы нерелевантные документы, входящие внешние ссылки с немодерируемых каталогов, форумов и досок объявлений, а сам граф представлял собою документы-источники с одной стороны и цели-хосты — с другой. Специально для метода HITS наши разработчики улучшили базисную подготовку линков и избавились от всех ссылок внутри одного домена второго уровня. Теперь наш граф стал представлять собою 50 млн. документов-источников, 19 млн. целей-ресурсов и 300 млн. ребер. Затем для каждого из наших ребер мы применим тематический классификатор, основанный на показателе «SEO-topic», который позволит выявить 1 млн. узко тематических целей. Аналогично присутствию в классической модели алгоритма HITS посредников (hubs) и авторов (authorities), мы введем в наше решение соответствующие каждому из них показатели SEO-out и SEO-in. Что будут значить данные показатели для наших специалистов? Значение показателя SEO-out будет соответствовать вероятности того, что тот или иной документ является площадкой для продажи коммерческих ссылок из своего содержимого. Тогда показатель SEO-in укажет нам вероятность того, что какой-то из существующих веб-сайтов решил продвигаться в поисковой выдаче с помощью неестественных ссылок. Стоит заметить, что по величине SEO-in возможно определить принадлежность сайта к коммерческому сектору, всегда готового предложить более высокую цену за первые места в органическом поиске.

С большой долей вероятности можно предположить, что тот web-ресурс, который ссылается на множество разнотематических веб-сайтов, занимается продажей ссылок. Именно по этой причине мы использовали в построении исходного посева веб-документов (3 млн.) некое множество подобного рода разнотематических документов с высокими показателями значения SEO-text для исходящих ссылок. После того, как, в соответствие со стандартным расчетом HITS, за 2 итерации нами были высчитаны показатели SEO-out и SEO-in, мы получили до 500 тыс. искомых целей с высоким показателем SEO-in.

 

исходный посев разнотематических документов

На рис. 1 показана первая итерация для расчета SEO-in на основе показателей SEO-out исходного посева разнотематических веб-документов, где Т1, Т2, Т3 — тематика целей-ресурсов.

Классификатор, основанный на показателе SEO-link

SEO-link будет служить для наших разработчиков показателем оплаченности ссылок, и рассчитываться для каждой из них он будет с помощью простейшего метода за 1 проход по базе. Следующие формулы помогут нам для начала оценить вероятность содержания в каком-либо веб-документе SEO-out коммерческой ссылки, а затем и конечное значение SEO-link:

SEO out = k1*AvgSEOin + k2*AvgSEOtext + k3*NTh + … (1), где

AvgSEOin — среднее значение SEO-in целей ссылок с даного веб-документа

AvgSEOtext — среднее значение SEO-text анкоров данных ссылок

NTh — количество уникальных тем целей и т.д.

SEO link = l1*SEOtext + l2*SEOin + l3*SEOout + … (2)

Важно заметить, что параметры ki и li подбирались на основании обучающей выборки, которая состояла в нашем исследовании из 2,5 тыс. случайных линков, размеченных в ручном режиме, а также из 10 тыс. ссылок, частью позаимствованных из Wikipedia.org, а частью с тех сайтов, которые открыто занимаются торговлей коммерческих ссылок. Данная работа не потребовала от нас значительного объема памяти и процессорных ресурсов, а посему может вестись и на этапе обработки ссылочной базы.

Результаты испытаний

Разметку всевозможных тестовых выборок, призванных оценить точность и полноту описанных нами выше методов, осуществляли восемь экспертов. Для оценки математического метода тематической классификации были использованы имевшиеся у поисковых оптимизаторов ТОП 100 сайтов двадцати двух тематик. Подмножество анкоров ссылок со значением SEOtext отличным от 0 подбиралось в случайном порядке и в том случае, если приглашенный эксперт мог соотнести анкор той или иной ссылки к одной из предоставленных ему тематик, то она автоматически присваивалась данному анкору. В то самое время, как подавляющее количество полученных в ходе тестовой выборки релевантных ссылок (12,1 тыс. линков) было использовано в качестве отладки разработанного метода, то для самой оценки алгоритма мы применили меньшую их часть (3,8 тыс. линков). По результатам тестирования точность нашего классификатора составила 94%, а полнота — 97%.

Создание следующих двух выборок (см. табл. 1) потребовалось нам для тестирования и оценки метода определения проплаченности ссылок. Взяв в случайном порядке для первой выборки как естественные ссылки (1700 штук), так и неестественные (1850 штук), для второй мы использовали только проплаченные линки. Подобная ситуация вокруг второй выборки было определена тем, у наших разработчиков всегда имеется возможность определить факт проплаченности ссылок напрямую через одного известного автоматического брокера их купли/продажи.

В нашем двудольном ссылочном графе присутствовало 300 млн. ссылок, из них практически 17% (50 млн.) был присвоен показатель проплаченности.

Выборка Полнота Точность
3550 линков 93% 95%
~140000 линков 96%

Таблица 1. Результаты определения коммерческих SEO-ссылок

Заключение

Посредством использования классификатора SEO-ссылок, который, кстати говоря, может быть улучшен за счет применения сегментатора веб-страниц в алгоритме microHITS для блоков ссылок[7], поисковая система способна варьировать факторами ссылочного ранжирования для некоммерческих и коммерческих запросов. В том же случае, если вы, как вебмастер и/или оптимизатор, занимаетесь куплей/продажей ссылок, то мы рекомендуем вам пересмотреть свою позицию касательно перспектив долгосрочного развития своего веб-сайта. Существует ряд способов, которые исключают искажение результатов нашего органического поиска и передачу авторитетности сторонних сайтов вашему интернет- проекту, среди которых имеется элемент rel=»nofollow» для всех проплаченных ссылок, а также перенаправление коммерческих SEO-ссылок через закрытую от индексации (используйте для этого robots.txt) интернет-страничку. Когда мы говорим про неестественные ссылки, мы имеем ввиду не только те, которые были куплены на ссылочной бирже, но даже и те, которые были получены по взаимному обмену, а также рекламные баннеры. Поскольку в противном случае нарушается сама суть функционирующей системы, и поисковая машина приходит к такой ситуации, при которой первые места в поисковой выдачи могут быть куплены в прямом или переносном смысле. Напоследок заметим, что в подготовленном материале мы не разу не упомянули про отношение поисковых машин к естественным / неестественным спам-ссылкам. Поскольку такая «раскрутка» является проблемой иного плана, а здесь рассматривались исключительно те ссылки, которые проставляются на взаимовыгодных условиях для владельцев сайтов и оптимизаторов.

Ссылки

[1] Kleinberg, J. (1997). Authoritative sources in a hyperlinked environment. Journal of the ACM 46 (5): 604–632.

[2] T. H. Haveliwala. Topic-sensitive pagerank. In Proc. 11th International WWW Conference, pages 517-526, 2002.

[3] Lafferty J., Zhai, C. Document language models, query models, and risk minimization for IR. In Proceedings of SIGIR-2001, pp 111-119.

[4] K. Bharat and M.R. Henzinger, Improved algorithms for topic distillation in a hyperlinked environment, Proc. 21st Annual International ACM SIGIR, pp.104–111, 1998.

[5] B. Wu and B. Davison. Undue influence: Eliminating the impact of link plagiarism on web search rankings. Technical report, LeHigh University, 2005.

[6] Yasuhito Asano, Yu Tezuka, Takao Nishizeki. Improvement of HITS algorithms for spam links. APWeb/WAIM 2007, LNCS 4505, pp 479-490, 2007.

[7] S. Chakrabarti. Integrating the Document Object Model with Hyperlinks for Enhanced Topic Distillation and Information Extraction. ACM 1-58113-348-0/01/0005, 2001.

Материал «Combining Anchor Text Categorization and Graph Analysis for Paid Link Detection» подготовил и перевел Константин Скоморохов

Полезная информация по продвижению сайтов:

Перейти ко всей информации