Обучение ранжированию I. Попарный подход. Часть 3: Экспериментальная оценка RankBoost

Познакомившись в предыдущей части с теоретической основой алгоритма RankBoost, мы переходим к анализу тех экспериментальных результатов, которые были достигнуты при его использовании для различных задач.

Крупномасштабное исследование по вычислению ссылочного спама с использованием графовых алгоритмов

Данная работа представляет собой исследование общей структуры и распределения ссылочных ферм на веб-графе. Они извлекаются посредством разложения компонент сильной связанности, сформировавшихся вокруг ядра; перебора максимальных клик, а также с использованием техники минимального разреза для извлечения и расширения числа линкофармов, содержащихся в самом ядре.

Изучение эволюции ссылочных ферм с использованием временного ряда состояний веб-графа

В данном исследовании рассматривается сильно связанные компоненты веб-графа, некоторые из которых являются ссылочными фермами. Детекция линкофармов производится при помощи рекурсивного алгоритма разложения компонент с узловой фильтрацией; исследуется распределение размеров/тематик ссылочных ферм, а также их эволюция на крупномасштабном японском интернет-архиве, собранном за 3 года.

Альянсы ссылочного спама

В текущей работе проводится исследование того, каким образом автономные спам-фермы могут комплексироваться в оптимальные манипулятивные альянсы, которые увеличивают оценки целевых страниц, присваиваемые ссылочными алгоритмами ранжирования. Кроме всего прочего, подробно анализируются две возможные гиперссылочные структуры, использующиеся в крупных альянсах; одна из которых объединяет целевые документы в веб-кольцо, а другая формирует взаимно-связанное ядро.

Алгоритм HillTop: система информационного поиска, использующая экспертные документы

Далее представляется алгоритм HillTop, использующий специальный индекс «экспертных документов», которые представляют собой подмножество интернет-страниц, ведущих на неаффилированные источники по определённым темам. Ранжирование результатов происходит на основании совпадения пользовательского запроса и релевантного текста, описывающего гиперссылки, которые проставляются на экспертных документах и ссылаются на целевую страницу.

Качественная оценка веб-сайтов, занятых в сфере электронной коммерции

В данной работе приводятся атрибуты качества веб-сайтов, занятых в сфере электронной коммерции. Список атрибутов основан на специализированной литературе и на анализе крупных веб-сайтов. Все они отсортированы по трём областям: удобство пользования, концептуальная надёжность и надежность представления.

Моделирование пользовательских кликов после первой страницы результатов органического поиска

В текущем исследовании компании Яндекс предлагается модификация кликовой модели Динамической Сети Байеса посредством явного включения в неё вероятности перехода между страницами поисковой выдачи. Показывается, что новая кликовая модель способна гораздо лучше отражать поведение пользователя на (и после) второй страницы результатов органического поиска.

Метрики информационного поиска на основе кликовых моделей

За последние несколько лет было предложено множество моделей для прогнозирования кликов пользователей поисковых систем. Кроме того, на основании пользовательской модели было создано несколько метрик оценки качества информационного поиска. В данной работе, выполненной компанией Яндекс, совмещаются эти два направления и предлагается общий подход к конверсии любой кликовой модели в оценочную метрику.

Сравнение поиска Google и Bing на предмет наличия в топовых результатах органической выдачи зараженных веб-сайтов

Исследование немецкой лаборатории AV-TEST показало, что вопреки предпринимаемым усилиям по противодействию предоставления пользователям в топовых результатах органической выдачи веб-сайтов, зараженных вредоносным программным обеспечением, в поиске Google, Bing, Яндекс, а также Blekko в ряде случаев наличествуют ресурсы с вредоносным контентом.