Методика обнаружения хиджакинга с использованием ссылочных алгоритмов

В текущей работе предлагается методология идентификации сайтов, чья гиперссылочная структура подверглась хиджакингу — одному из основных типов ссылочного спама. Подобного рода веб-сайты сами по себе могут являться надежными, однако их содержимое ссылается на неблагонадежных соседей.

Обучение ранжированию I. Попарный подход. Часть 3: Экспериментальная оценка RankBoost

Познакомившись в предыдущей части с теоретической основой алгоритма RankBoost, мы переходим к анализу тех экспериментальных результатов, которые были достигнуты при его использовании для различных задач.

Крупномасштабное исследование по вычислению ссылочного спама с использованием графовых алгоритмов

Данная работа представляет собой исследование общей структуры и распределения ссылочных ферм на веб-графе. Они извлекаются посредством разложения компонент сильной связанности, сформировавшихся вокруг ядра; перебора максимальных клик, а также с использованием техники минимального разреза для извлечения и расширения числа линкофармов, содержащихся в самом ядре.

Изучение эволюции ссылочных ферм с использованием временного ряда состояний веб-графа

В данном исследовании рассматривается сильно связанные компоненты веб-графа, некоторые из которых являются ссылочными фермами. Детекция линкофармов производится при помощи рекурсивного алгоритма разложения компонент с узловой фильтрацией; исследуется распределение размеров/тематик ссылочных ферм, а также их эволюция на крупномасштабном японском интернет-архиве, собранном за 3 года.

Альянсы ссылочного спама

В текущей работе проводится исследование того, каким образом автономные спам-фермы могут комплексироваться в оптимальные манипулятивные альянсы, которые увеличивают оценки целевых страниц, присваиваемые ссылочными алгоритмами ранжирования. Кроме всего прочего, подробно анализируются две возможные гиперссылочные структуры, использующиеся в крупных альянсах; одна из которых объединяет целевые документы в веб-кольцо, а другая формирует взаимно-связанное ядро.

Алгоритм HillTop: система информационного поиска, использующая экспертные документы

Далее представляется алгоритм HillTop, использующий специальный индекс «экспертных документов», которые представляют собой подмножество интернет-страниц, ведущих на неаффилированные источники по определённым темам. Ранжирование результатов происходит на основании совпадения пользовательского запроса и релевантного текста, описывающего гиперссылки, которые проставляются на экспертных документах и ссылаются на целевую страницу.

Качественная оценка веб-сайтов, занятых в сфере электронной коммерции

В данной работе приводятся атрибуты качества веб-сайтов, занятых в сфере электронной коммерции. Список атрибутов основан на специализированной литературе и на анализе крупных веб-сайтов. Все они отсортированы по трём областям: удобство пользования, концептуальная надёжность и надежность представления.

Моделирование пользовательских кликов после первой страницы результатов органического поиска

В текущем исследовании компании Яндекс предлагается модификация кликовой модели Динамической Сети Байеса посредством явного включения в неё вероятности перехода между страницами поисковой выдачи. Показывается, что новая кликовая модель способна гораздо лучше отражать поведение пользователя на (и после) второй страницы результатов органического поиска.

Микроэволюция веб-страниц с частыми обновлениями

В данной работе рассматривается актуальность использования распределения Пуассона для отображения частотной характеристики обновления веб-страниц, на которых наблюдаются регулярные изменения.