Таксономия веб-спама

Данная авторитетная работа представляет собой первую попытку систематизации технологий поискового спама, которая была предпринята научным сообществом в 2004 году. Она будет интересна, прежде всего, неискушенному читателю.

Статистические методы обнаружения спама

В настоящей работе предполагается, что некоторые спамерские страницы можно идентифицировать путём статистического анализа. Представленные техники могут быть использованы в качестве фактора ранжирования, при планировании краулинга, а так же для исключения низкокачественного контента из поискового индекса.

Крупномасштабное изучение автоматизированного поискового трафика

В этом исследовании представлено несколько отличительных поведенческих характеристик, с помощью которых можно сепарировать поисковый трафик на пользовательский и автоматически-сгенерированный, когда запросы в поисковую систему подаются с помощью специального программного обеспечения.

Обнаружение спама посредством анализа содержимого интернет-страниц

В данном материале рассматриваются вопросы исследования содержимого страниц на предмет наличия в нем контентного спама. Исследуются ранее неописанные методы автоматического вычисления некачественных документов, анализируется их эффективность как по отдельности, так и в случае их комбинирования.

TemporalRank: гиперссылочный анализ с использованием временного ряда состояний веб-графа

В данном материале описывается алгоритм ссылочного ранжирования TemporalRank, который использует множество мгновенных снимков состояния веб-графа как его временную характеристику. В нем также используется кинетическая модель, интерпретирующая предложенный алгоритм.

Микроэволюция веб-страниц с частыми обновлениями

В данной работе рассматривается актуальность использования распределения Пуассона для отображения частотной характеристики обновления веб-страниц, на которых наблюдаются регулярные изменения.

Поведенческие факторы. Часть 5: Детальный анализ алгоритмов ранжирования BrowseRank Plus и MobileRank

В данной части исследования подробно разбираются алгоритмы ранжирования BrowseRank Plus и MobileRank с использованием фреймворка Маркова. В отличие от классического BrowseRank, который получается из непрерывного Марковского процесса, BrowseRank Plus и MobileRank следуют из Зеркального Полумарковского процесса.

Сравнение поиска Google и Bing на предмет наличия в топовых результатах органической выдачи зараженных веб-сайтов

Исследование немецкой лаборатории AV-TEST показало, что вопреки предпринимаемым усилиям по противодействию предоставления пользователям в топовых результатах органической выдачи веб-сайтов, зараженных вредоносным программным обеспечением, в поиске Google, Bing, Яндекс, а также Blekko в ряде случаев наличествуют ресурсы с вредоносным контентом.

Поведенческие факторы. Часть 6: От экспериментов с BrowseRank Plus и MobileRank к алгоритму Fresh BrowseRank

В заключительной части исследований, посвященных поведенческим факторам, рассматриваются эксперименты с алгоритмами ранжирования BrowseRank Plus и MobileRank с последующим знакомством с алгоритмом Fresh BrowseRank, который разработан компанией Яндекс и учитывает фактор свежести интернет-страниц.

Алгоритм HITS: авторитетные источники в гиперссылочной среде

В данной классической научной работе Джона Клейнберга вы познакомитесь с алгоритмом авторитетности, основанного на взаимосвязи между количеством релевантных авторитетных страниц и множеством «хаб-страниц», что объединяет их в ссылочную структуру.