Все ли пользователи систем информационного поиска одинаково благонадежны?

В данной небольшой работе предлагается графоориентированный подход, позволяющий оценивать пользовательскую благонадежность в соответствии с кликовым поведением на странице результатов органического поиска. Присваиваемая оценка пользовательской благонадежности включается в обратную связь по релевантности с целью улучшения качества органического поиска.

Мудрость толпы и обнаружение поискового спама

В настоящем материале предлагается шесть особенностей пользовательского поведения, позволяющих отличать ординарные документы от поискового спама не только в теории, но и на практике. Разработанный фреймворк обнаружения манипулятивных технологий может идентифицировать как классические обманные методы, так и недавно появившиеся в среде поисковой оптимизации. Практические эксперименты, проведенные на крупномасштабной коллекции логов веб-доступа, демонстрируют высокую производительность предложенного подхода.

Под микроскопом: использование статистики пост-поискового маршрута в информационном поиске

Анализ пост-кликовых поисковых маршрутов дал важную информацию о пользовательском поведении и помог улучшить качество поиска. Однако по-прежнему мало изучена полезность различных свойств поисковых маршрутов для использования в современных моделях ранжирования. Данное исследование, проведенное компанией Яндекс, рассказывает о более углубленном изучении пользовательского поведения за пределами страниц с результатами органической выдачи.

Таксономия веб-спама

Данная авторитетная работа представляет собой первую попытку систематизации технологий поискового спама, которая была предпринята научным сообществом в 2004 году. Она будет интересна, прежде всего, неискушенному читателю.

Статистические методы обнаружения спама

В настоящей работе предполагается, что некоторые спамерские страницы можно идентифицировать путём статистического анализа. Представленные техники могут быть использованы в качестве фактора ранжирования, при планировании краулинга, а так же для исключения низкокачественного контента из поискового индекса.

Крупномасштабное изучение автоматизированного поискового трафика

В этом исследовании представлено несколько отличительных поведенческих характеристик, с помощью которых можно сепарировать поисковый трафик на пользовательский и автоматически-сгенерированный, когда запросы в поисковую систему подаются с помощью специального программного обеспечения.

Обнаружение спама посредством анализа содержимого интернет-страниц

В данном материале рассматриваются вопросы исследования содержимого страниц на предмет наличия в нем контентного спама. Исследуются ранее неописанные методы автоматического вычисления некачественных документов, анализируется их эффективность как по отдельности, так и в случае их комбинирования.

TemporalRank: гиперссылочный анализ с использованием временного ряда состояний веб-графа

В данном материале описывается алгоритм ссылочного ранжирования TemporalRank, который использует множество мгновенных снимков состояния веб-графа как его временную характеристику. В нем также используется кинетическая модель, интерпретирующая предложенный алгоритм.

Микроэволюция веб-страниц с частыми обновлениями

В данной работе рассматривается актуальность использования распределения Пуассона для отображения частотной характеристики обновления веб-страниц, на которых наблюдаются регулярные изменения.

Поведенческие факторы. Часть 5: Детальный анализ алгоритмов ранжирования BrowseRank Plus и MobileRank

В данной части исследования подробно разбираются алгоритмы ранжирования BrowseRank Plus и MobileRank с использованием фреймворка Маркова. В отличие от классического BrowseRank, который получается из непрерывного Марковского процесса, BrowseRank Plus и MobileRank следуют из Зеркального Полумарковского процесса.