Построение достоверного веб-графа с учетом данных о пользовательском поведении

В задачах оценки качества интернет-документов освещается нестандартное решение: построение специализированного гиперссылочного графа, который использует данные о поведении пользователей при сёрфинге. Результаты эксперимента показывают, что модели, созданные с использованием данных пользовательского поведения являются более эффективными по сравнению с оригинальным Веб-графом при оценке качества веб-сайтов.

Противодействие спаму: новый алгоритм пропагации, основанный на данных пользовательских кликов

В текущей работе предлагается новаторский алгоритм, использующий анализ пользовательских кликов и итеративно распространяющего спам-оценки между пользовательскими запросами и URL-адресами, содержащихся в исходной выборке. В работе используется гиперссылочная структура двудольного кликового графа для обнаружения других страниц/сайтов, которые, с определенной долей вероятности, могут также являться спамом.

Мошенническая двухпоточность: взаимосвязь веб-спамеров с рекламодателями

Кроме рассмотрения технологии сокрытия, в настоящем материале представляется пятислойная двухпоточная модель, предназначенная для исследования спама, использующего перенаправления. В ней рекламные объявления рекламодателей следуют через синдикаторов, агрегаторов и перенаправляющие домены, отображаясь, в конечном счете, на дорвейных страницах; в то время, как трафик следует в обратном направлении.

Modular PageRank: масштабирование персонализированного веб-поиска

Далее представляется одна из наиболее авторитетных и теоретически сильных работ, входящих в группу исследований, посвященных методам персонализации органического поиска. Проведенные эксперименты на коллекции веб-данных Stanford’s WebBase демонстрируют эффективность предложенного подхода.

Как мы ищем: визуализация и прогнозирование поведения пользователей

В данной работе рассматривается корреляция пользовательских реакций на события в различных веб-системах, таких как сервисы блоггинга, сайты сообществ, поисковые системы и новостные порталы. Исследование открывает возможность предсказания поведения пользователей и прогнозирования всплесков их активности.

Пусть веб-спамеры разоблачат себя сами

Настоящая работа посвящена майнингу ссылочного спама (в том числе, ссылочных ферм, обмена и торговли гиперссылками) из выборки форумов по поисковой оптимизации (SEO). Предложенный алгоритм, основанный на полуконтролируемом обучении, может быть хорошим дополнением к уже существующим, традиционным технологиям противодействия поисковому спаму, таким как TrustRank и SpamRank.

Ссылочный анализ в информационном поиске

Данная небольшая статья представляет собой обзор эффективных алгоритмов ссылочного анализа Google PageRank и HITS, а также описывает их внедрение. Она будет интересна, прежде всего, неискушенному читателю.

Анатомия системы крупномасштабного гипертекстового интернет-поиска

Далее представлена классическая работа Сергея Брина и Лоуренса Пейджа, в которой представляется Google — прототип крупномасштабной поисковой машины, активно использующая структуру гипертекста. Данная поисковая машина предназначена для эффективного поиска и индексирования, а также обеспечения более удовлетворительных результатов поиска, чем у существующих систем.

Предсказание следующей страницы при помощи PageRank с учётом её размера, частоты и длины визитов

В данной работе рассматривается модификация алгоритма PageRank, которая позволяет создавать рекомендационную систему на основе длительности визита, частоты визитов текущей страницы и её размера.