Противодействие спаму: новый алгоритм пропагации, основанный на данных пользовательских кликов

В текущей работе предлагается новаторский алгоритм, использующий анализ пользовательских кликов и итеративно распространяющего спам-оценки между пользовательскими запросами и URL-адресами, содержащихся в исходной выборке. В работе используется гиперссылочная структура двудольного кликового графа для обнаружения других страниц/сайтов, которые, с определенной долей вероятности, могут также являться спамом.

Мошенническая двухпоточность: взаимосвязь веб-спамеров с рекламодателями

Кроме рассмотрения технологии сокрытия, в настоящем материале представляется пятислойная двухпоточная модель, предназначенная для исследования спама, использующего перенаправления. В ней рекламные объявления рекламодателей следуют через синдикаторов, агрегаторов и перенаправляющие домены, отображаясь, в конечном счете, на дорвейных страницах; в то время, как трафик следует в обратном направлении.

Modular PageRank: масштабирование персонализированного веб-поиска

Далее представляется одна из наиболее авторитетных и теоретически сильных работ, входящих в группу исследований, посвященных методам персонализации органического поиска. Проведенные эксперименты на коллекции веб-данных Stanford’s WebBase демонстрируют эффективность предложенного подхода.

Как мы ищем: визуализация и прогнозирование поведения пользователей

В данной работе рассматривается корреляция пользовательских реакций на события в различных веб-системах, таких как сервисы блоггинга, сайты сообществ, поисковые системы и новостные порталы. Исследование открывает возможность предсказания поведения пользователей и прогнозирования всплесков их активности.

Пусть веб-спамеры разоблачат себя сами

Настоящая работа посвящена майнингу ссылочного спама (в том числе, ссылочных ферм, обмена и торговли гиперссылками) из выборки форумов по поисковой оптимизации (SEO). Предложенный алгоритм, основанный на полуконтролируемом обучении, может быть хорошим дополнением к уже существующим, традиционным технологиям противодействия поисковому спаму, таким как TrustRank и SpamRank.

Ссылочный анализ в информационном поиске

Данная небольшая статья представляет собой обзор эффективных алгоритмов ссылочного анализа Google PageRank и HITS, а также описывает их внедрение. Она будет интересна, прежде всего, неискушенному читателю.

Анатомия системы крупномасштабного гипертекстового интернет-поиска

Далее представлена классическая работа Сергея Брина и Лоуренса Пейджа, в которой представляется Google — прототип крупномасштабной поисковой машины, активно использующая структуру гипертекста. Данная поисковая машина предназначена для эффективного поиска и индексирования, а также обеспечения более удовлетворительных результатов поиска, чем у существующих систем.

Предсказание следующей страницы при помощи PageRank с учётом её размера, частоты и длины визитов

В данной работе рассматривается модификация алгоритма PageRank, которая позволяет создавать рекомендационную систему на основе длительности визита, частоты визитов текущей страницы и её размера.

Упорядочивание веба посредством алгоритма ссылочного ранжирования Google PageRank

В данной классической работе Сергея Брина и Лоуренса Пейджа, которая была написана в соавторстве с Р. Мотвани и Т. Виноградом, рассматривается методология упорядочивания хаотической структуры интернета посредством алгоритма ссылочного ранжирования Google PageRank.

Ранжирование данных с помощью алгоритма связанных структур

В настоящей работе предлагается оригинальная идея алгоритма ранжирования текстовых и графических данных, с учетом их внутренних связей. Данные, представленные в виде векторов в Евклидовом пространстве, рассматриваются как извлеченные из многообразия. Алгоритм ранжирования связанных структур позволяет достичь впечатляющих результатов в сортировке изображений.