В настоящем исследовании предлагается подход, позволяющий идентифицировать релевантные источники информации на основании истории скомбинированных поведенческих данных множества пользователей, которые собираются на поиске, а также при просмотре страниц интернет-сайтов.
Данная небольшая аналитическая статья представляет собой обзор таких методов персонализации классического алгоритма Google PageRank, как Topic-Sensitive PageRank, Modular PageRank и BlockRank. Она будет интересна, прежде всего, неискушенному читателю.
Продолжая серию публикаций, посвященных попарным подходам, мы переходим от алгоритма Ranking SVM к описанию и анализу следующей эффективной методологии ранжирования, которая называется RankBoost.
В этой статье доказывается, что такие алгоритмы ссылочного ранжирования как PageRank и HITS, отдавая предпочтение старым документам, не берут в расчёт фактор времени: качественные в прошлом, интернет-страницы могут потерять своё качество на данном временном интервале или в перспективе. Результаты экспериментов показывают, что новые подходы являются крайне эффективными.
Относительно недавно Google реализовал новый алгоритм ранжирования под названием «Колибри». В текущем материале представлена точка зрения, в соответствии с которой это нововведение будет способствовать развитию как контентного, так и входного маркетинга.
В текущей работе предлагается методология идентификации сайтов, чья гиперссылочная структура подверглась хиджакингу — одному из основных типов ссылочного спама. Подобного рода веб-сайты сами по себе могут являться надежными, однако их содержимое ссылается на неблагонадежных соседей.
Познакомившись в предыдущей части с теоретической основой алгоритма RankBoost, мы переходим к анализу тех экспериментальных результатов, которые были достигнуты при его использовании для различных задач.
Настоящим материалом мы открываем серию публикаций, которые посвящены применению методов машинного обучения к задачам ранжирования. Первый раздел данных публикаций рассказывает нам о попарном подходе.
Данная работа представляет собой исследование общей структуры и распределения ссылочных ферм на веб-графе. Они извлекаются посредством разложения компонент сильной связанности, сформировавшихся вокруг ядра; перебора максимальных клик, а также с использованием техники минимального разреза для извлечения и расширения числа линкофармов, содержащихся в самом ядре.
В данной небольшой работе предлагается графоориентированный подход, позволяющий оценивать пользовательскую благонадежность в соответствии с кликовым поведением на странице результатов органического поиска. Присваиваемая оценка пользовательской благонадежности включается в обратную связь по релевантности с целью улучшения качества органического поиска.