Поведенческие факторы. Часть 2: От экспериментов с BrowseRank к алгоритму ClickRank

Прежде мы исследовали альтернативные способы вычисления важности веб-страниц, отличающиеся от стандартных способов оценки при помощи ссылочного графа. В первом разделе настоящего материала, посвященного поведенческим факторам ранжирования, мы рассматриваем проведённые эксперименты, а также приводим статистику работы BrowseRank в практических условиях. Во втором разделе мы переходим к следующему поведенческому алгоритму, который называется ClickRank.

Результаты эксперимента

Мы провели ряд экспериментов для проверки эффективности предложенного алгоритма BrowseRank. Далее представлен итоговый отчёт и показаны выходные данные в виде таблиц. Первый эксперимент проводился на уровне веб-сайтов, чтобы узнать о производительности BrowseRank в рамках поиска важных и/или интересных сайтов и исключения спам-ресурсов. Второй эксперимент проводился на уровне веб-страниц для проверки эффективности BrowseRank в улучшении ранжирования релевантности документов.

BrowseRank веб-сайта

Исходные данные и направление исследования

В качестве исходных данных мы использовали информацию о поведении пользователей, собранную в Интернете коммерческой поисковой системой. Всевозможные персональные сведения строго отфильтровывались и полученные данные были специально обработаны для максимального исключения информации о личности пользователей. В сумме было получено более 3 млрд. записей и среди них было 950 млн. уникальных URL. На Рисунке 2 показана логарифмическая шкала распределения длительности посещения страницы, которая была случайным образом выбрана из части выборки. В этой части все страницы имели большое число посещений. Из графика видно, что зависимость не прямолинейна в начале. Это значит, что кривая не следует точной экспоненте распределения, что подтверждает наши доводы о зашумленности данных о длительности посещения.

Рисунок 2. Распределение длительности визитов.

При проверке BrowseRank на уровне веб-сайтов мы не делали различия между страницами на одном и том же сайте. Переходы между страницами одного и того же сайта не принимались в расчёт и обобщались с переходами на (и с) страницы извне. В результате был получен граф сёрфинга пользователей на уровне сайтов, включающий в себя 5.6 млн. вершин и 53 млн. рёбер. Так же был создан ссылочный граф, содержащий 5.6 млн. сайтов из поисковой системы. В сумме у нас было 40 млн. веб-сайтов из поисковой системы. В качестве проверки работы нашего алгоритма, мы рассчитали для них PageRank и TrustRank.

Топ-20 вебсайтов

В Таблице 3 показан топ из 20 сайтов, ранжированных разными алгоритмами. Из таблицы можно сделать следующие выводы:

BrowseRank высоко оценивает сайты стандарта Веб 2.0 (выделены жирным), среди которых myspace.com, youtube.com, facebook.com. Причиной тому являются высокие показатели посещаемости и продолжительности визитов, несмотря на то, что на эти сайты меньше внешних ссылок, чем на такие Веб 1.0 сайты как adobe.com и apple.com. По логике BrowseRank этот факт отражает реальные информационные нужды пользователей.
Некоторые веб-сайты, например, adobe.com высоко ранжируются алгоритмом PageRank. Причиной служат миллионы входящих ссылок для скачивания Acrobat Reader и Flash Player. Однако частота посещений невелика и такие сайты не должны высоко ранжироваться по важности по сравнению с сайтами, на которых пользователи проводят больше времени (например, myspace.com и facebook.com).
Результаты ранжирования TrustRank похожи на PageRank. Разница заключается в том, что известные сайты ранжируются выше по TrustRank, потому что на них ссылаются доверенные сайты из выборки.

Как итог, результаты ранжирования BrowseRank точнее отражают интересы пользователей, чем PageRank и TrustRank.

Таблица 3.Топ 20 веб-сайтов по версии разных алгоритмов.

#	PageRank	TrustRank	BrowseRank
1	adobe.com	adobe.com	myspace.com
2	passport.com	yahoo.com	msn.com
3	msn.com	google.com	yahoo.com
4	microsoft.com	msn.com	youtube.com
5	yahoo.com	microsoft.com	live.com
6	google.com	passport.net	facebook.com
7	mapquest.com	ufindus.com	google.com
8	miibeian.gov.cn	sourceforge.net	ebay.com
9	w3.org	myspace.com	hi5.com
10	godaddy.com	wikipedia.org	bebo.com
11	statcounter.com	phpbb.com	orkut.com
12	apple.com	yahoo.co.jp	aol.com
13	live.com	ebay.com	friendster.com
14	xbox.com	nifty.com	craiglist.org
15	passport.com	mapquest.com	google.co.th
16	sourceforge.net	cafepress.com	microsoft.com
17	amazon.com	apple.com	comcast.net
18	paypal.com	infoseek.co.jp	wikipedia.org
19	aol.com	miibeian.gov.cn	pogo.com
20	blogger.com	youtube.com	photobucket.com

Борьба с поисковым спамом

Случайным образом были отобраны 10 000 сайтов из 5.6 млн. Эксперты провели оценку на наличие поискового спама и 2714 сайтов были помещены в спам-категорию. Остальные сайты в выборке были отмечены как нормальные ресурсы. Мы использовали распределение спама в выборке для оценки работы алгоритмов. 5.6 млн. сайтов были отсортированы в убывающем порядке по оценке алгоритма. Результаты сортировки были размещены в 15 выборках. Число сайтов в выборках, помеченных как спам разными алгоритмами, показано в Таблице 4.

Таблица 4. Число спам-сайтов в выборках.

# выборки	Число сайтов	PageRank	TrustRank	BrowseRank
1	15	0	0	0
2	148	2	1	1
3	720	9	11	4
4	2231	22	20	18
5	5610	30	34	39
6	12600	58	56	88
7	25620	90	112	87
8	48136	145	128	121
9	87086	172	177	156
10	154773	287	294	183
11	271340	369	320	198
12	471046	383	366	277
13	819449	434	443	323
14	1414172	407	424	463
15	2361420	306	328	756

Заметно, что BrowseRank успешно выделяет спам-сайты в выборках, а число спам-ресурсов в топовых выборках ниже, чем у PageRank и TrustRank. Это значит, что BrowseRank эффективнее борется со спамом, чем PR и TR. Причинами тому является:

Создание внешних ссылок и продвижение сайтов, которое может нарушать работу PageRank, не влияет на BrowseRank, так как ссылочная метрика не используется в оценке.
На производительность TrustRank может влиять выбор начальных сайтов и их распределение, а для BrowseRank это неважно.

Кроме того, производительность TrustRank выше, чем у PageRank, что следует из результата, полученного в [8].

BrowseRank страниц

Ранжирование в поиске

В поисковых системах страницы часто ранжируются в выдаче по двум факторам: ранг релевантности и ранг важности (веса). Линейная комбинация двух списков ранжирования выглядит так:

Здесь 0 ≤ θ ≤ 1 является параметром комбинации.

Исходные данные

Опять использовались данные о поведении пользователей и ссылочный граф. В этот раз мы оценивали работу алгоритмов на уровне страниц. Из поисковой системы было выбрано 8000 запросов и связанные с ними страницы. Три независимых специалиста оценили релевантность страниц каждому запросу: 1 – релевантна, 0 – нерелевантна. Оценки были просуммированы и в случае, когда у страницы было два положительных отзыва, она относилась к категории «релевантна». В прочих случаях страницы были помечены как нерелевантные. Выборка была заранее обработана и очищена от спам-страниц. Как следствие, нам не требуется вычислять TrustRank, так что мы будем работать только с PR. Данные страницы рассматриваются в рамках данных о поведении пользователей.

Результаты

В этом эксперименте мы сравнивали работу PageRank и BrowseRank в качестве модели оценки важности. BM25 [40] использовался в качестве модели релевантности. Мы применили три метрики оценки эффективности ранжирования: MAP [41], точность (P@n) [41] и NDCG@n (Normalized Discount Cumulative Gain, сравнение нашего ранжирования с идеальным значением) [42, 43]. Результаты эксперимента показаны на графиках 3 – 9. Из графиков видно, что BrowseRank превосходит PageRank по всем параметрам в рамках нашей оценки. Например, на Рисунке 7 можно увидеть, что NDCG@5 у BM25 равен 0.853 (при θ = 1). BrowseRank достигает пикового значения NDCG@5 в 0.876 при тета = 0.70, а PageRank – 0.862 при θ = 0.8. Также были проведены t-тесты на уровне доверия 95%. В метрике MAP, превосходство BrowseRank над PR статистически отражено p-значением 0.0063. В метрике P@3, P@5, NDCG@3 и NDCG@5 качество так же выше со значениями 0.00026, 0.0074, 3.98X10-7 и 3.57X10-6 соответственно.

Сравнение алгоритмов

Для дальнейшего использования данных о поведении пользователей и оценки нашего алгоритма, мы приводим сравнение с двумя простыми алгоритмами, которые так же используют данные о поведении или графы сёрфинга пользователей: PageRank-UBG (взвешенный PR, рассчитанные по графу сёрфинга пользователей) и Naive BrowseRank (результат расчёта по числу кликов и средней продолжительности визита). Основываясь на результатах, отражённых на графиках 8, 9 и 10, можно сделать следующие выводы:

Оба алгоритма превосходят PR, как можно видеть из сравнения графиков 3, 5 и 7 с графиками 8, 9, 10. Это показывает, что граф сёрфинга пользователей более надёжен и эффективен, чем ссылочный граф, в качестве источника информации для оценки важности веб-страниц.
NaiveBrowseRank работает лучше, чем PageRank-UBG. Это нормально, так как PageRank-UBG использует только информацию о переходах в графе сёрфинга, в то время как NaiveBrowseRank использует ещё и информацию о длительности визита.
BrowseRank каждый раз серьёзно превосходит простые алгоритмы. Это подтверждает, что модель и предложенный алгоритм более эффективны, чем все остальные методы оценки.

Графики 3–10. Измерение эффективности поиска разными метриками и сравнение BrowseRank с другими алгоритмами.

Итак, ранее мы выяснили, что ссылочный веб-граф не является надёжным источником информации для оценки важности веб-страниц. Более того, существующие алгоритмы ссылочного анализа типа PageRank слишком прямолинейны и просты для адекватной оценки важности страницы. Для решения этой проблемы мы предлагаем использование сведений о поведении пользователей для создания графа сёрфинга, построения модели непрерывно-временного процесса Маркова на графе и применение эффективного алгоритма для расчёта важности веб-страницы по созданной модели.

Данные из графа сёрфинга пользователей более надёжны и обширны, чем информация из классического ссылочного графа, а непрерывно-временная модель Маркова гораздо более производительна, чем все остальные существующие модели. Дальнейшее использование наших разработок приведёт к более точным результатам в оценке важности веб-страниц. Эксперименты подтвердили, что BrowseRank производительнее, чем PageRank и TrustRank в двух задачах веб-поиска, показывая, что современные методы оценки важности на самом деле не имеют серьёзных достоинств.

Однако по-прежнему существует ряд технических вопросов, которые необходимо исследовать в будущих исследованиях:

Данные о поведении довольно разрежены. Использование данных о поведении может привести к надёжной оценке важности для главных страниц сайтов, однако более глубокие страницы могут иметь низкую или даже нулевую частоту вхождения в данные. Возможно, стоит использовать ссылочный граф для сглаживания оценки.
Допущение об однородности процесса по времени сделано, в основном, по техническим причинам. Мы планируем дальнейшие исследования по случаю, где это допущение не принимается.
Информация о содержании и метаданные не использовались в BrowseRank. Но в целом большая страница увеличивает длительность посещения. В следующей версии BrowseRank будут учтены метаданные о размере страницы (кБ) для нормализации продолжительности визитов.

Введение в алгоритм ClickRank

Сбор данных о поведении пользователей в Сети раскрывает новые возможности в сфере информационного поиска. Такие данные как активность пользователей на страницах выдачи поисковых систем являются ценным источником информации для понимания намерений пользователя и его запроса. Исследования логов поисковых систем [36, 35, 2, 37, 1, 25] и данных о кликабельности (click-through data) [9, 20, 21, 3, 33] показали серьёзные улучшения в качестве выдачи, хотя рассмататривались действия пользователей только на страницах с результатами поиска – совсем небольшой части пользовательской активности в Сети. Эффективная обработка всей пользовательской активности может дать поисковым системам понять предпочтения и намерения пользователей, а так же может как повысить производительность поиска, так и удовлетворить потребности пользователя, оставляя приятное впечатление от использования системы. Во-первых, анализ всех действий пользователя даёт наиболее близкую к пользовательской оценку важности сайтов и веб-страниц [26]. Во-вторых, поисковые системы сталкиваются с проблемой расстановки приоритетов по процессам индексирования, краулинга и обработки запросов [4]. В данных условиях внимание пользователей к определённой странице является основным критерием к оптимизации процессов обработки выдачи и так же отражает изменение поведения пользователей со временем. Так как содержание Сети обновляется и пополняется гораздо чаще, чем обрабатывается поисковиками [31], поиск популярного контента и адаптирование расписания краулинга под интересы пользователей явяется важным приоритетом в работе поисковых систем. Ещё одной интересной сферой исследования в работе поисковых машин является доступ к глубинному (невидимому) вебу (deep web) – части Сети, которая динамически генерируется и недоступна напрямую автоматическим краулерам [17]. Охват роботов может быть увеличен за счёт доступа к истории посещений пользователей, которая может указать путь на скрытые URL.

Здесь мы сконцентрируемся на большом объёме данных, полученных из компьютерного анализа поведения пользователей для: а) оценки всех действий пользователя в Сети и б) разработки моделей, обрабатывающих данные о сессиях пользователей. Нашим главным вкладом является инновационный алгоритм ClickRank, использующийся для оценки важности веб-страниц и сайтов. ClickRank первым делом обрабатывает локальное значение важности для каждой страницы на сайте за каждую сессию сёрфинга пользователя, основываясь на предпочтениях пользователя в контексте данной сессии сёрфинга. Далее ClickRank обобщает локальные значения всех сессий для создания глобальной таблицы ранжирования. Мы оцениваем этот метод в трёх глобальных сферах поиска. Первый эксперимент – это традиционная задача ранжирования веб-сайтов, в котором мы показываем, что эффективность ClickRank может поспорить с современными подходами, включая PageRank [32] и недавно предложенным BrowseRank [26], учитывая, что для ClickRank требуется значительно меньшая вычислительная мощность. Во втором эксперименте мы демонстрируем инновационность и эффективность ClickRank в ранжировании веб-страниц с несколькими сотнями современных характеристик, включая количество посещений страниц и ссылочный веб-граф. В данном крупномасштибном тестировании мы ставим задачу обучения оптимальной модели ранжирования в виде проблемы аддитивной (добавочной) регрессии, используя градиентные древа решений (gradient boosted decision trees) и сравниваем адекватность характеристик алгоритма ClickRank с прочими. Наконец, мы тестируем ClickRank в системе, которая собирает свежие и популярные страницы и показывает пользователям на странице выдачи в виде динамических быстрых ссылок.

Майнинг веб-сессий

Будем считать, что веб-сессия – это логическая единица пользовательской активности во времени, отражающая взаимодействие пользователя с браузером. Концепция веб-сессии в нашей работе применяется ко всем категориям веб-активности, в то время как прочие работы считают сессию простым набором поисковых запросов и не принимают во внимание её многие элементы.

Определение сессии

Доступ к истории браузера можно получить из нескольких иточников (ISP, сетевые шлюзы, тулбары). В данной работы мы используем информацию, собранную тулбаром Yahoo! – специальным расширением для браузера, которое помогает пользователям в быстром поиске необходимой информации. Тулбар записывает активность пользователей, которым дали ему на это разрешение во время установки. Каждая запись в логе состоит из cookie, времени визита, URL, рефарального URL и списка атрибутов события. Cookie – это уникальный анонимный идентификатор клиента, который истекает и обновляется в определённое время. URL – идентификатор страницы, к которой запрошен доступ, а реферальный URL – предыдущий, с которого запрашивается доступ. Список атрибутов события состоит из различных метаданных, связанных с активностью пользователя. Для экспериментов в нашей работе были собраны анонимные данные о 30 млрд. событий за 6 месяцев в 2008-м году в системе Yahoo!

Для сегментации активности на сессии мы используем структуру пар реферального-нынешнего URL для воссоздания цепи активности пользователя. В нашей системе для мультиюзеров (с несколькими открытыми вкладками в браузере) мы группируем действия, связанные с разными задачами в разные сессии, а не обобщаем их в одну. Далее, мы задаём сортируем действия пользователя по времени и помещаем их в интервал с двумя границами. Мы считаем, что говая сессия начинается, когда зафиксирован промежуток неактивности в 30 минут (как и в BrowseRank). Так же новая сессия начинается, если в ней не присутствует реферальный URL (т.е. на страницу выполняется прямой заход).

Наш метод сегментации сессий требует только одной итерации сканирования всех данных и не требует сложных вычислений. Недавние исследования по разбиению логов запросов на логические сессии [6] показали, что в подавляющем большинстве (92%) случаев, сегментационный метод, основанный на установке тайм-аута (предела времени) даёт результат, идентичный результату сложных и вычислительно-затратных алгоритмов [6], если оба проверяются экспертами-людьми, используя объективный индекс Rand [34]. Для небольшой части оставшихся сессий, которые трудно сегментировать даже сложными алгоритмами, метод тайм-аута уступает по производительности всего на 1.4%.

Характеристики сессии

Среднее число событий за сессию	9.1
Стандартное отклонение числа событий	24.5
Средняя продолжительность сессии (с)	420.3
Стандартное отклонение продолжительности	1068.0
Сессий пользователя в день	15.5
Процент поисковых сессий	4.85%

Таблица 5. Суммируем ключевые характеристики стандартной веб-сессии.

На Рисунке 11 показано вероятностное распределение числа событий в сессии и длительность сессии, соответственно. Число событий распределяется экспоненциально. Его математическое ожидание и производная 9.1 и 24.5, соответственно, что показвыает наличие у веб-сессии широкого набора действий, по сравнению с поисковой сессией, которая состоит из 5 событий в среднем. Кроме того, поисковые сессии (содержащие хотя бы один запрос, поданный в поисковую систему) составляют 4.85% от общего числа сессий. Это говорит о том, что концентрация внимания на них приведёт к исчезновению независимости в анализе.

Граф продолжительности сессии показывает два типа экспоненциального распределения тайм-аута в 1800 секунд (30 мин.). В среднем веб-сессия длится 420.3 секунды со стандартным отклонением в 1068 секунд.
Важно учитывать разреженность контента среди 30 млрд. изучаемых событий. Нами был получено 3.1 млрд. уникальных URL. Для того, чтобы убрать индивидуальную зависимость, мы рассматривали страницы, на которые кликало более 5 пользователей. Число таких страниц составляет 48.5 млн. Рисунок 12 показывает распределение встречающихся веб-страниц в истории пользователей.

Кластеризация сессий

Майнинг сессий пользователей в масштабах веба особенно важен для понимания поведенческих факторов пользователей в соответствии с их потребностями. Нами предлагается несколько подходов к кластеризации, основанных на дифференцировании и статистической обработке сессий по тематике. В эксперименте мы привязали каждый URL к определённым категориям событий, разбитых по пяти высокоуровневым целям: поиск, работа с почтой, обучение, шоппинг и прочее (социальные сети и мультимедийное времяпрепровождение). Мы создали диаграмму, отражающую распределение событий в категоризированных сессиях. Чтобы максимально точно сопоставить посещение URL с категорией сессии, мы привлекли экспертов для категоризации топ 1200 популярных сайтов по вышеуказанным критериям.

В каждой сессии событие сёрфинга было отнесено либо к категории «неопределённое», либо к одной из пяти заданных. Все шесть типов событий (вместе с «неопределённым») были отсортированы для наглядного вида распределения с исключением сессий, содержащих более 80% неопределённых событий. Для дальнейшего анализа распределения в диаграмме сесий, мы использовали принципиальный анализ компонентов (PCA, principle component analysis) для уменьшения количества измерений в семимерном векторе характеристик. PCA спроецирован на маломерное линейное подпространство для более наглядного отображения разброса данных. 3D-вид диаграммы сессий на Рисунке 13 показывает неоднородность результатов, так как у нас есть широкий охват данных об активности. Среди первых шести собственных значений доминирует первое.

Страница материала:

Поведенческие факторы. Часть 1: Введение в алгоритм BrowseRank

Поведенческие факторы. Часть 2: От экспериментов с BrowseRank к алгоритму ClickRank

Поведенческие факторы. Часть 3: Алгоритм ранжирования ClickRank

Поведенческие факторы. Часть 4: Введение в алгоритмы BrowseRank Plus и MobileRank

Поведенческие факторы. Часть 5: Детальный анализ алгоритмов ранжирования BrowseRank Plus и MobileRank

Поведенческие факторы. Часть 6: От экспериментов с BrowseRank Plus и MobileRank к алгоритму Fresh BrowseRank

Оригинал: «BrowseRank: Letting Web Users Vote for Page Importance» и «Mining Rich Session Context to Improve Web Search»

Ссылки:

[1] E. Adar, D. S. Weld, B. N. Bershad, and S. S. Gribble. Why we search: visualizing and predicting user behavior. In WWW, pages 161–170, 2007.

[2] E. Agichtein, E. Brill, and S. Dumais. Improving web search ranking by incorporating user behavior information. In SIGIR, pages 19–26, 2006.

[3] E. Agichtein and Z. Zheng. Identifying ”best bet” web search results by mining past user behavior. In KDD, pages 902–908, 2006.

[4] R. Baeza-Yates, C. Castillo, F. Junqueira, V. Plachouras, and F. Silvestri. Challenges in distributed information retrieval. In ICDE, pages 6–20, 2007.

[5] M. Bilenko and R. W. White. Mining the search trails of surfing crowds: Identifying relevant websites from user activity. In WWW, pages 51–60, 2008.

[6] P. Boldi, F. Bonchi, C. Castillo, D. Donato, A. Gionis, and S. Vigna. The query-flow graph: Model and applications. In CIKM, pages 609–618, 2008.

[7] L. Breiman, J. H. Friedman, R. A. Olshen, and C. J. Stone. Classification and Regression Trees. CRC Press, 1984.

[8] A. Z. Broder, R. Lempel, F. Maghoul, and J. Pedersen. Efficient PageRank approximation via graph aggregation. In WWW, pages 484–485, 2004.

[9] W. Cohen, R. Shapire, and Y. Singer. Learning to order things. Journal of Artificial Intelligence Research, 10:243–270, 1999.

[10] N. Craswell, S. Robertson, H. Zaragoza, and M. Taylor. Relevance weighting for query independent evidence. In SIGIR, pages 416–423, 2005.

[11] J. Dean and S. Ghemawat. MapReduce: Simplified data processing on large clusters. In OSDI, pages 137–150, 2004.

[12] D. Downey, D. Liebling, and S. Dumais. Understanding the relationship between searchers’ queries and information goals. In CIKM, pages 449–458, 2008.

[13] R. O. Duda, P. E. Hart, and D. G. Stork. Pattern Classification. Wiley-Interscience, 2 edition, 2000.

[14] J. H. Friedman. Greedy function approximation: A gradient boosting machine. The Annals of Statistics, 29(5):1189–1232, 2001.

[15] Google. We know the web was big. Online, 2008. googleblog.blogspot.com/2008/07/we-knew-web-was-big.html.

[16] Z. Gyongyi, H. Garcia-Molina, and J. Pedersen. Combating web spam with TrustRank. In VLDB, pages 576–587, 2004.

[17] B. He, M. Patel, Z. Zhang, and K. C.-C. Chang. Accessing the deep Web. Communications of the ACM, 50(5):94–101, 2007.

[18] K. Jarvelin and J. Kekalainen. IR evaluation methods for retrieving highly relevant documents. In SIGIR, pages 41–48, 2000.

[19] K. Jarvelin and J. Kekalainen. Cumulated gain-based evaluation of IR techniques. ACM Trans. Inf. Syst., 20(4):422–446, 2002.

[20] T. Joachims. Optimizing search engines using clickthrough data. In KDD, pages 133–142, 2002.

[21] T. Joachims, L. Granka, B. Pan, H. Hembrooke, and G. Gay. Accurately interpreting clickthrough data as implicit feedback. In SIGIR, pages 154–161, 2005.

[22] K. S. Jones, S. Walker, and S. E. Robertson. A probabilistic model of information retrieval: Development and comparative experiments (parts 1 and 2). Information Processing and Management, 36(6):779–840, 2000.

[23] J. Kleinberg. Authoritative sources in a hyperlinked environment. Journal of the ACM, 46(5):604–632, 1999.

[24] A. N. Langville and C. D. Meyer. Deeper inside PageRank. Journal of Internet Mathematics, 1(3):335–400, 2005.

[25] X. Li, Y.-Y. Wang, and A. Acero. Learning query intent from regularized click graphs. In SIGIR, pages 339–346, 2008.

[26] Y. Liu, B. Gao, T.-Y. Liu, Y. Zhang, Z. Ma, S. He, and H. Li. BrowseRank: Letting web users vote for page importance. In SIGIR, pages 451–458, 2008.

[27] F. McSherry. A uniform approach to accelerated PageRank computation. In WWW, pages 575–582, 2005.

[28] M. R. Meiss, F. Menczer, S. Fortunato, A. Flammini, and A. Vespignani. Ranking web sites with real user traffic. In WSDM, pages 65–76, 2008.

[29] C. Moler. The world’s largest matrix computation. Online, 2002. mathworks.com/company/newsletters/news_notes/clevescorner/oct02_cleve.html.

[30] A. Mowshowitz and A. Kawaguchi. Bias on the Web. Communications of the ACM, 45(9):56–60, 2002.

[31] C. Olston and S. Pandey. Recrawl scheduling based on information longevity. In WWW, pages 437–446, 2008.

[32] L. Page, S. Brin, R. Motwani, and T. Winograd. The PageRank Citation Ranking: Bringing Order to The web. Technical Report, Stanford University, 1998.

[33] B. Piwowarski and H. Zaragoza. Predictive user click models based on click-through history. In CIKM, pages 175–182, 2007.

[34] W. M. Rand. Objective criteria for the evaluation of clustering methods. Journal of the American Statistical Association, 66(336):846–850, 1971.

[35] D. E. Rose and D. Levinson. Understanding user goals in web search. In WWW, pages 13–19, 2004.

[36] C. Silverstein, H. Marais, M. Henzinger, and M. Moricz. Analysis of a very large web search engine query log. ACM SIGIR Forum, 33(1):6–12, 1999.

[37] B. Tan, X. Shen, and C. Zhai. Mining long-term search history to improve search accuracy. In KDD, pages 718–723, 2006.

[38] R. W. White, M. Bilenko, and S. Cucerzan. Leveraging popular destinations to enhance web search interaction. ACM Trans. Web, 2(3):1–30, 2008.

[39] R. W. White and S. M. Drucker. Investigating behaviorial variability in web search. In WWW, pages 21–30, 2007.

[40] S. E. Robertson. Overview of okapi projects. Journal of Documentation, 53(l):3-7, 1997.

[41] R. Baeza-Yates and B. Ribeiro-Neto. Modern Information Retrieval Addison Wesley, May 1999.

[42] K. Jarvelin and J. Kekalainen. IR evaluation methods for retrieving highly relevant documents. In SIGIR ’00, pages 41-48, New York, USA, 2000. ACM.

[43] К. Jarvelin and J. Kekalainen. Cumulated gain-based evaluation of ir techniques. ACM Trans. Inf. Syst., 20(4):422-46, 2002.

Полезная информация по продвижению сайтов:

Майнинг поисковых маршрутов массового серфинга: идентификация релевантных веб-сайтов на основании пользовательской активности

Перейти ко всей информации

Поведенческие факторы. Часть 2: От экспериментов с BrowseRank к алгоритму ClickRank

Результаты эксперимента

BrowseRank веб-сайта

Исходные данные и направление исследования

Топ-20 вебсайтов

Борьба с поисковым спамом

BrowseRank страниц

Ранжирование в поиске

Исходные данные

Результаты

Сравнение алгоритмов

Введение в алгоритм ClickRank

Майнинг веб-сессий

Определение сессии

Характеристики сессии

Кластеризация сессий

Обучение ранжированию I. Попарный подход. Часть 3: Экспериментальная оценка RankBoost

Алгоритм Google Колибри: стимулирование входного и контент-маркетинга

Обучение ранжированию I. Попарный подход. Часть 2: Введение в RankBoost

Майнинг поисковых маршрутов массового серфинга: идентификация релевантных веб-сайтов на основании пользовательской активности