Исследование алгоритмов машинного обучения ранжирования, основанных на списочном подходе (Listwise Approach)

В данной работе анализируются методы машинного обучения ранжирования, основанные на списочном подходе (Listwise Approach), в частности на перестановке документов. Минимизация функции потерь в связи с использованием подобным методов. Что такое свойство состоятельности и определение формулировки критерия состоятельности; исправления и дополнения к первоначальной формулировку критерия.

Введение

Одной из главных задач при разработке алгоритмов поиска текстовых документов по запросу является их ранжирование в соответствии со степенью релевантности самому запросу – наиболее релевантные документы должны выводиться в списках в первую очередь и далее по уменьшению степени релевантности. Сама по себе задача ранжирования текстовых документов по релевантности делится на две подзадачи – это выявление признаков релевантности (т.е. факторов ранжирования) и построение функции ранжирования, основанных на этих факторов и весовых коэффициентов, которые задаются машинным обучением.

Признаки релевантности – это совокупность самых различных показателей. В качестве факторов ранжирования, присвоенных паре запрос-документ, может быть использована и частотность запроса в теле документа, и его длина, и более сложные характеристики документа и запроса. Такие поисковики, как Google и Яндекс, используют в своей работе до нескольких сот подобных факторов и признаков релевантности. Сама функция ранжирования, которая позволяет ранжировать документы по их релевантности запросу, выстраивается на основе базы данных, в которую входит несколько тысяч примеров оценки пар «запрос-документ» асессорами, причем оценка выставляется с учетом нескольких градаций релевантности. Функция выстраивается путем линейной комбинации факторов с весами, которые выбираются при помощи одного из алгоритмов машинного обучения задачам ранжирования. Сегодня используется сразу несколько типов методов машинного обучения задачам ранжирования текстовых документов, причем большая их часть эвристического характера – методы на практике показывают отличные результаты, но при этом не имеют строгого теоретического обоснования. Кроме того, на данный момент существует одна значительная проблема, а именно проблема объективного сравнивания принципиально разных методов, что связано с отсутствием теоретического анализа алгоритмов. На данный момент в основном используется эмпирический способ сравнения, основанный на сопоставлении результатов различных алгоритмов, именно поэтому в рамках конференции ACM SIGIR LR4IR 2007 группой Tie-Yan-Liu был предложен способ унифицировать результаты тестированием путем использования коллекции LETOR.

Первые статьи, затрагивающие проблему глубокого анализа алгоритмов обучения, вышли в 2008 году. Работа проводилась на основе подхода, описанного в статье [2], которая была опубликована в рамках конференции ICML. Исследователями был предложен единый критерий состоятельности, создающий необходимые условия на функцию штрафа, в результате чего функция становится эффективной в свете задачи машинного обучения задачам ранжирования. [Если говорить о практическом применении алгоритмов машинного обучения в поисковых системах, то на сегодня известно, что Яндекс использует для данных целей MatrixNet, а Bing — RankNet. Мы полагаем, что текущий материал будет очень полезен для всех, кого интересует продвижение сайтов в системах информационного поиска, доверяющих ранжирование сайтов алгоритмам машинного обучения — прим. коллектива компании «SEO константа»]. В ходе работ, автор установил, что ранее принятый критерий состоятельности выдает не совсем корректные результаты, если параллельно с ним не создается дополнительных условий на функции штрафа. Именно поэтому следующим шагом работы стала проработка контрпримера к оригинальной теореме, результатом чего стала разработка нового критерия состоятельности и доказательство теоремы.

Теорема о состоятельности дала возможность разработать и проанализировать новый алгоритм, который по своим результатам в области ранжирования документов по релевантности запросу превзошел предыдущий метод. Этот метод прошел тестирование на одной из наиболее часто используемых тестовых коллекций, а результаты испытания оказались сравнимы с результатами одного из лучших ранее опубликованных алгоритмов.

Постановка задачи

В поставленной и сформулированной задаче ранжирования приняты были следующие условия:

Множество D, представляющее собой множество текстовых документов, следовательно, его элементы – отдельные документы;
Множество Θ, представляющее собой множество запросов, соответственно, его элементы – отдельные запросы.

Согласно условиям, задача требует наличия еще одного множества – множества R, на котором задан линейный порядок ≺. Таким образом, функция ранга ψ:(Θ × D → R) необходима для определения релевантности текстового документа поисковому запросу. Из этого следует, что два однотипных документа d₁ и d₂ будут характеризоваться разной релевантностью запросу q; например, если ψ(q,d₁)≺ψ(q,d₂), то d₁ менее релевантен запросу q, чем d₂. Также допускается введение упрощающего обозначения ψ_q = ψ(q,⋅). Перестановки типа представляют собой сортировку документов по убыванию ранга. Эту перестановку можно связать с любой из пар типа ψ_qi, {d_ij}_j. Кроме того, допускается введение дополнительного обозначения типа sort (а⃗) = π, которое упрощает обозначение перестановки сортированного списка значений a_i:a_πi > a_πj, когда i<j. Следовательно, π_qi = sort({ψ_qi(d_ij)}_j).

Также потребуется введение множества признаков, которое будет обозначено множеством функций F, его же элементы – признаки релевантности и суть функции φ:ΘxD → ℜ. Именно благодаря введению этого множества, а также использованию таких элементов, как признаки, становится возможным численно связать документ и сам запрос. Следующим этапом работы будет постановка самой задачи обучения ранжированию. Здесь в качестве базы знаний использоваться будет так называемое обучающее множество, то есть, объединение множества запросов и множества документов с определенной функцией ранга, следовательно, обучающее множество выражается таким образом:

Где q_i∈Θ, d_ij∈D и для каждой пары q_i и d_ij установлено значение ψ(q_i,d_ij).

Тестовые и обучающие множества совпадают за тем лишь исключением, что обучающие запросы и соответствующие им документы различаются. В задаче тестовое множество будет выражено обозначением типа S_test. Основной проблемой обучения ранжированию документов является нахождение наиболее оптимальной эмпирической функции ранжирования типа ψ^~:ℜ^r → ℜ при ее использование в заданном обучающем множестве, причем r является мощностью пространства F. Оптимальность ψ^~ на практике определяется условием ψ^~= argmax E (ψ^~,ψ, S_test). При этом функционал Е позволяет измерить близость функции ранга и эмпирической функции ранжирования. Функция, сопоставляющая перестановку документов по убыванию значений ψ^~ с запросом q, в нашей задаче будет обозначена за π_ψ^~(q). Отсюда: ψ^~(q,d_i)>(q,d_j)⇔π_ψ^~(q)(d_i)<π_ψ^~(q)(d_j)

На сегодняшний день в теоретическом анализе ранжирования текстовых документов чаще всего используются метрики NDCG (Normalized Discounted Cumulative Gain) и MAP (Mean Average Precision). В записях часто встречаются обозначения типа NDCG@N, но это применимо только в ситуациях, когда суммирование ведется только по N самых релевантных документов.

В качестве ограничения эмпирической функции ранжирования мы будем предполагать её линейной. В векторной форме ψ^~(x⃗ )=<ω⃗,x⃗>, при этом ограничение не концептуально. Для иллюстрации утверждения можно привести пример, где в роли функции ранжирования выступает нелинейная нейронная сеть, которая определяется определенной группой операций (генетическое программирование). Перечисленные методы позволили добиться достаточно высоких результатов с нелинейными функциями ранжирования, таким образом, доказав, что использовать можно не только линейные функции. Эти исследования открыли в качестве одной из перспектив для дальнейших исследований выбор гораздо более сложных моделей функций ранжирования и алгоритмов ее обучения задачам ранжирования. Если сравнивать линейные и нелинейные функции ранжирования, то первая способна продемонстрировать следующие преимущества:

Линейное расходование памяти и линейное вычисление;
Аддитивность. Можно использовать в целях оптимизации скорости работы поисковых систем, размера индекса.
Дифференцируемость, выпуклость и непрерывность.
Предсказуемость. Алгоритмы обучения при решении однотипных задач (классификации и/или регрессии) достаточно хорошо исследованы.

Состоятельность методов обучения

Необходимые определения

В этом разделе мы рассмотрим некоторые алгоритмы машинного обучения, которые в качестве объектов обучения используют перестановки документов. Множество П включает в себя множество перестановок, поэтому отображение ранжирующих функций здесь будет h:Θ → П. Тогда результирующая перестановка здесь назначает порядок документов в соответствии с убывающим рангом документов типа d_ij (при этом размерность перестановки приравнивается к n(q_i)). В данном случае функцию ранга может заменить вероятностное распределение на множестве Θ×П, определяющее релевантность перестановки запросу. Распределение можно принять за P, поэтому допустимо ввести функцию ожидаемых потерь, выражающую среднюю по вероятностному множеству (1):

Использованная здесь функция риска l(π₁,π₂) является 0-1 функцией потерь. Иными словами, l(π₁,π₂)=1 в том случае, если π₁≠π₂или иное приl(π₁,π₂)=0. При этом минимум функции R(h) достигается на h(q)=argmax p(q,π). Применяемая для обучения эмпирическая функция ожидаемых потерь в данном случае записывается в следующей форме (2):

Применение общепринятых методов оптимизации здесь осложняется разрывностью данной эмпирической функции, и именно поэтому вместо функции l лучше использовать другие функции, которые гораздо лучше подходят для оптимизации. Например, функция ожидаемых потерь заменяется суррогатной функцией потерь Φ, которая записывается следующим образом (3):

Согласно поставленным условиям, крайне важно, чтобы следствием минимизации функции R^φ_s(h) была минимизация R(h), откуда следует нахождение h(q)=argmax p(q,π). Данное свойство функции Φ в нашей работе получает название состоятельности, однако далее нам потребуется некоторая формализация.

Введение критерия состоятельности

Примем пространство Λ_П за множество возможных вероятностных распределений на множестве, состоящее из перестановок П (4):

Множество всевозможных вероятностных распределений

Если выполняются такие условия, как:

Ω является компактом;
Ω замкнуто в отношении операции перестановки координат. Иными словами, ∀g∈Ω выполнено так, что для любого σ∈πⁿ σg∈Ω.
∃g∈Ω:q_i≠q_j, i≠j.

Тогда подмножество Ω⊂ℜⁿ считается рабочим подмножеством. Критерий состоятельности присваивается функции φ на рабочем подмножестве Ω относительно функции ожидаемых потерь R, если выполняются следующие условия: если обозначим за π*=argmax (p_π), а за π^с_π*= π{π*}, тогда (5):

Проверка такого свойства, как состоятельность, может быть довольно трудной, поэтому в статье [2] вы сможете найти подробное расписание условий, достаточных для признания функции состоятельной. В статье не было приведено полное доказательство теоремы в виду нехватки места, однако при этом основ достаточно для пояснения критерия самостоятельности. Автором настоящей работы было доказано, что приведенная в статье [2] формулировка самой теоремы не совсем верна, с чем согласились авторы самой статьи, поэтому здесь будет рассматриваться несколько иная формулировка, в которую будут включены дополнительные условия, а также приведено полное доказательство теоремы. Для составления корректной формулировки теоремы требуется ввести несколько дополнительных определений, в которых под φ_π будет подразумеваться, как и прежде, φ(π,⋅). Определения:

I. Пространство Λ_π сохраняет порядок объектов (a,b), когда для любой пары перестановок π и σ, отличающихся всего лишь позициями a и b (a в π стоит выше, нежели чем b), выполняется p_π>p_σ.

II. Класс функций φ_πчувствителен к порядку при соблюдении:

Функция φ_π≥0
Функция φ_π∈_D(Ω₎
∀π∈П, ∀g∈Ω, ∀i<j таких, что g_π(i)<g_π(j)⇒φ_π(g)≥φ_σijπ(g), и минимум для одного π:p_π>0 неравенство будет строгим. При этом, под обозначением σ_ij подразумевается инверсия i и j.
В том случае, если g_i=g_j, тогда ∀π∈П_i,j выполнено либо ∂φ_π(g)/∂g_i ≤ ∂φ_π(g)/∂g_j(7) либо же ∂φ_π(g)/∂g_i ≥ ∂φ_π(g)/∂gj (8), и минимум для одного π:p_π>0 неравенство является строгим. П_ij здесь представляет собой множество перестановок, в котором элемент i предшествует элементу j.

Исходная формулировка критерия состоятельности

В этом разделе будет приведен первоначальный вариант формулировки критерия состоятельности, который был описан в статье [2]. Согласно первоначальной формулировке, пусть функция φ является чувствительной к порядку на подмножестве Ω. При этом вероятностное пространство перестановок для некоторых n-объектов должно сохранять порядок объектов (a₁, a₂), (a₂, a₃),…, (a_n-1, a_n). При соблюдении вышеперечисленных условий φ признается состоятельной в отношении функции R на рабочем подмножестве Ω. Проведенные в этой работе исследования доказывают, что данная формулировка критерия состоятельности неверна.

Контрпример к первому варианту определения критерия состоятельности

Для начала следует изучить функцию потерь типа φ_1,2=1/1+e^g₁-g₂, φ_1,2=0.5/1+e^g₁-g₂ +0.25. В ходе дальнейшего анализа было установлено, что φ_π(g) должна быть чувствительна к порядку на ℜ². Условием задачи установлено, что вероятностное пространство перестановок Λ включает в себя два элемента (аналогичных перестановкам (1,2) и (2,1) соответственно) – это p_1,2=0, p_2,1=0. Согласно данному ранее определению, пространство Λ должно соблюдать строгий порядок в отношении второй пары (2,1), что дает основания заключить, что условия первого утверждения полностью соблюдены. Также примем Ω={x,y:max(|x|,|y|)≤100}, следовательно, функция φ не может считаться состоятельной на Ω⊂ℜ²:Q(g)=φ_2,1(g) и левая часть неравенства 5: inf Q(g)= infφ_2,1(g)=φ_2,1(100,-100), а его правая часть: inf_sort(g)=1,2Q(g)= inf_d>0(φ_2,1(g))=φ_2,1(100,-100), где d=g₁-g₂. Из этого следует, что первое утверждение неверно. На Рисунке 1 наглядно показано, что предполагаемая функция имеет чувствительность к порядку.

Рисунок 1. График функции.

Для начала скажем, что функция φ_π(g)не отрицательная, дифференцируемая на R². Рисунок, отображающий график функции, демонстрирует нам, что φ_1,2<φ_2,1 если d>0. Аналогично φ_1,2>φ_2,1если d<0. Отсюда вытекает условие (3) из определения чувствительности нашей функции к порядку. Свойство (4) следует из того обстоятельства, что g₁=g₂ исключительно для d=0, однако при этом: (φ_1,2)’_g1 (d=0)≠(φ_2,1)’_g2(0) поскольку (φ_π)’_g1|_d=0 и (φ_π)’_g2|_d=0 имеют разные знаки. Из этого следует, что функция φ чувствительна по отношению к порядку.

Верный вариант формулировки критерия состоятельности

Исправление первой, неверной формулировки признака состоятельности потребует от нас введения дополнительного определения. Функцию φ можно признать симметричной, если φ_π(g)=φ_σπ(σg), где σ∈П, причем произведение перестановок трактуются в естественном смысле, а σg=h, такое что g_i=h_σ(i)*. Исправленная формулировка критерия состоятельности в этом случае должна быть следующей.

Теорема. Если симметричная функция φ на рабочем подмножестве Ω чувствительна к порядку, и для некоторых n-объектов вероятностное пространство перестановок будет сохранять порядок объектов (a₁, a₂),(a₂,a₃),…,(a_n-1,a_n), тогда φ может признаваться состоятельном в отношении функции R на рабочем подмножестве Ω. Её доказательством служит тот факт, что a_i=i, тогда π*=(1,2…n)=Id. Тогда можно обозначить Ω’={g∈Ω:g_i≠g_j,i≠j}.

Лемма. Для любой g∈Ω’, sort(g)≠π* в Ω’ найдется вектор g’:sort(g’)=π*, при котором Q(g’)<Q(g). Доказательство леммы: существование двух индексов i<j, при которых g(i)<g(j), следует из того, что sort(g)≠π*. В этом случае инверсию элементов i и j обозначим за σ, тогда пускай g’=σg. Дальнейшее доказательство требует расписать Q(g)–Q(g’) по определению:

Так как σσ=Id и по определению функции, которая чувствительна к порядку по свойству 3 φ_π(g)≥φ_σπ(g), и минимум для одного π строгое неравенство верно, тогда:

Лемма. Верным является следующее равенство:

Так как множество Ω компактно, то множество Ω^c={g|∈Ω:sort(g)∈П^c_π*} также считается компактом. Из этого следует, что минимум на Ω^с должен достигаться на векторе этого подмножества, поэтому будем считать, что минимум Q(g) достигается на векторе g и ∃i,j:i≠j, при которых g_i≠g_j. Из этого следует, что по свойству (4) чувствительности φ получаем, что (9):

в противном случае, неравенство будет соблюдаться в обратную сторону. Данное неравенство будет строгим, так как из свойства 2 следует, что минимум для одного π неравенство является строгим. Отсюда, условия ∂Q/∂g_i|_g=0 и ∂Q/∂g_j|_g=0 не совместны, поэтому точка g не может быть стационарной. Поэтому, не верно, что ∃i,j:i≠j, при которых g_i≠g_j. Тогда, g∈Ω’.

Продолжение доказательства теоремы. Вторая часть доказательства заключается в использовании леммы 9, которая предполагает доказательство (10):

Согласно определению леммы 8, для любого элемента g∈Ω’:sort(g)∈П^c_π* должен существовать элемент g’∈Ω, при котором Q(g)>Q(g’). Поэтому, пользуясь компактностью Ω, нам удается получить необходимое неравенство.

Применение критерия состоятельности на практике

Принятый за истинный доказанный критерий состоятельности может использоваться для доказательства состоятельности самой функции, применяемой алгоритмами ранжирования.

Взвешенная функция потерь

Примем за w_i неотрицательную монотонную возрастающую последовательность (16):

В данном случае доказательство критерия состоятельности заданной функции основывается на доказательстве такого свойства, как чувствительность к порядку. В первую очередь необходимо доказать, что все условия определения соблюдены:

Функция φ_π≥0, так как e^g>0.
Функция φ_π∈_D(Ω₎, так как функция φ_πполучена как суперпозиция таких операций как деление, сложение и функция экспоненты, при этом знаменатель не обращается в 0.
Утверждение следует из того, w_i является монотонно возрастающей последовательностью.

Укажем выражение для частной производной φ_π, где π=Id (17):

Выражение для частной производной функции

Принимая во внимание это выражение, при условии, что g_i=g, i<j, получим следующее (18-19):

что доказывает чувствительность функции φ к порядку.

Алгоритм минимизации функции потерь

Метод минимизации функции потерь заключается в использовании определенной суррогатной функции, которой свойственен весь необходимый для решения задачи минимизации набор свойств. Минимизируемая функция, кроме того, должна коррелировать с метриками, согласно которым ведется оценка качества сортировки веб-документов в поиске. Первые наброски этой идеи можно найти в одной из наиболее ранних публикаций, например, в статье [2] затрагивается возможность использования функцию потерь, основанной на правдоподобии. В этой же работе вы сможете найти не только описание исправленного подхода к минимизации функции потерь, ряд доказательств утверждений, но также и попытку воспроизведения результатов, опубликованных в [2]. Метод, использующий в своей основе функцию правдоподобия (MLE — Maximum Likelihood Estimation), был не единственным алгоритмом, который был задействован в настоящей работе. Наша модификация, основанная на обобщении функции потерь, показала значительно лучшие результаты, нежели чем функция правдоподобия.

Давайте рассмотрим нашу модификацию более детально. Этот алгоритм рассматривает только класс линейных ранжирующих функций, каждая из которых может быть задана вектором весов ω. Он также включает в себя этап обучения и ранжирования. На этапе обучения основной поставленной задачей является поиск оптимального набора весов ω для нашего обучающего множества. На этапе ранжирования найденный набор весов скалярно умножается на множество входных значений, релевантных определенным значениям характеристик выбранной страницы.

Алгоритм обучения

Предложенный нами обучающий алгоритм на вход получает набор из m-списков значения признаков (данные отранжированы в порядке убывающего соответствия), каждый из которых соответствует полученным результатам использования функции Φ_qi на парах (q_i, d_ij). В каждом использованном наборе значений признаков, соответствующего определенной интернет-странице, указана степень ее релевантности к пользовательскому запросу. Основной проблемой тестирования здесь является плохое градирование степени релевантности, поэтому для получения отранжированного списка нам необходимо определиться с упорядочиванием страниц внутри коллекции со схожими оценками релевантности. Для решения этой проблемы было предложено два принципиально отличных подхода:

Принцип случайного перемешивания;
Сортировка по вторичным признакам, которая применяется только для групп web-страниц с одинаковой оценкой релевантности и использует следующие признаки:
- Значение BM-25 [26]. Подробное описание значения и результаты тестирования ранжирования можно найти в статье 26.
- Длина страницы и поискового запроса.

Примем, что n(q_i)=n,∀q_i, а за r примем размеренность пространства признаков.

Алгоритм ListLOG

Алгоритм предполагает использование следующих функций (24-25):

Для вычисления функции штрафа необходимо выполнить O(mnr) операций. Минимизация в данном случае предполагает применение градиентного спуска c адаптивным выбором шага. В качестве монотонно возрастающей функции w_i тестируются разные последовательности, среди которых лучшие результаты продемонстрировали: w_i=log(i+1), i∈[1,n]; w_i=log²(i+1), i∈[1,n]. Согласно данному ранее определению выбранная функция S является состоятельной. Выполнение заданных алгоритмом задач останавливается по мере изменения значения функции штрафа ниже заданного порога ε. На выходе мы получаем набор весов ω=(ω_i)₁^r, где достигается минимальное значение функции штрафа.

Алгоритм ранжирования

Здесь в качестве входных значений используется тот же набор весов ω=(ω_i)₁^r, а также множество страниц, заданные значениями своих характеристик. Для каждого картежа значений признаков алгоритм ранжирования возвращает значение ранга (в точном соответствии с документом), при этом ранг высчитывается по формуле ω^tg^(q,i), причем за g^(q,i)принимается кортеж значений характеристик.

Результаты

Предложенные алгоритмы были испытаны на тестовой коллекции OHSUMED 3.0, которая является одной из составляющих коллекций LETOR 3.0. Наша коллекция OHSUMED 3.0 включала в себя порядка 45 признаков с нормализацией их значений по запросам.

Рисунок 2. Сравнение результатов работы алгоритма ListLOG с весами log² с результатами ранее опубликованных методов.

Использование этой тестовой коллекции оправдано в силу того, что результаты тестирования других алгоритмов в этой коллекции опубликованы, поэтому можно объективно сравнивать результаты разных алгоритмов. На графике (рис.2) наглядно отображены результаты опубликованных ранее алгоритмов и предложенного в данной работе ListLOG. Для сравнения предложены результатов по двум метрикам оценки качества ранжирования – MAP и NDCG@10, причем в первом случае ListLog по результатам уступает AdaRank-NDCG, однако во втором случае предложенный алгоритм показывает лучшие результаты.

Использованы следующие методы, чьи результаты отображены на графике:

Linear Regression, алгоритм использующий линейную регрессию;
RankSVM [14], основывающийся на машине опорных векторов для построения разделяющего правила;
RankBoost [19], алгоритм имеющий бустинг для классификации пар документов,
Frank [9], алгоритм, применяющий функцию точности распределений F(p_x,q_x)=∑(p_x,q_x)^0.5 вместо значений энтропии
ListNet [3], алгоритм, при котором вводится вероятностное пространство на множество перестановок. Функция энтропии на введенном пространстве используется как функция потерь.
AdaRank [15], алгоритм, в котором для построения ранжирующей функции используется AdaBoost.
SvmMap [20], алгоритм, основанный на машине опорных векторов оптимизирующей верхнюю грань MAP метрики.

Использованная литература:

[1] Бахвалов, Жидков, Кобельков, «Численные методы», издательства НАУКА, 1979

[2] Fen Xia, T.Y.Liu, J.Wang, H.Li, 2008, “Listwise Approach to Learning to Rank – Theory and Algorithm”, Proceeding of the International Conference on Machine Learning

[3] Z. Cao, T.Qin, T.Y.Liu, M.F. Tsai, H.Liu, 2007, “Leaning to Rank: From pairwise approach to listwise approach”, Proceedings of the International Conference on Machine Learning

[4] J.Xu, T.Y.Liu, et al. “Directly Optimizing IR Evaluation Measures in Learning to Rank”, 2008, Proceedings of SIGIR

[5] T.Y.Liu, T.Qin, J.Xu, W.Y.Xiong, 2007, “Letor: Benchmark dataset for research on learning to rank for information retrieval”, Proceedings of Sigir

[6] T.Qin, T.Y.Liu, et al., 2008, “Making LETOR More Useful and Reliable”, Proceedings of LR4IR, in conjunction with SIGIR

[7] C.He, C.Wang, Y.X.Zhong, R.F.Li, 2008, “A survey on Learning to Rank”, Proceedings of the Seventh International Conference on Machine Learning and Cybernetics

[8] C.Burges, T.Shaked, E.Renshaw, A.Lazier, M.Deeds, N.Hamilton, G. Hullender, 2005, “Learning to rank using gradient descent”, Proceedings of International Conference an Machine Learning

[9] M.F.Tsai, T.Y.Liu, T.Qin, H.H.Chen, W.Y.Ma, 2007, “Frank: a ranking method with fidelity loss”. Proceedings of ACM SIGIR conference on Research and development in information retrieval

[10] R.Caruana, S.Baluja, T.Mitchell, 1996, “Using the feature to “sort out” the present: Rankprop and Multitask learning for medical risk evaluation”, Advances on Neural Information Processing System

[11] K.Crammer, Y.Singer, 2002, “Pranking with Ranking” Advances with Neural Information Processing System

[12] E.Harrington, 2003, “Online ranking/collaborative filtering using the perceptron algorithm”, Proceeding of the 20th International Conference on Machine Learning

[13] C.Burges, R.Ragno,Q.V.Le, 2006, “Learning to rank with nonsmooth cost functions”, Advances on Neural Information Processing System

[14] T.Joachims, 2002, :Optimizing searching engines using click-through data”, Proceedings of the ACM conference on Knowledge Discovery and Data Mining

[15] J.Xu, amd Hang Li, 2007, “AdaRank: a boosting algorithm for information retrieval”, Proceedings of the ACM SIGIR conference

[16] I. Matveeva, C.Burges, T.Burkard, 2006, “High accuracy retrieval with multiple nested ranker”, Proceedings of the ACM SIGIR conference

[17] T.Qin, X.D.Zhang,M.F.Tsai,D.S.Wang, T.Y.Liu, H.Li, 2007, “Query-level loss functions for information retrieval”, Information processing and management

[18] J.Y.Yeh, J.Y.Lin,H.R.Ke, W.P.Yang, 2007, “Learning to Rank for Information Retrieval Using Genetic Programming”, Proceedings of the SIGIR

[19] Y.Freund, R.Iyer, R.E. Schapire, Y.Singer, 2003, “An efficient boosting algorithm for combining preferences”

[20] Y.Yue, T.Finley, F.Radlinski, T.Joachims, 2007, “A Support Vector Method for Optimizing Average Precision”, Proceedings of the ACM Conference on Research and Development in Information Retrieval (SIGIR)

[21] W.S.Cooper, F.C.Gey, D.P.Dabney, “Probabilistic Retrieval Based on Staged Logistic Regression”

[22] W.S. Cooper, A.|Chen, F.C. Gey, “Full Text Retrieval based on Probabilistic Equations with Coefficients fitted by Logistic Regression”

[23] K.Jarvelin, J.Kekalainen, 2000, “IR evaluation methods for retrieving highly relevant documents”, Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval

[24] K.Jarvelin, J.Kekalainen, 2002, “Cumulated Gain-Based Evaluations of IR Techniques”, ACM Transactions on Information Systems

[25] J.I.Marden, 1995, “Analyzing and modeling rank data”, London: Chapman&Hall

[26] S.E.Robertson, 1997, “Overview of the okapi projects”, Journal of Documentation, Vol.53, No. 1, 1997, pp. 3-7

Алексей Тимофеев, МГУ им. М.В. Ломоносова, Москва

Рерайт материала выполнила Инна Вдовицына

Полезная информация по продвижению сайтов:

Майнинг поисковых маршрутов массового серфинга: идентификация релевантных веб-сайтов на основании пользовательской активности

Перейти ко всей информации