Работаем с 2009 года Более 300 успешных проектов Офис в москве и санкт-петербурге
+7(495)320-31-31

Ранжирование по коммерческим запросам со смещением в пользу документов, содержащих качественный контент

Александр Шишкин, Полина Жиналиева, Кирилл Николаев (Яндекс)

Современные системы информационного поиска находятся на достаточно высоком уровне своего развития, чтобы предоставить преимущественно высокорелевантные ответы на популярные коммерческие запросы своих пользователей. Однако наши эксперименты показали, что пользовательское поведение, складывающееся на подобного рода релевантных коммерческих сайтах, может существенно отличаться от интернет-ресурсов со схожей отметкой релевантности, но, в месте с тем, имеющих иную направленность. Следовательно, поисковые машины сталкиваются с задачей ранжирования равноценно релевантных результатов с точки зрения подхода, использующего традиционную шкалу релевантности. Для решения указанной проблемы мы предлагаем рассмотреть дополнительные аспекты релевантности, такие как надежность, удобство пользования (юзабилити), качество дизайна и уровень сервиса. Для того чтобы ранжирующий механизм смог использовать данные дополнительные аспекты в своей работе, мы предложили ряд особенностей, охватывающих качество интернет-страницы по предложенным размерностям. Мы агрегировали новые аспекты в одну единственную метку коммерческой релевантности (commercial relevance), которая представляет собой кумулятивное качество интернет-ресурса. Мы экстраполировали метки коммерческой релевантности по всему набору данных, используемого для обучения ранжирования, и, вместо меток релевантности, используемых по умолчанию, применили процедуру взвешивания суммы коммерческой и тематической релевантности. Для того чтобы оценить наш подход мы создали новую метрику, подобную DCG, а также поочередно провели серию опытов в режимах офф-лайн и он-лайн, продемонстрировавших, что тот алгоритм ранжирования, который учитывал предложенные нами аспекты релевантности, лучше согласовывался с коммерческими предпочтениями пользователей.

1. Введение

В подавляющем большинстве задач, связанных с информационным поиском, основная цель поисковой системы заключается обнаружении и предоставлении наиболее релевантных документов по данному пользовательскому запросу. В том случае, когда мы имеем дело с небольшой выборкой релевантных документов, потребность пользователя системы информационного поиска, с высокой долей вероятности, будет удовлетворена. Однако на текущий момент существует достаточное множество групп поисковых запросов, ответить на которые поисковая машина может большим количеством высокорелевантных результатов. В отличие от поиска с единственно верным ответом, такие запросы предполагают выбор из целого ряда ответов, способных удовлетворить пользователя. Эти группы пользовательских запросов включают в себя, в частности, коммерческие запросы, при обращении с которыми к строке поиска, потенциальные клиенты очень часто стремятся выбрать из множества равноценных результатов наиболее лучшую компанию. Коммерческие запросы формируют высококонкурентную интернет-среду, в которой увеличение позиции в органическом поиске для того или иного сайта компании означает увеличение ее дохода. Следовательно, для того, чтобы увеличить свои прибыли, коммерческие веб-сайты делают все возможное для занятия верхних позиций в результатах органической выдачи. Веб-мастера занимаются оптимизацией текстового содержимого и покупают внешние входящие гиперссылки для продвижения сайта с целью улучшения его видимости в результатах поиска; оформляют сниппеты ресурсов для увеличения их кликабельности по указанным коммерческим запросам. В результате чего, с точки зрения текстового соответствия документов пользовательским запросам, а также ссылочных показателей качества, коммерческие веб-сайты, составляющие ТОП10 органической выдачи, оказываются равноценно релевантными. Более того, вероятней всего, асессоры также присвоят высокие оценки релевантности подавляющему большинству конкурирующих за место под солнцем интернет-сайтам, поскольку их оценочные инструкции в первую очередь сфокусированы не более чем на тематическое соответствие документа пользовательскому запросу. Следовательно, любое изменение в позициях сайтов, находящихся в ТОП10 поисковых результатов не приведет к изменению тех метрик, что оценивают качество ранжируемых страниц. Однако используя всю мощь поисковой оптимизации, многие владельцы сайтов забывают о человеко-ориентированной оптимизации [13]. Следовательно, удовлетворение пользователя при взаимодействии с коммерческим веб-сайтом может существенно отличаться. В частности, дизайн, наличие он-лайн механизма обратной связи, пользовательские отзывы о предлагаемых продуктах оказывают существенное влияние на взаимодействие пользователя.

Указанные наблюдения, позволяют предположить, что использование информации, касающейся качества веб-сайтов в функции ранжирования по коммерческим запросам, которые предполагают целое множество высокорелевантных ответов, может существенно улучшить качество ранжирования и увеличить пользовательскую удовлетворенность. Качество документа, выдаваемого по коммерческому запросу, при условии его соответствия по тематике, называется коммерческой релевантностью. Существует ряд исследований, авторы которых предложили подходы к оценке качественной составляющей интернет-сайта с их последующей интеграции в алгоритм ранжирования. К примеру, критерии качества веб-страницы с точки зрения пользовательского поведения по данным опросов освещались достаточно широко, например в работах [1, 2, 11]. Формальные критерии, характеризующие дружественность (удобство для пользователей), доверие, дизайн и т.п., должны конструироваться исходя из важности определенных аспектов качества интернет-сайта для его пользователей. Подобного рода критерии могут включать в себя длину текста, отсутствие грамматических ошибок в содержимом, читабельность TITLE страницы, наличие карт, информации о компании, легкозапоминающийся телефонный номер, бесплатная доставка продукции [7]. Существует ряд работ, предлагающих такие подходы, которые используют дополнительные знания, касательно качества ранжируемых сайтов [3]. К примеру, агрегация качественных оценок из нескольких различных источников, таких как асессорские суждения и данные кликов [14] или текстовое соответствие документа пользовательскому запросу и период публикации [6]. В текущей работе мы предлагаем новый подход к ранжированию со смещением в пользу качественных сайтов, который подразумевает создание новых аспектов релевантности, а также имплементацию ряда особенностей, охватывающих качество интернет-страницы по предложенным размерностям. На основании нескольких качественных аспектов мы создаем кумулятивный рейтинг, который называется коммерческой релевантностью. В отличие от работы [14], мы экстраполируем метки коммерческой релевантности по всему набору данных, используемого для обучения ранжирования.

Для того чтобы поисковые результаты имели тематическое соответствие мы определили единую оценку релевантности как взвешенную сумму тематических и коммерческих оценок. Наш подход позволяет существенно улучшить как офф-лайн, так и он-лайн метрики по сравнению с тем алгоритмом, что ранжирует результаты поиска по умолчанию. Оставшаяся часть нашего материала организована следующим образом. В Разделе 2 мы представляем новую шкалу релевантности, помогающей нам оценить качество коммерческих сайтов. Раздел 3 посвящен нашей методологии обучения функции ранжирования с учетом дополнительного показателя качества интернет-документа. В Разделе 4 мы описываем новые факторы ранжирования, использующиеся для корректировки коммерческой релевантности. Раздел 5 описывает новые метрики нашего подхода к оценке сайтов и, наконец, в Разделе 6 мы обсуждаем полученные результаты и предстоящую работу.

 

2. Шкала коммерческой релевантности

Для того, чтобы произвести оценку качества интернет-сайта по тем запросам пользователей, с которыми они обращаются к поиску, имея какие-либо коммерческие намерения, мы можем выбрать либо асессорские суждения, либо данные кликов [9]. Мы решили использовать асессорские оценки качества по той простой причине, что они представляют собой менее зашумленные данные в сравнении с данными кликов или тулбаров [14]. В случае использования последних, задача выяснения удовлетворенности пользователя поисковым результатом оказывается достаточно сложной. Поведение пользователей по коммерческим запросам может существенно отличаться в зависимости от категории продукта, его цены и т.п. (сравните, например, доставку пиццы и приобретение объектива для цифровой камеры). С другой стороны, данные кликов и та информация, которая собирается посредством тулбара, может привнести в наш анализ некоторую полезную информацию, а потому мы решили открыть доступ к подобного рода данным нашим асессорам на протяжении всего оценочного процесса. В случае использования единой метки, различные асессоры могут обратить свое внимание на различные качественные аспекты предложенных им интернет-сайтов. Один асессор, вполне вероятно, будет располагать некоторой информацией о каком-то веб-сайте; знать также и то, что владеющей им компании можно доверять, несмотря на то, что этот интернет-ресурс имеет ужасный дизайн и абсолютно неудобен в пользовании. Другой асессор обратит свое внимание на наличие пользовательских отзывов, и т.п. Для лучшей формализации оценочного процесса мы разбили метку качества, присуждаемую интернет-ресурсам, на несколько компонентов. В то же самое время данное разбиение обеспечивает лучшее покрытие особенностей интернет-сайтов в случае использования асессорских суждений. Опираясь на данные многочисленных исследований [5, 11, 12], мы определили расширенный перечень аспектов коммерческой релевантности. Затем, в целях облегчения оценочного процесса, мы выбрали четыре показателя качества, которые, как мы полагаем, покроют подавляющую долю независимой информации о качестве интернет-сайтов. Это означает, что качество сайта, определяемое указанными показателями, охватывает достаточное количество его особенностей. Перечень отобранных нами показателей качества интернет-сайта выглядит следующим образом: надежность, удобство пользования (юзабилити), качество дизайна и уровень сервиса. Мы подготовляли детализированную инструкцию по оценке качества интернет-сайтов, которую получили в свое распоряжение наши асессоры. В соответствии с этими инструкциями, оценивание включает в себя два этапа. На первом этапе, асессору необходимо определить релевантен ли найденный документ заданному пользовательскому запросу. Мы используем широко распространенную 5-бальную шкалу тематической релевантности, включающей в себя следующие метки: иррелевантный, релевантный, высокорелевантный, полезный и витальный.

Оценка качества интернет-ресурса представляется куда более сложным и затратным по времени процессом, нежели чем оценивание тематического соответствия документа пользовательскому запросу (и, в особенности, чем извлечение информации о качестве страницы из данных пользовательских кликов). Частично, это компенсируется тем фактом, что наш метод, позволяющий проводить качественную оценку документов, должен применяться только для релевантных страниц. Мы не рассматриваем документы, имеющие такие метки, как «витальный» или «полезный», предполагая, что они часто выступают в качестве единственной цели в задачах поиска информации по заданному запросу. Как уже упоминалось нами ранее, мы фокусируемся только на тех пользовательских запросах, которые подразумевают выбор между одинаково пригодными результатами. На первом этапе оценочного процесса мы также оцениваем различные товары и услуги, предлагаемые на страницах веб-сайтов по заданным коммерческим запросам. Мы различаем три степени разнообразия предлагаемого ассортимента: узкий, стандартный и широкий. Оценка разнообразия по запросу q и документу d обозначается V(q,d). В течение второго этапа оценочного процесса для всего рассматриваемого сайта определяются показатели надежности, юзабилити, качества и дизайна и уровень сервиса. По нашей шкале показатели надежности и уровня сервиса имеют четыре степени: спам, норма, хороший и идеальный. Сайт может быть помечен как спам в том случае, если приобретение товара или получение необходимой пользователю услуги оказываются в принципе невозможными (в данном варианте мы имеем дело с лжекорпоративным сайтом). Веб-сайт получающий отметку «норма» не является плохим, но, как вы сами понимаете, он крайне несущественно отличается от тысячи подобных себе коммерческих интернет-ресурсов. Хорошие сайты предоставляют своим посетителям стандартный набор услуг; наконец, идеальные ресурсы являются хорошо-узнаваемыми лидерами своего рынка. Оценки надежности и уровня сервиса заданного веб-сайта обозначаются T(s) и S(s) соответственно. Обратите внимание, что эти оценки не зависят от конкретной пары «запрос q и документ ему релевантный d». Юзабилити и качество дизайна имеют только три степени: плохое качество, хорошее и идеальное. Оценки по этим аспектам коммерческой релевантности обозначаются U(s) для удобства пользования (юзабилити) и D(s) для качества дизайна. Значения всех указанных выше оценок находятся в диапазоне от 0 до 1. В дальнейшем, при использовании информации о качестве интернет-сайтов в процесс е обучения нашей функции ранжирования мы агрегировали нашу четырехмерную метку в одну единственную оценку коммерческой релевантности. В частности, мы использовали следующие выражения:

оценка коммерческой релевантности

где Rc (q, d, s) является оценкой коммерческой релевантности для заданного пользовательского запроса q и документа d, ассоциированного с сайтом s. Веса надежности и уровня сервиса рассматриваются в два раза более значимыми, нежели чем веса прочих аспектов качественного сайта. Это делается по той простой причине, что мы полагаем, что эти особенности являются более важными с точки зрения достижения пользователя поиска состояния удовлетворения, но и не рассматриваем данный подбор параметров в качестве единственно возможного.

 

3. Обучение ранжированию по новым меткам

Оценивание коммерческой релевантности является крайне сложной задачей, поэтому при фиксированных затратах количество меток коммерческой релевантности буде меньшим по своему объему, нежели чем количество меток тематического соответствия пользовательского запроса и предложенного документа. Мы не можем отбросить те метки тематического соответствия документа пользовательскому запросу, которые не соответствуют оценкам коммерческой релевантности. Поскольку это может привести к существенному уменьшению размера набора, используемого для обучения ранжированию, и, как следствие, к деградации качественной составляющей функции ранжирования. Таким образом, до начала процесса обучения ранжированию нам необходимо экстраполировать метки коммерческой релевантности на весь обучающий набор. Процедура подобной экстраполяции состоит из двух шагов. На первом шаге мы обучаем функцию ранжирования на малом наборе данных, который содержит только метки коммерческой релевантности. Итоговая функция ранжирования дает нам расчётную величину оценки коммерческой релевантности Rc(q, d, s), обозначаемая как Rcest(q, d, s).

Затем, мы используем функцию ранжирования с первого шага на полном наборе данных с метками тематической релевантности. Данный шаг вполне возможен постольку, поскольку мы используем одинаковый набор особенностей ранжирования для обоих выборок. Поскольку метку коммерческой релевантности получат только высокорелевантные документы, оценки для них также рассчитываются только для тех пар «запрос — документ», которые по шкале тематической релевантности получили асессорскую метку «высокорелевантный». Прочие пары «запрос-документ», участвующие в наборе данных, используемого для обучения ранжированию, получают оценку коммерческой релевантности равную нулю. Получив в свое распоряжение информацию, касающуюся оценок коммерческой релевантности всех тематически-релевантных результатов по коммерческим запросам в нашем наборе данных, мы рассчитываем единую оценку релевантности:

единая оценка коммерческой релевантности

,где Rf(q,d) является оценкой тематической релевантности, Ru(q,d,s) — единой оценкой релевантности, а параметр α является коэффициентом взвешивания. Применяя единую оценку релевантности, мы обучаем функцию ранжирования по всему набору наших данных. Коэффициент взвешивания α подобран нами эмпирически таким образом, чтобы влияние коммерческой релевантности было максимальным, однако не настолько сильным, чтобы влиять на все метрики тематической релевантности. Наконец, мы получаем функцию ранжирования, которая предсказывает единую оценку релевантности, которая, в свою очередь, включает в себя как тематические, так и коммерческие оценки релевантности.

4. Особенности, оценивающие качество сайта

В целях лучшей предсказательности новых меток релевантности, которая включает в себя как тематическую, так и коммерческую релевантность, мы вводим в нашу модель несколько новых особенностей, характерных для коммерческих сайтов. Они отличаются новизной в том смысле, что они практически бесполезны в задачах ранжирования с точки зрения тематической релевантности, поскольку относящиеся к тематической релевантности метки не несут в себе какой-либо информации, касающейся качества коммерческой составляющей интернет-ресурсов. Однако в задачах аппроксимации новой коммерческой релевантности, данные особенности оказываются крайне полезными постольку, поскольку они охватывают информацию, касающуюся качества той или иной веб-страницы. Ознакомившись с многочисленными исследованиями по данной тематике [3,11,12] мы выбрали несколько перспективных особенностей, а затем дополнили их нашими собственными особенностями.

Детализированная контактная информация
Представительство компании в социальных сетях
Отсутствие рекламы
Количество различных товарных позиций
Подробное описание продукции
Наличие службы доставки
Продающие элементы (электронная почта, телефон, обратная связь с клиентами)
Система он-лайн консультирования
Акции и ценовые скидки
Читабельное доменное имя
Средняя длина URL-адреса
Средняя длина TITLE страницы
Согласованность TITLE и содержимого страницы
Средняя глубина вложенности URL

Таблица 1. Особенности, позволяющие оценить качество сайта

В Таблице 1 приводится перечень некоторых качественных характеристик, использованных в нашем исследовании. Необходимо отметить, что большинство из этих особенностей относятся к доменным характеристикам, что предполагает агрегацию информации по всем цифровым документам коммерческого веб-сайта. Это согласуется с тем фактом, что в соответствии с Уравнением 1, коммерческая релевантность зависит от качества всего сайта в целом. Сравнение обучения ранжированию с учетом и без учета описанных выше качественных особенностей приводится в соответствующем разделе нашей работы, посвященном Результатам.

5. Новые метрики, оценивающие предложенную методологию

Для оценки наших результатов мы разработали две метрики, подобные NDCG [8], основанные на асессорских суждениях, касающихся качества коммерческих сайтов. Первая метрика представляет собой взвешенное качество результатов органического поиска по заданному набору коммерческих запросов. Данное значение для одного запроса q выражается как:

Первая метрика, продвигающая хорошие сайты

, где Rc(q,di,si) является коммерческой релевантностью для i-го результата органического поиска по запросу q. Суммарное значение данной метрики по заданному набору пользовательских запросов является только средним значением Goodness(q) по всем запросам, включенным в указанный набор. Чем больше эта метрика, тем лучшими являются предложенные результаты поиска. Наша вторая офф-лайн метрика представляет собой отношение низкосортных результатов органического поиска по коммерческим запросам. Аналогично первой метрике, она рассчитывается по заданному набору запросов как средняя запросо-зависимых значений по всему указанному набору. Выражение для запросо-зависимого значения теперь имеет следующим вид:

Вторая метрика, пессимизирующая некачественные сайты

, где th является минимально-допустимым пороговым значением коммерческой релевантности для результатов органической выдачи. Чем меньше эта метрика, тем лучшими являются предложенные результаты поиска. Также мы использовали достаточно известное A/B тестирование [10] и интерливинг [4] для экспериментальной он-лайн оценки наших результатов. Мы уделяем особое внимание таким метрикам, как Показатель Отказов (Abandonment Rate) и Кликабельность по запросам (Clicks per Query), рассчитываемых исключительно по кликам, собираемых за большие периоды. Мы полагаем, что эти метрики представляют наибольшую ценность для тех запросов, с которыми пользователи обращаются к поиску для удовлетворения своих коммерческих намерений.

6. Результаты, обсуждения и благодарности

Мы предложили новую меру, позволяющую оценивать качество документов по коммерческим запросам — коммерческую релевантность. Мы разработали ряд особенностей ранжирования, оценивающих качество сайта. В отличие от работы [14], мы предложили алгоритм экстраполяции дополнительных меток релевантности по всем набору данных, используемого для обучения ранжирования, который позволяет не утрачивать какую-либо информацию о тематическом соответствии документов пользовательским запросам на протяжении всего процесса обучения. Мы разработали офф-лайн метрики, подобные DCG, а также проконтролировали их изменения в течение всего эксперимента с использованием информации о качестве интернет-сайтов в функции ранжирования. Рисунок 1 демонстрирует колебания нашей метрики Goodness в течение некоторого временного периода до и после модификации функции ранжирования.

с и без метрики Goodness

Рисунок 1. Возрастание метрики Goodness на протяжении всего эксперимента. Ось абсцисс представляет собой временной интервал, а ось ординат — относительное значение нашей метрики.

Видно, что текущая метрика возрастает практически до 30% по сравнению с начальным значением. Рисунок 2 представляет собой изменение нашей второй офф-лайн метрики Badness, оценивающей результаты органической выдачи.

с и без метрики Badness

Рисунок 2. Уменьшение метрики Badness на протяжении всего эксперимента. Ось абсцисс представляет собой временной интервал, а ось ординат — относительное значение нашей метрики.

Видно, что метрика Badness уменьшается практически до 70%. В то же самое время, классическая метрика NDCG, рассчитываемая с использованием исключительно меток тематической релевантности, на протяжении всего эксперимента осталась практически неизменной. Мы сравнили наши результаты с обучением ранжированию без учета новых коммерческих особенностей. Мы обнаружили, что улучшение обоих наших метрик Goodness и Badness составило почти на 20% меньше, нежели чем в том случае, когда новые характеристики были применены. Наш он-лайн эксперимент с интерливингом показал, что веб-пользователи выбирали результаты нового ранжирования на 1% чаще, нежели чем те ответы, которые были предложены ранжирующей системой, используемой на поиске по умолчанию. В эксперименте с A/B тестированием наш подход к ранжированию со смещением в пользу качественной составляющей интернет-страниц продемонстрировал 5% снижение по Показателю Отказов и 1.5% увеличение метрики Кликабельности по запросам.

Наша будущая работа, вместо использования единой агрегированной метки релевантности, будет применять целый ряд меток на всем этапе обучения ранжированию. Иной подход к дальнейшему улучшению качества результатов органического поиска по коммерческим запросам заключается в разработке новых особенностей ранжирования коммерческих сайтов.

Авторы настоящей работы хотели бы поблагодарить Павла Сердюкова за его полезные обсуждения.

Ссылки:

[1] A. B. Albuquerque and A. D. Belchior. E-commerce websites: a qualitative evaluation. In WWW 2002 Poster Session, May 2002.

[2] P. Alpar. Satisfaction with a web site. Electronic Business Engineering, 4, 1999.

[3] M. Bendersky, W. B. Croft, and Y. Diao. Quality-biased ranking of web documents. WSDM, February 2011.

[4] O. Chapelle, T. Joachims, F. Radlinski, and Y. Yue. Large-scale validation and analysis of interleaved search evaluation. ACM Transactions on Information Systems, 30(1), February 2012.

[5] V. Davidaviciene and J. Tolvaisas. Measuring quality of e-commerce web sites: Case of lithuania. Ekonomika ir Vadyba, 16, 2011.

[6] A. Dong and R. Z. et al. Time is of the essence: Improving recency ranking using twitter data. In WWW 2010 Proceedings, pages 331–340, April 2010.

[7] M. Ivory, R. Sinha, and M. Hearst. Empirically validated web page design metrics. In ACM CHI, April 2001.

[8] K. Jarvelin and J. Kekalainen. Cumulated gain-based evaluation of ir techniques. ACM Transactions on Information Systems, 20:422–446, 2002.

[9] T. Joachims. Optimizing search engines using clickthrough data. In SIGKDD’02 Proceedings, 2002.

[10] R. Kohavi, R. Longbotham, D. Sommerfield, and R. M. Henne. Controlled experiments on the web: Survey and practical guide. Data Mining and Knowledge Discovery, 18:140–181, 2009.

[11] G. L. Lohse and P. Spiller. Quantifying the effect of user interface design features on cyberstore traffic and sales. In CHI 98 Conference Proceedings, pages 211–218, 1998.

[12] M. J. Metzger. Making sense of credibility on the web: Models for evaluating online information and recommendations for future research. Journal of the American Society for Information Science and Technology, 58(13):2078–2091, 2007.

[13] K. Nikolaev, E. Zudina, and A. Gorshkov. Combining anchor text categorization and graph analysis for paid link detection. In WWW 2009 Poster Session, April 2009.

[14] K. Svore, M. Volkovs, and C. Burges. Learning to rank with multiple objective functions. In WWW 2011 Proceedings, pages 367–376, March 2011.

Перевод «Quality-Biased Ranking for Queries with Commercial Intent» выполнил: Константин Скоморохов

Полезная информация по продвижению сайтов:

Перейти ко всей информации