Работаем с 2009 года Более 300 успешных проектов Офис в москве и санкт-петербурге
+7(495)320-31-31

Оценка сниппетов на Яндексе: полученный опыт и будущие направления

Денис Савенков, Павел Браславский, Михаил Лебедев (Яндекс)

Аннотация

В данной статье рассматривается несколько подходов к оценке результатов поиска и приводится описание экспериментов, проведённых компаний Яндекс. Мы считаем, что задача оценки сниппетов веб-сайтов может решаться несколькими разными способами. Правильным же направлением является автоматизация оценки, основанная на данных ручного анализа и частоты кликов.

1. Введение

Поскольку пользователь поисковой системы должен видеть в предложенных ему результатах не исходные идентификационные номера отсканированных документов, а их отображение со ссылкой на оригинал, то в стандартном построении ранга документов предполагается использование сниппетов. Как правило, они соответствуют запросу пользователя и извлекаются из архивных серверов поисковой машины, сохраняющих страницы сайтов в особом компрессированном формате. Сниппеты обычно включают в себя заголовок документа (title), текстовые фрагменты и такие мета-данные как: url, размера документа, даты, и т.д. На сегодняшний день наблюдается тенденция дополнения сниппетов изображениями, так называемыми быстрыми ссылками (QuickLinks), ссылками на карты (например, если выданный документ относится к странице какой-либо организации), разнообразными оценками пользователей социальных сетей и прочими данными. Большая часть текста сниппета извлекается из оригинального html-документа и содержит подсвеченные слова из пользовательского запроса или же их производные. Некоторые сниппеты, фактически, могут извлекаться из описаний сайта на сторонних интернет — ресурсах (например, из описаний Открытого Каталога,ODP) и/или из описывающих документ мета-секций. Существенное увеличение роли микроформатов в оформлении страниц также даёт возможность извлекать сниппеты из оригинального кода документа за счет семантической разметки вебмастера.

В некоторых случаях сниппеты могут удовлетворить несложный запрос пользователя еще на странице поисковой выдачи, однако главной их целью является информирование пользователя о степени релевантности предоставленного документа по его запросу. Многочисленные исследования показали, что поисковые сниппеты оказывают большое влияние на восприятие результатов: пользователь с меньшей вероятностью будет кликать на непривлекательный поисковый сниппет даже релевантного документа и, наоборот, будет разочарован нерелевантностью оригинального документа, даже в том случае, если сниппет содержал верную для него информацию. Большим злом для нас представляется именно первая ситуация. Turpinetal [18] провёл исследования на тему того, как пользовательская оценка сниппетов может повлиять на развитие систем информационного поиска и их результаты. Основываясь на краткой пользовательской статистике, автор делает вывод, что «14% высокорелевантных и 31% достаточно релевантных документов никогда не открываются, потому что их поисковые сниппеты оцениваются пользователями как иррелевантные запросу» [18].

Оценка поисковых сниппетов отличается от оценки качества поиска по ряду причин. Во-первых, понятие «хорошего сниппета» многогранно и иногда противоречиво. Нам представляется труднодостижимой балансировка всевозможных требований надлежащим образом. К примеру, фрагмент с большим количеством слов из запроса, выбранных из отрывков текста документа менее удобно читать. Более крупные фрагменты содержат больше информации о выданном документе, однако они мешают общему восприятию страницы результатов поисковой системы (далее — SERP), и т.д. Во-вторых, оценка сниппетов может использоваться повторно только частично (изменения в алгоритмах генерирования приводят к изменениям в произвольном подмножестве фрагментов для данных пар запрос-документ).

В информационном секторе оценка фрагментов может использоваться с разными целями: 1) для сравнения с конкурентами, 2) для оценки новых версий алгоритмов генерирования фрагментов и 3) оценки предпочтений компьютерных алгоритмов генерирования фрагментов.

В следующем разделе мы рассматриваем различные подходы к оценке сниппетов и научные работы в смежных областях. Раздел 3 описывает несколько отличных способов оценки фрагментов, использующихся на Яндексе, российской поисковой системе, обрабатывающей около 120 млн. запросов ежедневно. Здесь мы опишем эксперимент по отслеживанию взгляда посетителя страницы выдачи, ручную оценку сниппетов по информативности и читабельности, автоматические метрики и оценки, основанные на сборе данных о частоте кликов. Раздел 4 подводит итоги и указывает направление для наших дальнейших исследований.

2. Смежные работы

Генерация сниппетов может рассматриваться как частный случай задачи представления результатов поиска. Существует два основных подхода к оценке сниппетов: 1) сравнение с эталоном и 2) целенаправленная оценка. Кроме того, оцениваются такие характерные особенности сниппетов как удобочитаемость и грамматическая корректность. Другой возможностью является сравнение с аналогами у конкурентов (оценка «бок о бок») нескольких вариантов сниппетов.

Существуют подходы разработанные по результатам как независимых экспериментов, так и во время глобальных исследований.

В своей инновационной работе Tombros и Sanderson [17] сравнили полезность поисковых сниппетов по содержащихся в них предложениям. 20 человек принимали участие в исследовании, проводимом на специальных дорожках конференции TREC (Text Retrieval Conference). Индикаторами качества выдачи поисковых результатов являлись скорость оценки и необходимость последующего обращения к оригинальному документу; точность и полнота релевантных сниппетов сравнивалась с оценками всего документа.

Проблемно-ориентированный подход, разработанный Whiteet и др. [20] принципиально схож с методом Tombros и Sanderson. Однако они имели своей целью приблизить лабораторные исследования к реальным условиям и получить более сильную обратную связь от пользователей поисковых машин. 24 участников попросили выполнить различные задания на поиске, пользуясь четырьмя различными поисковыми системами. Исследователи применили не только анкетирование, но и предложили участникам дискутировать в вопросах принятия тех или иных решений, также во время экспериментов учитывались автоматические логи действий пользователя. В предложенных анкетах, участники опыта должны были указать примерно не следующие: Аннотации/сниппеты помогли мне найти нужную страницу; Аннотации/сниппеты показали слова из моего запроса в контексте. Главной автоматической оценкой было то время, которые участники тратили на выполнение задания.

Отслеживание человеческого взгляда является хорошим способом тестирования пользовательских интерфейсов, включая представление поисковых результатов. Анализ движения глаз был использован для понимания того, как длина сниппета скажется на способности пользователя оперативно выполнять поисковые и навигационные задачи [4]. Главным открытием было то, что более длинные фрагменты улучшали качество информационных запросов, но ухудшали навигационные. Отслеживание взгляда участников эксперимента подтвердило данные выводы, т.е. более длинные сниппеты отвлекают внимание пользователя от строчки с URL-адресом. Исследование [10] показывает, что разные типы запросов лучше обрабатываются фрагментами разной длины. Leal Bando и др. [12] использовали анализ движения глаз в небольшом пользовательском эксперименте (4 пары запрос-документ, 10 участников) для сопоставления созданных вручную и автоматически извлеченных сниппетов. Оказалось, что в обоих заданиях большую часть времени люди концентрировались на одних и тех же частях текста. Сравнение автоматически сгенерированных и созданных людьми фрагментов показало, что сравнение с эталоном должно использоваться не только для проверки совпадения слов, но и для расположения текста.

В [2] для изучения темпоральных фрагментов был использован сервис по краудсорсингу Mechanical Turk. Экспертам Mechanical Turk было предложено на выбор три варианта сниппетов страниц Wikipedia.org. Они должны были выбрать наилучший вариант, а также обосновать свой выбор. Была проведена оценка 30 фрагментов, соответствовавших 10 запросам.

Clarke и др. изучили характеристики сниппетов, которые могли бы потенциально влиять на их качественную составляющую и, как следствие, на поведение пользователя на поиске [3]. Авторы провели сбор данных о частоте кликов по коммерческим поисковым запросам. По сравнению с предыдущим экспериментом с небольшим количеством участников, эта работа имела более крупный масштаб и менее искусственные условия. Исследователи наблюдали за инверсией кликов в качестве индикатора привлекательности сниппета: это отражали пары последовательных фрагментов в списке результатов, где результаты ниже получали больше кликов, чем более высокие по списку. Исследование подтвердило предположение, что наличие слов из запроса в сниппете, его длина, сложность URL-адреса и удобочитаемость являются важными компонентами качества самого фрагмента.

Kanungo & Orr [11] составили отчет об оценке читабельности сниппетов с использованием машинного обучения. Программа была обучена на 5,000 человеческих суждениях и включала в себя 13 разных критериев, среди которых были: среднее количество символов на слово, процент сложных слов, число фрагментов, количество вхождений слов из запроса и т. д. Программа эффективно имитировала человеческую оценку сниппетов и могла быть использована как для глобального непрерывного мониторинга, так и для улучшения существующих алгоритмов их выдачи.

На протяжении нескольких лет семинары DUC/TAC (Document Understanding Conferences, Text Analysis Conferences) были нацелены на разработку метода автоматического фрагментирования. Эта инициатива собрала значительный объём системных и мануально- идеальных сумм, а так же их сопоставлений, выполненных экспертами. Данные позволили начать разработку автоматического измерения их качества на основании аппроксимации автоматически сгенерированного фрагмента к выборке, состоящей из идеальных сниппетов. Аппроксимация может быть рассчитана в n-граммах, последовательностей слов или похожих синтаксических единиц. ROUGE [13] и Basic Elements (BE) [6] приводят эти методы в качестве примеров, показывающих сильную прямую корреляцию систем ранжирования с человеческой оценкой. При этом автоматическое измерение позволяет использовать оценку повторно.

Последняя редакция работы TAC по выдаче сумм нескольких документов включала в себя 46 тем для регулируемого фрагментирования. Задачей было создание сниппетов из 100 слов по первым десяти документам определённой тематики и апдейтов сниппетов из второго десятка документов. Автоматически сгенерированные аннотации были оценены экспертами и сравнены с идеальными фрагментами в отношении их тематической релевантности, читабельности и Пирамиды (схожесть их содержания со сниппетами созданными людьми) [14]. В отличие от пользовательских запросов, описанная задача представляет собой более подробное описание потребности в получении информации, ее особенностей, а также тематической осведомленности.

Генерирование сниппетов может рассматриваться как задача по выдаче отрывка текста, т.е. получению частей документа, соответствующих определённым информационным нуждам. Подобная задача была исследована TRECHARD в 2003 [5] и 2004 году. Результаты были сопоставлены с отрывками документов, помеченных людьми как релевантные.

В течение двух лет (2007-2008) Web CLEF курировала задачу по генерированию сниппетовсинтезированию информации: участникам давалось описание темы и до 100 результатов Google по релевантным поисковым запросам. В результате создавался ранжированный список простых текстовых фрагментов, извлечённых из полученных документов (первые 7,000 знаков). Фрагменты объединялись и экспертов просили отметить части текста, которые несли в себе полезную информацию. Средняя точность и полнота знаков были определены похожим с TRECHARD способом. ROUGE-1 и ROUGE-1-2 оказались неспособны справиться с заданием [9, 15].

Не так давно INEX анонсировала оценочную дорожку сниппетов [7]. Задачей было получить фрагменты, ограниченные 300 символами из выданных статей Wikipedia.org. Способы оценки включают в себя сравнение релевантности целых документов и малых сниппетов.

В [1] представлена работа (Июнь 2011) сходная с генерацией сниппетов , QA и задачей синтезирования информации: для данного запроса система должна выдать строку в 140 (СМСтвит) или 500 (обычный рабочий стол) символов. Используются японские коллекции и запросы. Оценка производится при помощи частей информации, выданных системой в качестве ответа (подобно со сходством содержимого в оценках TAC).

3. Оценка поисковых сниппетов на Яндексе

Для того чтобы обеспечить плановую оценку фрагментов на Яндексе, мы провели эксперименты, используя различные подходы наряду с описанными в Разделе 2: попарное сравнение двух версийсистем, сравнение релевантности всего документа с фрагментом, оценка его удобочитаемости, извлечение информации о кликабельности по сниппетам и т.д. Работа всё ещё идёт и на данный момент является очевидным то, что создать полноценный метод измерения качественных характеристик сниппетов представляется для нас достаточно трудоемкой задачей. Тем не менее, мы предлагаем использовать ряд полезных инструментов для конкретных целей и нужд их оценки.

3.1. Эксперименты по отслеживанию взгляда eye-tracking

Процесс записи положения взгляда, более известный как eye-tracking, приобрёл популярность в связи с изучением поведения пользователя и желанием повысить юзабилити пользовательских интерфейсов. Мы применяли технологию eye-tracking для выявления тех характеристик сниппетов, которые влияют на удовлетворение пользовательских запросов. Одним из вопросов исследования было выяснение пользы от дополнительной подсветки ключевых словосочетаний, теоретически помогающей пользователям лучше ориентироваться на странице выдачи.

Были подготовлены 19 различных заданий, например, скачать определённую популярную песню, найти информацию по написанию эссе на заданную тему, найти адрес определённого кинотеатра, узнать определение термина, и т.д. Часть заданий не имела ограничений, а другая часть имела приготовленные заранее поисковые запросы. В эксперименте приняло участие 20 человек, каждому из которых был выделен 1 час на выполнение заданий. Участие принимали как опытные пользователи, так и новички. Люди были разделены на две группы: первой группе выдали обычные фрагменты, а второй – сниппеты с подсвеченными словами, относящимися к запросным целям (т.е., например, «купить» для коммерческих запросов).

Главными выводами из эксперимента стали следующие утверждения:

  1. Заголовок более важен, чем содержание сниппета. Пользователи пропускают релевантные результаты без подсвеченных слов в заголовке, отдавая предпочтение результатам ниже по списку с более заметными названиями.
  2. Подсветка привлекает внимание пользователя и помогает эффективно продвигаться по списку результатов. Пользователи кликают прямо на подсвеченные слова в заголовках сниппетов. Дополнительно подсвеченные слова, т.е. отражающие запросные цели, помогают пользователю быстрее найти ответ и привлекают внимание к результатам в нижней части SERP, подтверждено[8], см. Рис. 1.
  3. Опытные пользователи предпочитают поверхностный поиск: они изучают текст вокруг подсвеченных слов, прыгая от одной части сниппета к другой. Если заголовок содержит релевантную информацию, они проходят по ссылке без уточнения его содержимого.
  4. Пользователи полагаются на ранжирование – первые результаты по списку получают большее количество кликов вне зависимости от их содержимого и/или качества фрагмента (подтверждается множеством экспериментов по отслеживанию кликов). Однако некоторые пользователи демонстрируют тенденцию к «уставанию» от процесса поиска и, после изучения нескольких результатов в начале страницы, прокручивают её к нижней части выдачи.
  5. Неопытные пользователи часто «боятся кликать»; они обычно изучают большое количество результатов перед первым переходом по ссылке. Новички более пристально и последовательно изучают предложенные им фрагменты веб-сайтов.
  6. Пользователи всё равно переходят по ссылке, даже если сниппет содержит исчерпывающий ответ на их краткий вопрос, заданный в поисковой строке (подтверждено [2]).
  7. Некоторые пользователи консервативны и пропускают сниппеты с реализованным в их содержимом предпросмотром медиа-файлов.
среднее время задержки взгляда пользователей на сниппетах

Рисунок 1. Среднее время задержки взгляда у двух групп (10 участников в каждой), выполняющих одинаковые задания. 1) обычная подсветка – только слова из запроса; 2) дополнительно выделяется запросная цель (в данном случае “скачать”).

3.2. Асессорская оценка

Мануальная экспертиза сниппетов, проводимая специально обученными людьми (асессорами), основывается на традиционных методах оценки в сфере информационного поиска. Наши эксперты выполнили масштабную работу по оценке поисковых фрагментов, результаты которой используются нами для обучения специального алгоритма их генерации.

Ключевыми особенностями идеального сниппета являются: 1) точная передача смысла всего документа в контексте запроса (т.е. пользователи могут понять степень релевантности документа запроса по сниппету); 2) удобочитаемость и простота восприятия. Эти качества отражены в информативности и читабельности ссылки на оригинал цифрового документа.

Во время исходных экспериментов выяснилось, что асессорам достаточно тяжело оценивать информативность сниппетов по абсолютной шкале по той простой причине, что оценка разных запросов между собой представляется затруднительной задачей. Более оптимальным решением стало сравнение разных вариантов сниппетов для предложенной пары запрос-документ.

Интерфейс оценочного инструмента представлен на Рис.2. Эксперту выдаётся ответ на запрос в виде списка из 10 случайным образом выбранных вариантов сниппетов для одного и того же документа, но сгенерированных разными алгоритмами. Пары запрос-документ были созданы такие образом, чтобы их распределение было близко к результатам Яндекса. Задача заключалась в том, чтобы самостоятельно построить рейтинг ссылок на оригинальные документы посредством их мануального перемещения по странице выдачи, а затем выделить отранжированные группы сниппетов примерно одинакового качества. Независимо от данной исследовательской группы другие эксперты проводили оценку их информативности и читабельности. Опыт проводился в три шага; принимало участие 11 человек. Таблица 1 описывает непосредственно статистику процесса.

инструмент для оценки сниппетов

Рисунок 2. Инструмент для оценки сниппетов с различными парами запрос-документ.

Период Пары запрос-документ Средняя длина сниппета Время на оценку информативности, сек. Обратно — упорядоченные пары, информативность, % Время на оценку читабельности, сек.
Март 2010 1,200 250 115 29 72
Июнь 2010 3,200 170 107 26 60
Январь 2011 2,000 250 101 24 84

Таблица 1. Статистика эксперимента по мануальной оценке.

Опираясь на подмножество оценочных результатов, мы рассчитали коэффициент ранговой корреляции τ-Кендалла между значениями информативности и читабельности (Таблица 2). В случае коэффициента конкордиации положительная связь отмечается в том случае, если у пары изменение по Х совпадает по любому качественному направлению с изменениями по Y. Наличие слабой корреляции показывает, что читабельность и информативность сниппета в некотором роде может дополнять друг друга. Интересно, что корреляция существенно снижается в расширенных запросах. Неоднозначные же запросы, при которых фрагмент текста может содержать в себе одно или два слова из самого вопроса пользователя, с большей вероятностью имеют полезную для человека информацию. Как уже говорилось выше, в остальных случаях эта зависимость более сложная.

Стоит отметить, что помимо текущих задач, наши асессоры «в слепую» сравнивали сниппеты Яндекса с ссылками на оригинальные веб-документы от иных поисковых машин.

Длина запроса Количество пар запрос-документ Количество сниппетов r
1 164 1,481 0.432
2 256 2,266 0.401
3 273 2,466 0.374
4 183 1,588 0.363
≥ 5 237 2,024 0.353
Итого 1,113 9,825 0,383

Таблица 2. Корреляция между читабельностью и информативностью сниппета

3.3 Автоматические измерения качества сниппетов

Даже с учетом наличия таких сервисов как Mechanical Turk, ручная экспертиза отнимает достаточно много финансовых и временных ресурсов, а в случае изменения алгоритма генерирования сниппетов нам потребуется быстрый и лёгкий способ проверки его обновленной версии. На данный момент мы используем ряд автоматических мер, которые охватывают следующие особенности поисковых фрагментов:

В Таблице 3 представлен коэффициент ранговой корреляции τ-Кендалла между автоматическим и мануальным ранжированием сниппетов по отношению к их информативности и читабельности (рассчитанная по тем же данным, что и в Таблице 2).

Длина запроса Информативность и Читабельность и
доля слов из запроса число подсвеченных слов доля нечитаемых символов число отрывков
1 0.205 0.206 -0.322 -0.699
2 0.281 0.329 -0.304 -0.695
3 0.302 0.403 -0.309 -0.671
4 0.328 0.484 -0.327 -0.641
≥ 5 0.334 0.535 -0.323 -0.576
Итого 0.274 0.424 -0.306 -0.657

Таблица 3. Корреляция между оценками экспертов и автоматическим ранжированием.

Как и предполагалось, доля слов из запроса, попавшая в сниппет и число подсвеченных словосочетаний имеют положительную корреляцию с информативностью, в то время как доля нечитаемых символов и число отрывков из оригинального документа в фрагменте имеют отрицательную корреляцию с читабельностью. Однако в целом корреляция между сниппетами не такая сильная, за исключением их количественной составляющей.

В дополнение к этому, Таблица 4 показывает ряд автоматических метрик для двух алгоритмов генерирования фрагментов, созданных в процессе работы системы Яндекс. В общих чертах, второй алгоритм показывает более хорошие результаты, а единственным его недостатком является слегка завышенный объем нечитаемых символов.

Метрика Алгоритм 1 Алгоритм 2
Доля слов из запроса в фрагменте 0.762 0.774
Доля фрагментов, содержащих все слова запроса 0.550 0.568
Длина сниппета в символах 165.76 161.59
Число подсвеченных слов запроса в сниппете 3.317 3.368
Доля нечитаемых символов 0.020 0.022
Средняя длина слова 5.901 5.870

Таблица 4. Автоматические метрики для двух алгоритмов генерирования фрагментов (2,000 запросов, 17,009 сниппетов сгенерировано каждым алгоритмом).

3.4 A/B тестирование

Автоматическая оценка систем информационного поиска, основанная на поведении пользователя является областью интенсивного исследования. Автоматические методы дают возможность ускорить оценку и снизить её стоимость. Однако, несмотря на изобилие доступной для нашего исследования информации, значительной проблемой является ее качественная интерпретация.

Нами осуществляется автоматическая оценка нового алгоритма генерации сниппетов через A/B-тестирование, при котором мы вычисляем наиболее оптимальный набор характеристик посредством последовательной замены тех или иных показателей. Подмножеству пользователей выдается схожий список отранжированных поисковых результатов, но с разными ссылками на оригинальные интернет-документы из индексной коллекции. В целом, мы использовали подмножество метрик, описанных в [16] (для оценки сниппетов метрики пользовательских сессий, такие как количество запросов за сеанс и/или скорость переформулирования запроса представляются нам некорректными). Важно заметить, что в отличие от измерения качества поиска, некоторые способы оценки поисковых фрагментов могут интерпретироваться иначе. Например, в случае с более короткими сниппетами повышенный CTR (clickthroughrate, отношение числа кликов к числу показов) нижних результатов поиска считается положительным фактором: пользователь начинает лучше понимать SERP, в то время как для оценки качества поисковой выдачи это бы означало, что самые релевантные результаты находятся ниже, и, следовательно, их порядок нарушен.

Главной целью любого сниппета является помощь пользователю в поиске релевантных его вопросу документов на странице результатов поисковой системы и избежание иррелевантных результатов. Таким образом, первой важнейшей поведенческой метрикой становится время просмотра оригинального веб-документа, т.е. тот промежуток времени, который пользователь тратит на чтение страницы, после перехода по ссылке из списка предложенных ему результатов. Логично предположить, что чем выше процент SERP-кликов с продолжительным временем просмотра оригинальных html-страниц, тем меньше документов с некачественными сниппетами находится на странице ответа поисковой машины. Так же, чем меньше показатель отказов (т.е. количество пользовательских запросов без соответствующих кликов по результатам), тем лучше составлены аннотации на документах, выданных системой. Повышение CTR для документов в конце страницы результатов чаще всего означает, что фрагментам топовых веб-сайтов уделяется меньше внимания из-за их пониженной информативности (см. инверсия кликов [3]). Более того, в дополнение к времени просмотра необходимо брать в расчёт тот время, которое требуется для поиска ответа на пользовательский запрос. Например, достаточно полезной метрикой, которая прямо коррелирует со временем, необходимым для нахождения ответа на вопрос, для разработчиков поиска представляется время до первого клика по какой-либо органической ссылке. В любом случае, качественное продвижение сайтов имеет своей целью не только поднять тот или иной ресурс по определенным запросам, но также и увеличить количество переходов с результатов поисковой машины, поэтому всегда обращайте пристальное внимание на то, как оформлены странички вашего интернет-сайта в SERP.

Метрика Алгоритм 1 Алгоритм 2
Запросы с отказами, % 38.270 38.220 (-0.13%)*
Инверсия кликов, % 6.8017 6.8212 (+0.29%)*
Частота продолжительных просмотров, % 72.5897 72.6088 (+0.026%)
Время до первого клика, сек. 11.5274 11.5245 (-0.02%)
CTR 1-ой позиции 0.3786 0.3790 (+0.10%)*
CTR 2-ой позиции 0.1631 0.1630 (-0.03%)
CTR 9-ой позиции 0.0355 0.0357 (+0.42%)*
CTR 10-ой позиции 0.0358 0.0360 (+0.27%)*

Таблица 5.Результаты A/B-тестирования для двух алгоритмов генерации сниппетов (* — статистическое значение имеет уровень 0.01)

Метрика Обычная подсветка Дополнительная подсветка
Запросы с отказами, % 40.0031 39.9052 (-0.35%)*
Инверсия кликов, % 6.4506 6.4818 (+0.48%)*
Частота продолжительных просмотров, % 73.8379 73.7960 (-0.06%)
Время до первого клика, сек. 11.6832 11.6638 (-0.17%)*
CTR 1-ой позиции 0.3132 0.3138 (+0.19%)*
CTR 2-ой позиции 0.1639 0.1645 (+0.33%)*
CTR 9-ой позиции 0.0343 0.0347 (+1.11%)*
CTR 10-ой позиции 0.0422 0.0424(+0.45%)*

Таблица 6. Сравнение результатов A/B-тестирования для сниппетов с обычной и дополнительной подсветкой (* — статистическое значение имеет уровень 0.01)

В Таблице 5 показано количественное отображение поведения пользователя для двух разных алгоритмов генерации сниппетов. Фрагменты Алгоритма 2 показывались 12.5% пользователей в течение 2 недель (Май 10-24, 2011). Так как сниппеты, сгенерированные Алгоритмом 2, содержали больше слов из запроса и были короче, наблюдалось повышение CTR, в особенности для нижних результатов ранга. По этой причине частота кликовой инверсии увеличилась (к этому привело большее внимание к нижним позициям). Реализация подсветки снизило процент отказов. Доля продолжительных запросов (>30 секунд) для Алгоритма 2 была примерно такой же, как и у Алгоритма 1. Это могло означать, что Алгоритм 2 генерировал более привлекательные фрагменты как для релевантных, так и для нерелевантных документов. Так как общее отношение числа кликов к числу показов по ссылкам релевантных документов увеличилось, можно сделать вывод, что генерация фрагментов Алгоритмом 2 производится лучше, чем Алгоритмом 1.

Таблица 6 отражает результаты очередного эксперимента с алгоритмами генерации сниппетов, отличающихся только по способу выделения целевых слов. Эксперимент проводился на 50% пользователей в течение 2 недель. Отслеживание кликов подтвердило результаты анализа движения взгляда; было доказано, что повышенная привлекательность фрагментов увеличивает CTR и сокращает время до первого клика.

4. Выводы и будущие цели

Основываясь на наших экспериментах, можно сделать вывод, что сложная задача оценки фрагментов лучше всего решается набором различных методов – исследованием пользовательского поведения, работой асессоров, автоматическими метриками и извлечением данных об отношении числа кликов к числу показов.

Мы используем методологию eye-tracking перед обновлением органического поиска и/или внешнего отображения ссылок на оригинальные веб-документы; перед изменением объема фрагментов; добавления к ним предпросмотра изображений, QuickLinks и ссылок на географические карты; использования специальных сниппетов для организаций; дополнительной подсветки, отображения url и т.д.

Асессорская оценка необходима нам для обучения специального алгоритма генерации сниппетов, а также их сравнения с аналогами у конкурентов. Мы используем два критерия качества фрагментов – информативность и читабельность. Несмотря на то, что недостатком данного подхода является явное отсутствие возможности повторного использования полученных ранее оценок, составление идеальных сниппетов, которые бы удовлетворяли этому требованию, представляется для нас еще более ресурсоемкой труднодостижимой задачей улучшения качества поисковых сниппетов.

Автоматические метрики подходят для быстрой, хотя и несколько грубоватой, оценки алгоритма отображения ссылок на документы из нашей коллекции. Мы широко используем их в регрессивном тестировании только что разработанных алгоритмов. Более того, мы собираемся ввести автоматические метрики, основанные на результатах ручной оценки читабельности (схожим образом с [11]).

A/B-тестирование является последним шагом к реализации алгоритма генерации сниппетов на веб-поиске. В дальнейшем мы собираемся рассмотреть проблемы связанные с созданием интегральной метрики качества сниппетов, а также планируем провести ручную оценку элементов сниппетов для неоднозначных запросов (аналогично подходу, описанного DUC/TAC/1CLICK).

5. Источники

1. 1CLICK@NTCIR-9, research.microsoft.com/en-us/people/tesakai/lclick.aspx

2. Alonso, O., Baeza-Yates, R., Gertz, M.: Effectiveness of Temporal Snippets. In: WSSP Workshop at the World Wide Web Conference—WWW’09 (2009)

3. Clarke, Ch., Agichtein, E., S. Dumais, White, R. W.: The Influence of Caption Features on Clickthrough Patterns in Web Search. In: SIGIR2007 (2007)

4. Cutrell, E., Guan, Zh.; What Are You Looking For? An Eye-tracking Study of Information Usage in Web Search. In: CHF07 (2007)

5. HARD, High Accuracy Retrieval from Documents. TREC 2003 track guidelines, ciir.cs.umass.edu/research/hard/guidelines2003.html

6. Hovy, E., Lin, Ch.-Y., Zhou, L.: Evaluating DUC 2005 Using Basic Elements. In: Fifth Document Understanding Conference (DUC), Vancouver, Canada (2005)

7. INEX 2011 Snippet Retrieval Track, inex.mmci.uni-saarland.de/tracks/snippet

8. Iofciu, T., Craswell, N., Shokouhi, M.: Evaluating the Impact of Snippet Highlighting in Search. In: Understanding the User Workshop — SIGIR’09 (2009)

9. Jijkoun, V., de Rijke, M.: Overview of WebCLEF 2008. In: Evaluating Systems for Multilingual and Multimodal Information Access. LNCS, vol. 5706, pp. 787-793 (2009)

10. Kaisser, M., Hearst, M. A., Lowe, J. B.: Improving Search Results Quality by Customizing Summary Lengths. In: ACL-08: HLT (2008)

11. Kanungo, T., Orr, D.: Predicting the Readability of Short Web Summaries. In WSDM ’09 (2009)

12. Leal Bando, L., Scholer, F., Turpin, A.: Constructing Query-biased Summaries: a Comparison of Human and System Generated Snippets. In: IIiX’2010 (2010)

13. Lin, Ch.-Y.: ROUGE: A Package for Automatic Evaluation of Summaries. In: ACL’04 Workshop: Text Summarization Branches Out, Barcelona, Spain (2004)

14. Nenkova, A., Passonneau, R. J., McKeown, K.: The Pyramid Method: Incorporating Human Content Selection Variation in Summarization Evaluation. In: TSLP 4(2) (2007)

15. Overwijk, A., Nguyen, D., Hauff, C, Trieschnigg, R., Hiemstra, D., de Jong, F.: On the Evaluation of Snippet Selection for WebCLEF. In: Evaluating Systems for Multilingual and Multimodal Information Access. LNCS, vol. 5706, pp. 794-797 (2009)

16. Radlinski, F., Kurup, M., Joachims, T.: How Does Clickthrough Data Reflect Retrieval Quality? In: CIKM’08 (2008)

17. Tombros, A., Sanderson, M.: Advantages of Query Biased Summaries in Information Retrieval. In: SIGIR’98 (1998)

18. Turpin, A., Scholer, F., Jarvelin, K., Wu, M., Culpepper, J.S.: Including Summaries in System Evaluations. In: SIGIR’09 (2009)

19. Wade, C, Allan, J.: Passage Retrieval and Evaluation. Technical report, CIIR, University of Massachusetts, Amherst (2005)

20. White, R. W., Jose, J. M., Ruthven I.: A Task-Oriented Study on the Influencing Effects of Query-Biased Summarization in Web Searching. Information Processing and Management, 39 (2003)

Перевод материала «Search Snippet Evaluation at Yandex: Lessons Learned and Future Directions» выполнил Роман Мурашов

Полезная информация по продвижению сайтов:

Перейти ко всей информации