Купить товар или получить о нем информацию? Классификатор страниц интернет-магазинов и товарных обзоров.

П.И. Браславский, Ю.А. Киселёв (Яндекс)

Аннотация

В этой статье мы рассматриваем две основные категории результатов поисковой выдачи при обращении наших пользователей с вопросом о товарных предложениях. Данная категоризация отражает основные цели пользователей, с которыми они приходят на Яндекс – найти обзоры интересующих их товаров и/или приобрести соответствующий продукт в интернет-магазине. Мы описываем обучение классификаторов и тестовую выборку, особенности классификации и структуру классификаторов. Наши выводы наглядно демонстрируют, что этот метод является высококачественным и по эффективности подходит для практического использования.

Введение

С недавних пор выявление скрытых целей, с которыми люди приходят на поиск, привлекает внимание разработчиков поисковых систем. Учитывая необходимость разнообразия органической выдачи, мы сдвигаем акцент от связки «запрос-документ ему релевантный» к отношениям между документами, содержащимся в списке результатов поисковой выдачи (SERP). Увеличение многообразия результатов поиска имеет много нюансов (1), которые связаны с неполнотой располагаемой информации (то есть, мы ничего не знаем о самом запросе пользователя). Классическим случаем можно назвать неоднозначный запрос, когда SERP с различными вариантами результатов может компенсировать недостаток информации о действительных запросах пользователя. Например, запрос [алые паруса] может относиться к повести Александра Грина, её экранизации 1961 года, розничной сети, жилому комплексу в Москве или ежегодному празднику выпускников в Санкт-Петербурге. В связи с невозможностью устранения неоднозначности запроса, мы можем попытаться организовать список результатов таким образом, чтобы он отражал разные смысловые варианты запроса (определение смысловых вариантов и способа структурирования SERP является отдельной проблемой). Другой тонкостью является неоднозначность запроса, связанная с конкретными пользователями. К примеру, запрос [фиксированная амортизация активов] может быть дан как опытным бухгалтером, так и студентом, выполняющим домашнюю работу. Соответственно, если мы не можем получить дополнительную информацию от пользователя, результаты поиска могут содержать документы, раскрывающие тему запроса на разных уровнях. Очередной сложностью является разнообразие жанров документов в поиске: документы на одну и ту же тему могут быть разных типов. Например, результаты запроса [продвижение сайтов] могут содержать как новости, так и научно-популярные статьи.

В нашей работе, мы учитываем проблему неоднозначности товарных запросов, традиционно предлагаемых интернет-магазинами. Спектр данных товаров хорошо освещён в сервисе сравнения магазинов Яндекс.Маркет (market.yandex.ru) и включает в себя электронику, фотоаппараты, бытовую технику, мобильные телефоны, компьютеры, и т.д. Типичными примерами запросов, связанных с электронной коммерцией являются [samsung g400]. [домашний кондиционер] и [обзор нетбуков]. Мы оцениванием долю подобных запросов в 4% от общего потока запросов на Яндексе. Диапазон нужд пользователей при подобных запросах может быть довольно широким. Однако большинство пользователей хочет либо 1) узнать о предложении продажи товара, выбрать модель, изучить характеристики товара, сравнить их с другими похожими товарами – эти шаги обычно ведут к покупке товара, представленного на Яндекс.Маркете, либо 2) сделать конкретный заказ или оплатить товар. Эти цели пользователя соответствуют двум типам документов: 1) онлайн сравнение товаров и их обзоры и 2) страницы интернет-магазинов, где пользователи могут совершить покупку (например, обращение к корзине заказа). Естественно, эти цели не охватывают полный спектр нужд пользователя – люди могут использовать те же самые запросы для поиска технической спецификации, запасных частей, сервис-центров и ремонтных мастерских, аксессуаров, программного обеспечения для устройств, специализированной рекламы, и т.д. Но, тем не менее, два вышеупомянутых варианта наиболее распространены.

В текущей статье мы не затрагиваем алгоритмы увеличения многообразия поисковых результатов, однако описываем соответствующие предпосылки для его реализации, рассматривая проблему классификации веб-документов на обзоры продукции и предложения интернет-магазинов (см. (2) по оптимизации поисковых результатов, основанной на разнообразии выдачи). Под «обзорами» следует понимать тщательные и подробные профессиональные и/или редакторские обзоры, исключающие пользовательские отзывы. Digital Photography Review (Обзор Цифровой Фотографии, dpreview.com) является хорошим примером.

В остальной части материала мы рассматриваем работу по классификации веб-документов, описываем требования и конечную структуру классификаторов, уточняем наши данные, определяем свойства классификации и показываем результаты оценки.

Связанные исследования

В поисковых системах используются различные классификации веб-страниц. Категоризация веб-документов используется для улучшения качества и построения вертикального поиска (то есть, глубинного тематического поиска), фильтрации спама, группирования запросов пользователей, и т.д. В отличие от традиционных методов классификации текстовых документов, классификация веб-страниц может быть основана на более широком ряде свойств, включая структуру документа, HTML-теги, даты создания, гиперссылки, URL и взаимодействие с пользователем. Проблема классификации веб-документов может быть усложнена такими элементами как рекламные блоки, навигация, и т.д. После работы первопроходца Joachims (4), SVM (Support Vector Machine, Метод Опорных Векторов, МОВ) широко применяется для классификации текстовых документов.

Классификация страниц на обзоры и продукцию интернет-магазинов является примером жанровой классификации. Подробный обзор подходов и алгоритмов жанровой классификации рассматривается в (5). По меньшей мере две заслуживающих внимания работы, освещающих анализ веб-документов появились после публикации данного обзора. Meyer zu Eissen и Stein (6) провели пользовательское исследование, сгенерировав набор из восьми веб-жанров, полезных для веб-поиска и создали систему, включающую в себя эти жанры. Наряду с содержанием и языковыми свойствами, традиционно используемыми в жанровом анализе, их исследование брало в расчёт HTML-свойства документа. Этот способ классификации был введён в качестве плагина для браузера Firefox, дополняющего сниппеты Google жанровыми метками (7). Lim et al. (8) улучшил этот подход, применив более широкий диапазон свойств (итого 326), включая различные содержательные, лексические, синтаксические, HTML и URL свойства.

MindSet, исследовательский проект Yahoo! (9) позволил пользователям оценивать результаты поиска, основываясь на их информационном или коммерческом значении. Кроме того, в дополнение к обычной строке поиска, MindSet имел в наличии слайдер, который пользователь мог передвинуть между «покупкой» и «информацией», сдвигая представленные результаты от менее к более коммерческим. К сожалению, на сегодняшний день проект закрыт, а детали его работы так и не были опубликованы.

Dai et al. (10) разрешил проблему выявления скрытого желания пользователя совершить онлайн-покупку. Для этого был создан классификатор коммерческих и некоммерческих веб-страниц. Классификация была проведена при помощи МОВ в области терминов, частота повторений терминов в теле документа и HTML-тегах была сосчитана отдельно (n терминов сгенерировало 2n свойств). Тестовая выборка содержала 5,375 страниц, из которых 2,820 были определены как коммерческие. Авторы получили хорошие результаты с точностью до 93.0% и полнотой 92.5% для класса коммерческих страниц. Демо-версия классификатора доступна для публичного ознакомления. (11).

Статья (12) описывает простую утилиту на стороне клиента, которая классифицирует коммерческие (то есть, страницы товаров в интернет-магазинах) и некоммерческие страницы. Классификация проводится на основании нескольких признаков: по наличию изображений и описаний товара, отображению цены, кнопке «купить», URL, и т.д. За классификацией следует извлечение названия и цены товара.

Проблема фильтрации обзоров товара из поисковых запросов рассматривается в (13). Задача была решена, основываясь на фрагментах выдачи: ряд данных для эксперимента содержал 1,200 фрагментов запросов в Google вида [имя_продукта + «обзор»]. Свойства, на которых основывалась классификация, включали в себя термины в названии, адресах страниц и на самом фрагменте. Итоговый классификатор сопоставлял результаты МОВ-классификатора с эвристиками.

Классификация обзоров товаров, основанная на графах распределения кликов, была рассмотрена наряду с другими проблемами категоризации в (14). Выборка из 10,000 положительных и отрицательных примеров была использована для изучения дерева принятия решений. Использовались такие признаки как текст (униграммные и биграммные шифры в различных структурных частях документа, количество слов в документах, количество слов, написанных целиком заглавными буквами), ссылки (свойства входящих и исходящих ссылок), URL (длина и присутствие определённых знаков) и особенности HTML (наличие определённых тегов). Лучшие результаты для класса обзоров, сообщённые авторами были следующими: точность – 63,96%, полнота – 73.97%.

Классификатор

Нашей целью было создать масштабируемый классификатор, способной обрабатывать миллиарды веб-страниц за приемлемое время. Скорость работы была так же важна, как и качество выполняемой классификации. Следовательно, мы решили ограничиться введением только легковесных свойств, которые могли бы быть извлечены за однократное считывание страницы. Мы решили встроить классификатор в индексирующую систему поискового сервиса. Несмотря на то, что это приводило к более жёстким ограничениям эффективности, мы легко могли сделать разметку, лемматизацию, определение языка и другие результаты доступными уже во время индексации.

Для эксперимента мы применили LIBSVM (15), вариант МОВ. Для создания трёхклассового классификатора из бинарных классификаций (магазин – другое, обзор – другое), было доступно два варианта:

Параллельный классификатор. Страница обрабатывается обоими классификаторами независимо друг от друга. В итоге, некоторые страницы могут быть отнесены к обоим классам (магазин и обзор).
Последовательный классификатор. Отрицательные (другое) выходные данные из классификатора магазинов направляются в классификатор обзоров.

Фактически, эти два варианта различаются незначительно. В обоих случаях требуется извлечь все свойства за один заход. Так как товаросодержащие страницы интернет-магазинов составляют около 4% сети (доля обзоров значительно ниже), последовательная схема ненамного уменьшает объем производимых нами расчётов.

Данные

Для категоризации значительной части проиндексированных документов (исключая документы с языком отличным от русского и/или очень короткие документы), мы разработали обучение «на проблемах», а также тестовые выборки, состоящие из документов, выданных по запросу товара на Яндексе. Этот подход предполагает, что мы можем автоматически определять запросы целевого класса. Проблема классификации запросов не включена в данную статью (но, например, (3) описывает метод определения товарных запросов с высокой точностью и полнотой).

Чтобы создать тестовую выборку, мы случайным образом отобрали 100 запросов из списка товарных запросов с нанесенными на них в мануальном режиме метками. Для каждого запроса мы извлекли из органического поиска Яндекса ТОП 10 цифровых-документов. Общее число скачанных страниц достигло 979 (некоторые страницы были недоступны, а прочие были отфильтрованы из-за языка, отличного от русского). Выборка была разбита по категориям приглашенным экспертом из компании Яндекс. Каждая веб-страница была отнесена конкретно к одному классу: магазин, обзор или другое. Если страница имела свойства как магазина, так и обзора (например, страница магазина с подробным описанием товара), то она помечалась как магазин (т.е., пометка магазин замещала пометку обзор). Таблица 1 показывает классификацию выборки.

Класс	Количество страниц
Магазин	301
Обзор	87
Другое	591
Итого	979

Таблица 1. Обучающая выборка для классификатора магазинов.

Первые эксперименты с выборкой показали, что её размер не позволяет классификатору обзоров обучаться надлежащим образом. Тогда мы использовали эту выборку для обучения только классификатора магазинов. Для обучения классификатора обзоров, мы составили искусственный обучающий ряд. Он содержал 150 страниц с обзорами, 150 страниц с другим содержанием из начальной выборки, помеченных как другое. Кроме того, мы добавили 50 длинных документов, выбранных вручную (биографии, выдержки из энциклопедий, и т.д.). Таблица 2 показывает статистику.

Класс	Количество страниц
Магазин	150
Обзор	150
Длинные документы	50
Итого	350

Таблица 2. Обучающая выборка для классификатора обзоров.

Тестовая выборка была получена тем же путём, что и обучающий ряд для магазинов: мы скачали и классифицировали топ 10 из результатов Яндекса для 100 запросов товаров. Таблица 3 показывает структуру тестовой выборки.

Класс	Количество страниц
Магазин	431
Обзор	101
Другое	557
Итого	1089

Таблица 3. Тестовый ряд.

Особенности классификации

Классификатор магазинов

Мы использовали разные группы признаков для классификации: термины, текстовые, лексические, HTML и URL свойства.

Особенности терминов. Мы определили наиболее информативные термины-свойства на основании взаимной информации. По причинам эффективности, мы не учитывали семантическую или визуальную структуры документа (основное содержимое, навигация, заголовки, колонтитулы, и т.д.). Как и предполагалось, наиболее часто встречающимися терминами были магазин, рубль, каталог, цена, прайс и корзина. Полный список терминов, использовавшихся для классификации состоял примерно из 100 пунктов.

Особенности HTML. Главной высокоуровневой особенностью страницы магазина является возможность оформить заказ. Мы использовали два свойства, направленных на определение наличия кнопки «купить»:

число определённых ключевых слов (купить, заказать, и т.д.) в ссылках и кнопках.
число HTML-тегов (img, button, и т.д.) со словами “cart”, “basket”, “order”, и т.д. в атрибутах.

Лексические особенности. Мы использовали список торговых марок и брендов в сервисе сравнения покупок Яндекс.Маркета (исключая часто используемые слова и названия, состоящие из двух и более слов). Список сгенерировал два свойства: число слов из списка на странице и число уникальных слов из списка.

Особенности URL. Извлечение информации из URL-адресов также может помочь в классификации страниц интернет-магазина, в том числе: product, shop, itemID, и т.д.

Классификатор обзоров

Особенности терминов. По аналогии с классификатором магазинов мы выбрали наиболее информативные термины для классификации обзоров. Так как лексическое разнообразие обзоров гораздо выше, чем у страниц магазинов, список ключевых слов был намного длиннее и превысил 7,000 слов. Наиболее информативными терминами для обзора были рынок, взгляд, автор, обзор, комментарий, маленький и китайский.

Текстовые особенности. Текстовые особенности включали в себя длину документа в словах и знаках, а так же распределение предложений.

Лексические особенности. Список из 165 отобранных вручную оценочных прилагательных – хороший, прекрасный, великолепный, плохой, отвратительный, ужасный, и т.д. – сгенерировал два свойства: общее число слов из списка и число уникальных слов.

Результаты

Классификация результатов с различными группами особенностей по тестовой выборке представлена в таблицах 4 и 5.

Набор свойств	Точность	Полнота
Только термины	0.918	0.809
Только HTML-свойства	0.894	0.491
Термины + HTML-свойства	0.934	0.800
Термины + лексические свойства	0.910	0.807
Термины + URL-свойства	0.876	0.856
Все свойства	0.937	0.837

Таблица 4. Результаты классификации онлайн-магазинов.

Таблица 4 показывает, что классификация, основывающаяся только на терминах дала хорошие результаты. Добавление разметки по особенностям HTML, например, определение наличия кнопки “купить”, увеличивало точность классификации. Эти выводы подтверждены результатами Dai et al. (10): классификация по терминам и HTML-тегам работает хорошо даже с тестовой выборкой небольшого размера. Наблюдение, что лексические особенности, сгенерированные из списка продавцов и брэндов ухудшают качество классификации может быть объяснено тем, что почти все страницы, выданные по коммерческому запросу, уже содержат названия брэндов. Эти особенности, вероятно, улучшили бы качество, если бы мы оценивали результаты классификации на выборке из случайных веб-страниц. Добавление особенностей URL уменьшило точность, но увеличило полноту. Набор из всех представленных особенностей дал самую высокую точность классу магазин.

Набор свойств	Точность	Полнота
Только термины	0.644	0.861
Термины + URL-свойства	0.643	0.841
Термины + лексические свойства	0.625	0.861
Термины + текстовые свойства	0.681	0.891

Таблица 5. Результаты классификации обзоров.

Как и ожидалось, качество классификации обзоров были значительно ниже, учитывая разнообразие элементов класса и поверхностность используемых нами свойств. Лексические и URL-особенности не внесли особого вклада в качество классификации. Однако текстовые и терминологические особенности дали самую высокую точность для класса обзора (0.681).

Таблицы 4 и 5 показывают результаты параллельной классификации (т.е. вся тестовая выборка была обработана обоими классификаторами). Наложение результатов классификаторов показало, что только 16 страниц были отнесены к обоим классам (при этом, все 16 страниц были обозначены как магазины экспертом-человеком). Результаты трёхклассового классификатора (пометка магазин перекрывает пометку обзор) показаны в таблице 6 (действительные классы в строках, результат классификации в столбцах).

	Магазин	Обзор	Другое	Полнота
Магазин	361	3	67	0.84
Обзор	1	90	10	0.89
Другое	23	23	511
Точность	0.94	0.78

Таблица 6. Матрица наложения трёхклассового классификатора.

Для проверки гипотезы, утверждающей, что классификатор магазинов будет хорошо работать даже на произвольных документах (а не только на документах, выданных по определённых запросам), мы выбрали случайным образом 56,768 русскоязычных страниц из индекса Яндекса. 2,071 страницы были автоматически определены как магазин, 1,908 меток (3.6% от исходной выборки) были утверждены человеком, что дало степень точности равную 0.92.

Заключение и дальнейшая работа

В этой статье мы представили жанровый классификатор, разделяющий результаты поиска по запросу товара на два класса и, соответственно, отражающих две возможных целей пользователей – обзоры товара и его покупка в интернет-магазинах. Задача этой классификации состоит в том, чтобы компенсировать расширенным спектром поисковых результатов нехватку информации о неоднозначных пользовательских запросах.

В наших последующих работах мы сосредоточимся на:

извлечении информации из страниц интернет-магазинов и обзоров товаров: название товара, его категория, цена, и т.д.;
улучшении качества классификации товарных обзоров. Для автоматического извлечения результатов, мы планируем рассчитывать лингвистически богатые свойства в оффлайн-режиме;
исследовании возможностей по принятию в расчёт сегментации страницы (т.е. основное содержимое документа, навигация, и т.д.) для улучшения аккуратности классификации в том виде, как это предлагается в некоторых аналогичных работах по классификации веб-страниц.

Ссылки

[1] Agrawal Rakesh, Gollapudi Sreenivas, Halverson Alan, Leong Samuel. 2009. Diversifying Search Results. WSDM ’09 : 5 – 14.

[2] Cattelan Renan, Kirovski Darko, Vijaywargi Deepak. 2009. Serving Comparative Shopping Links Non-invasively. Proceedings of the Web Intelligence and Intelligent Agent Technologitw: 498 – 507.

[3] Dai Honghua (Kathy), Zhao Lingzhi, Nie Zaiqing, Wen Ji-Rong, Wang Lee, Li Ying. 2006. Detecting Online Commercial Intention (OCI). WWW’06 : 829 – 837. Detecting Online Commercial Intention, доступно по адресу: adlab.msn.com/Online-Commercial-Intention/Default.aspx

[4] Eissen Sven Meyer zu, Stein Benno. 2004. Genre Classification of Web Pages. KI 2004 : 256 – 269.

[5] Joachims Thorsten. 1998. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. ECML-98 : 137 – 142.

[6] Kim Soo-Min, Pantel Patrick, Duan Lei, Gaffney Scott. 2009. Improving Web Page Classification by Label-Propagation Over Click Graphs. CIKM’09 : 1077 – 1086.

[7] Li Xiao, Wang Ye-Yi, Acero Alex. 2008. Learning Auery Intent from Regularized Click Graphs. SIGIR ’08 : 339 – 346.

[8] LIBSVM, доступно по адресу: csie.ntu.edu.tw/~cjlin/libsvm

[9] Lim C.S., Lee K.J., Kim G. C. 2005. Multiple sets of Features for automatic Genre Classification of Web Documents. Information processing & Management, 41 : 1263 – 1276.

[10] MindSet, доступен по адресу: research.yahoo.com/node/1912

[11] Radlinski Filip, Bennett Paul N., Cartette Ben, Joachims Thorsten. 2009. Redundancy, Diversity and Interdependent Document Relevance. SIGI Forum 43, 2 (Декабрь 2009) : 46 – 52.

[12] Santini M. 2004. State-of-the-art on Automatic Genre Identification. Techical Report.

[13] ITRI-04-03, 2004, ITRI. Доступно по адресу: ftp.itri.bton.ac.uk/reports/ITRI-04-03.pdf

[14] Thet Tun Thura, Na Jin-Cheon, Christopher S.G. 2007. Khoo Automatic Classification of Web Search Results: Product Review vs Non-review Documents. ICADL’2007 : 65-74.

[15] WEGA (Web Genre Analysis) project, доступен по адресу: webis.de/research/projects/wega

Перевод материала «To Find Out or To Buy? Product Review vs. Web Shop Classifier» выполнил Роман Мурашов

Полезная информация по продвижению сайтов:

Майнинг поисковых маршрутов массового серфинга: идентификация релевантных веб-сайтов на основании пользовательской активности

Перейти ко всей информации