Яндекс. Технология машинного обучения MatrixNet

2011

На сегодняшний день в поиске Яндекса активно применяется новейшая технология машинного обучения, которая была внедрена еще в 2009 году и получила название MatrixNet. В чем же основные отличия технологии MatrixNet от прежних алгоритмов Яндекса и почему она оказалась в наибольшей степени эффективной для повышения качественных показателей поиска?

Прежде всего, MatrixNet анализирует оценки асессоров касательно связки "запрос пользователя - документ ему релевантный", затем из полученной выборки машина выявляет связанные с данным выбором факторы, их комбинации и, тем самым, определяет для себя наиболее оптимальные документы. Асессоры дают предложенным им страницам как предварительные оценки (например, вредоносное программное обеспечение, ошибка 404), так и оценки по шкале релевантности (полезна, официальный ответ на вопрос, релевантная +/-, нерелевантна, иной смысл, спам). Оценки в базе данных периодически обновляются, поэтому если сайт в пределах ТОП30 меняет свое положение, то это может свидетельствовать о том, что ваш сайт прошел переоценку. Яндекс анализирует поведение пользователей на поиске по таким факторам, как, например: первый клик, процент пропущенных кликов, возврат к результатам выдачи и т.д. Проблему же связанную с переобучением алгоритма (поиск несуществующих закономерностей) разработчики "MatrixNet" решили за счет разбиения выборки запросов на обучающую и проверочную.

Таким образом, посредством работы данного алгоритма можно выстраивать действительно очень сложную формулу ранжирования (например, с десятками тысяч коэффициентов) без увеличения обучающий выборки, с настройкой для определенных классов поисковых запросов.