Региональное ранжирование в эпоху MatrixNet презентация

ОБУЧАЮЩАЯ ВЫБОРКА Набор запросов q(i) Набор документов dj(i) для каждого запроса q(i) Rel(q(i), dj(i)) - ручная оценка соответствия документа запросу (выполняется асессорами) Конкурс «Интернет-математика – 2009»:

Слайд 1Региональное ранжирование в эпоху MatrixNet
Сергей ЛЮДКЕВИЧ, начальник отдела аналитики


Слайд 2ОБУЧАЮЩАЯ ВЫБОРКА
Набор запросов q(i)
Набор документов dj(i) для каждого запроса q(i)

Rel(q(i),

dj(i)) - ручная оценка соответствия документа запросу (выполняется асессорами)

Конкурс «Интернет-математика – 2009»:
Rel(q, d) - значения из диапазона [0, 4]
(4 – «высокая релевантность»,…, 0 – «нерелевантно»)


Слайд 3ФАКТОРЫ РАНЖИРОВАНИЯ
Набор факторов ранжирования
F = (f1(q,d) , …, fN(q,d))

Базовые факторы –

420 (апрель 2010)
Производные факторы (произведения базовых факторов) – несколько тысяч


Слайд 4ФУНКЦИЯ РЕЛЕВАНТНОСТИ
Числовое соответствие документа запросу
Fr(q, d) = Fr(F(q,d)) = Fr(f1(q,d), …,

fN(q,d))

Метод построения функции релевантности в релизе «Снежинск»:
Жадный (greedy) алгоритм MatrixNet

Подробнее о MatrixNet:
http://company.yandex.ru/technology/matrixnet/


Слайд 5МАШИННОЕ ОБУЧЕНИЕ

Обучающие данные
(q(i), dj(i)),
i=1,…,n;
j=1,…m(n).
Определение значений факторов
Асессоры

Обучающий алгоритм



Ранжирующий алгоритм
F(q(i), dj(i))
Rel(q(i), dj(i))
Fr(F(q,d))
Тестовые

данные
(q, dj),
j=1,…,m

Fr(F(q, dj))

Определение значений факторов

F(q, dj)


Слайд 6РЕГИОНАЛЬНЫЕ ФОРМУЛЫ
Отдельные функции релевантности:
Москва
Санкт-Петербург + Екатеринбург + 16 городов России релиза

«Арзамас+16»: Новосибирск, Самара, Воронеж и др.
Украина
Белоруссия
Казахстан
Общероссийская + все остальные города России + остальные зарубежные страны + выдача без учета региона (Земля)


Слайд 7ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ
Запросные
длина запроса в словах;
коммерциолизированность запроса.

Текстовые
наличие точного вхождения запроса в

тексте документа;
наличие точного вхождения запроса в заголовке документа;
tf*idf;
различные модификации формулы Okapi_BM25.





Слайд 8ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ
Ссылочные статические
PageRank;
ТИЦ;
количество ссылок на документ.

Ссылочные динамические
процент ссылок на

документ, содержащих точное вхождение запроса;
tf*idf по текстам ссылок.



Слайд 9ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ
Свойства документа и сайта
это важный сайт (Wikipedia);
это главная страница

сайта;
порнографичность контента.

Антиспамовые
содержит ли попандеры или кликандеры;
естественность текста;
уникальность контента.



Слайд 10ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ
Поведенческие
посещаемость сайта;
кликабельность документа в выдаче.

Региональные
совпадение региона запроса и документа;
региональность

ссылок на документ;
употребление названия региона в тексте документа и в тексте ссылок на документ.


Слайд 11УЛУЧШЕНИЕ РЕГИОНАЛЬНЫХ ФАКТОРОВ РАНЖИРОВАНИЯ
Присвоение сайту данного региона
http://help.yandex.ru/webmaster/?id=1074582
Получение входящих ссылок с сайтов

данного региона
Употребление названия данного региона в тексте документа
Употребление названия данного региона в текстах входящих ссылок на документ

Слайд 12 Спасибо за внимание!

Для продолжения темы посетите www.webeffector.ru

115191, Россия, Москва,
ул. Б.

Тульская, д. 13, 4-й этаж ТЦ «Ереван Плаза»
Телефон: (495) 772-97-91 (многоканальный)


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика