Особенности регионального ранжирования Яндекса. Украинская формула презентация

ТЕКУЩИЙ АЛГОРИТМ. МАШИННОЕ ОБУЧЕНИЕ Обучающие данные Набор запросов q(i) Набор документов dj(i) для каждого запроса q(i) Rel(q(i), dj(i)) - ручная оценка соответствия документа запросу Конкурс «Интернет-математика –

Слайд 1Особенности регионального ранжирования Яндекса. Украинская формула
Сергей ЛЮДКЕВИЧ, начальник отдела исследований и

аналитики

Слайд 2ТЕКУЩИЙ АЛГОРИТМ. МАШИННОЕ ОБУЧЕНИЕ
Обучающие данные
Набор запросов q(i)
Набор документов dj(i) для

каждого запроса q(i)

Rel(q(i), dj(i)) - ручная оценка соответствия документа запросу

Конкурс «Интернет-математика – 2009»:
Rel(q, d) - значения из диапазона [0, 4]
(4 – «высокая релевантность»,…, 0 – «нерелевантно»)


Слайд 3ФАКТОРЫ РАНЖИРОВАНИЯ
Набор факторов ранжирования
F = (f1(q,d) , …, fN(q,d))

Конкурс «Интернет-математика –

2009»:
N=245
«Яндекс на РОМИП’2009»:
N=163
(коллекция BY.WEB);
N=69
(коллекция KM.RU, без ссылочных факторов)

Слайд 4ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ
Запросные
длина документа в словах;
язык запроса.

Текстовые
наличие точного вхождения запроса в

тексте документа;
наличие точного вхождения запроса в заголовке документа;
tf*idf;
различные модификации формулы Okapi_BM25.




Слайд 5ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ
Ссылочные
PageRank;
логарифм количества ссылок на документ;
процент ссылок на документ,

содержащих точное вхождение запроса.

Географические
регион сайта;
язык документа.

Слайд 6ФУНКЦИЯ РЕЛЕВАНТНОСТИ
Числовое соответствие документа запросу
Fr(q, d) = Fr(F(q,d)) = Fr(f1(q,d), …,

fN(q,d))
Построение функции релевантности с помощью генетических алгоритмов:
1. Выбор метрики
(«Яндекс на РОМИП’2009»: pfound – максимизация вероятности найти релевантный результат)
2. Подбор вида функции
(«Яндекс на РОМИП’2009»: полином ∑aIf1i1 f2i2… fNiN )
3. Подбор коэффициентов



Слайд 7СХЕМА ОБУЧАЮЩЕГО АЛГОРИТМА
Обучающие данные
(q(i), dj(i)),
i=1,…,n;
j=1,…m(n).
Определение значений факторов
Асессоры

Обучающий алгоритм



Ранжирующий алгоритм
F(q(i), dj(i))
Rel(q(i), dj(i))
Fr(F(q,d))
Тестовые

данные
(q, dj),
j=1,…,m

Fr(F(q, dj))

Определение значений факторов

F(q, dj)


Слайд 8РЕГИОНАЛЬНЫЕ ФОРМУЛЫ
Отдельные функции релевантности:

19 городов России: Москва, Санкт-Петербург, Екатеринбург, Новосибирск и

др.
Общероссийская
Украина
Белоруссия
Казахстан

Отличаться могут не только коэффициенты, но и сам вид функций!


Слайд 9ИССЛЕДОВАНИЕ ФУНКЦИИ РЕЛЕВАНТНОСТИ
Постановка эксперимента
Выбор исследуемого фактора
Генерация тестовых коллекций
Варьирование исследуемого фактора
Фиксация остальных

факторов
Индексация тестовых коллекций
Анализ результатов
Принятие решения о характере влияния исследуемого фактора на функцию релевантности

Слайд 10УКРАИНСКАЯ ФОРМУЛА
Фактор: Количество употреблений термина запроса (tf)
Характер зависимости: Прямая

Фактор: Длина документа

в словах
Характер зависимости: Обратная

Фактор: Количество употреблений самого частотного термина
Характер зависимости: Обратная


Слайд 11Спасибо за внимание!

Пожалуйста, задавайте вопросы



Для продолжения темы посетите





Корпорация РБС
115191, Россия, Москва,
ул.

Б. Тульская, д. 13, 4-й этаж ТЦ «Ереван Плаза»
Телефон: (495) 772-97-91 (многоканальный)
ICQ-консультант: 377-169-437
http://rbsgroup.ruhttp://rbsgroup.ru | http://bdbd.ruhttp://rbsgroup.ru | http://bdbd.ru | http://mediaguru.ruhttp://rbsgroup.ru | http://bdbd.ru | http://mediaguru.ru | http://webvisor.ru


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика