Текстовое ранжирование презентация

Содержание

Что и для чего проходим? Текстовое ранжирование: TF/IDF, BM25, BM25f, LinkBM25 Частота и взвешивание терминов PageRank и ссылочное ранжирование HostRank, ТИЦ TrustRank Поведенческое ранжирование: поведенческие факторы,

Слайд 1
Ранжирование


Слайд 2Что и для чего проходим?
Текстовое ранжирование: TF/IDF, BM25, BM25f, LinkBM25

Частота и

взвешивание терминов

PageRank и ссылочное ранжирование

HostRank, ТИЦ

TrustRank


Поведенческое ранжирование: поведенческие факторы, паттерны поведения

BrowseRank

ClickRank



Слайд 3TF (term frequency — частота слова)


Слайд 4Задание 1
Задание: посчитайте TF для слова «купить» в тексте

“Влад давно собирался

купить новую Lada Vesta, но в итоге решил купить жене подарок”

Слайд 5IDF (Document Frequency)
инверсия частоты, с которой некоторое слово встречается в документах коллекции. 


Слайд 6IDF
DF = количество документов, в которых встречается слово / количество документов

в корпусе

IDF – обратное значение DF (1/DF)

Слайд 7IDF (Document Frequency)


Слайд 9Текстовое ранжирование: пассажи


Слайд 10Текстовое ранжирование: расчет веса словопозиций


Слайд 11Текстовое ранжирование: употребление частей речи


Слайд 12Текстовое ранжирование: контекстуальное сходство


Слайд 13Текстовое ранжирование: контрастность слова


Слайд 14TF (term frequency — частота слова)


Слайд 15TF (term frequency — частота слова)


Слайд 16TF (term frequency — частота слова)


Слайд 17TF (term frequency — частота слова)


Слайд 18TF-IDF - важность слова в документе

TF-IDF=TF*IDF


Слайд 19Задание #1 - cчитаем TF-IDF
1. Посчитать количество слов в каждом тексте.

2.

Посчитать кол-во вхождений каждого слова(!) в документ.

3. Определить общее кол-во документов в индексе поисковой системы.

4. Определить кол-во документов, содержащих каждое слово(!), в индексе поисковой системы.

5. Посчитать TF, DF IDF, TF-IDF

6. Посчитать вес запросов

Слайд 20Задание #1 - cчитаем TF-IDF
https://docs.google.com/spreadsheets/d/1pVC2EHYghvXcBc_cURuLXgvPnatr76hMDPqjOkpu1ts/edit?usp=sharing


Слайд 21PageRank (PR)


Слайд 22PageRank


Слайд 23Некоторые понятия PageRank


Слайд 24TF (term frequency — частота слова)


Слайд 251 итерация


Слайд 262 итерация


Слайд 27Обратная связь PageRank


Слайд 28Что влияет на PageRank
Кто на вас ссылается
На кого вы ссылаетесь
Навигация на

сайте


Слайд 29Задание
Вопрос: какая страница даст больше веса
- PageRank 4, 20 исходящих ссылок
-

PageRank 3, 1 исходящая ссылка


Слайд 30PageRank – архивные предсказания


Слайд 31Шаг 1


Слайд 32Шаг 2


Слайд 33Шаг 3


Слайд 34Шаг 4


Слайд 35Шаг 1


Слайд 36Шаг 2


Слайд 37Шаг 3


Слайд 38Шаг 4


Слайд 39PageRank


Слайд 40Иерархическая структура


Слайд 41Циклическая структура


Слайд 42Все на всех


Слайд 43Все на всех


Слайд 44Все на всех


Слайд 45Все на всех


Слайд 46Задание #1 - cчитаем PageRank


Слайд 47Изменения при итерациях


Слайд 48Задание: посчитайте сколько веса будет передано в 3 итерации
1.0
1.0
1.0
1.0
1.0


Слайд 49Обратная связь PageRank


Слайд 50Утверждения о PageRank
PR – это вероятность нахождения пользователя на заданной странице.


Слайд 51Алгоритм возврата: в случае наличия ссылки на штрафной документ, её голос

будет разделен между другими ссылками, а оставшееся значение будет возвращено страницам, которые вызвали увеличение её ранга, по итогам многочисленных итераций вес страницы уменьшиться

Утверждения о PageRank


Слайд 52Утверждения о PageRank
Если ссылок несколько: учитывается одна ссылка или все? В

Google учитывается первая по коду, в Яндексе все

Слайд 53Утверждения о PageRank
Коэффициент затухания: страница не может голосовать так, чтобы другая

страница была так же важна, как она сама

Слайд 54Утверждения о PageRank
Чем больше страниц в индексе, тем выше изначальный PageRank


Слайд 55Утверждения о PageRank
PageRank не зависит от содержания страницы, возраста документа и

текста ссылки

Слайд 56Утверждения о PageRank
Google объявил, что прекратит отображение тулбарного PageRank, так что

узнать PageRank конкретной страницы будет нельзя

Слайд 57Утверждения о PageRank
Как влиять на ранжирование с помощью PageRank? Об этом

на модуле «Поисковое продвижение».

Слайд 58Все на всех


Слайд 59Вес на главную


Слайд 60Вес на карточки


Слайд 61PageRank (равномерная перелинковка)


Слайд 62Задачи ПС:
тИЦ


Слайд 63Утверждения о PageRank
тИЦ – это PageRank, присвоенный домену


Слайд 64Утверждения о PageRank
Тематический индекс цитирования (тИЦ) — технология поисковой машины «Яндекс»,

заключающаяся в определении авторитетности интернет-ресурсов с учётом качественной характеристики — ссылок на них с других сайтов. ТИЦ рассчитывается по специально разработанному алгоритму, в котором особое значение придаётся тематической близости ресурса и ссылающихся на него сайтов.

Слайд 65Утверждения о PageRank
При расчете алгоритмом тИЦ не учитываются ссылки с форумов,

блогов, досок объявлений, каталогов без модерации и других ресурсов, на которых любой пользователь может добавлять ссылки, которые никак не модерируются на сайте. Также при расчете тИЦ не учитываются ссылки с сайтов, расположенных на бесплатных хостингах, если их нет в Яндекс.Каталоге. Т.е. описанные выше ссылки при расчете весов алгоритмом Яндекса имеют значения нуль.

Слайд 66Утверждения о PageRank
Влияет ли тИЦ на ранжирование?
тИЦ 10
тИЦ 180


Слайд 67TrustRunk


Слайд 68TrustRank
TrustRank — показатель авторитетность сайта. Передается за счёт ссылок с самых авторитетных

сайтов, выбранных вручную. Не зависит от тематики сайта.
Невозможно достоверно проверить TrustRank сайта.
Можно по косвенным признакам определить сайты, которые с высокой вероятностью раздают TrustRank
Документы на «Трастовых» сайтах выше ранжируются

Слайд 69TrustRank
У этого сайта с TrustRank всё в порядке


Слайд 70TrustRank


Слайд 71Задание #2
Задание #2 – назовите 5 авторитетных сайтов, которые, по-вашему

мнению, могут передать TrustRank TrustRank

Слайд 72ПФ: BrowseRank


Слайд 73BrowseRank
В алгоритме BrowseRank голосующую способность имеют не ссылки, а поведение пользователейTrustRank


Слайд 74BrowseRank оперирует
1. Надстройки для браузеров
2. Метрику (Яндекс.Метрика, Google Analytics и др.)
3.

Специализированные браузеры (Chrome, Яндекс.Браузер)

Слайд 75BrowseRank оперирует


Слайд 76User1
User2
User3
User4


Слайд 77BrowseRank


Слайд 78Модификации:
ClickRank
Fresh BrowseRank


Слайд 79Fresh BrowseRank
Более новые страницы, вероятно, более релевантны запросам, чувствительным к новизне, чем

старые страницы и, как следствие, временная характеристика релевантности документа позволяет провести более чёткое разграничение между релевантными и нерелевантными документами.

Слайд 80Fresh BrowseRank


Слайд 81ПФ: pFound


Слайд 82pFound – вероятность перехода на сайт
pRel - релевантность i-того документа (принимает

значение 0.4, если асессор пометил документ как релевантный)
pLook - вероятность просмотра i-того документа в выдаче

Слайд 83pFound – вероятность перехода на сайт
pRel - релевантность i-того документа (принимает

значение 0.4, если асессор пометил документ как релевантный)
pLook - вероятность просмотра i-того документа в выдаче
pBreak - вероятность того, что пользователь прекратит просмотр по каким-то внешним причинам. Принимается равной 0.15.
Хотя в статье об этом и не сказано, очевидно, что pLook(1) должен быть равен 1.

Слайд 84ПФ: паттерны поведения


Слайд 85Дерево маршрута


Слайд 86Паттерны поведения

Характеристики дерева маршрута


Слайд 87Характеристики дерева маршрута


Слайд 88Характеристики дерева маршрута


Слайд 89Поведение пользователей


Слайд 90Классификация текстов и запросов


Слайд 91Тематическая классификация
К каким категориям отнести документ?


Слайд 92Машинное обучение
Тематическая классификация


Слайд 93



F3












F7 > 2
F3 > 2
F3 > 1
2
1
4
3

Деревья вариантов


Слайд 94Инструкция
Алгоритмы
Машинное обучение


Слайд 95Асессоры


Слайд 96Асессоры


Слайд 97Асессоры


Слайд 98A/B тестирование


Слайд 99Апдейты


Слайд 100Апдейты











Слайд 102Okapi BM25 — функция ранжирования


Слайд 103Модификации BM25
BM11, BM15

BM25F

LinkBM25


Слайд 104Домашнее задание
Изучите описание алгоритмов:
PageRank - http://digits.ru/articles/promotion/pagerank.html
BrowseRank - http://seo.wikimart.ru/введение-в-browserank/
TrustRank - http://www.optimization.ru/subscribe/165.html
pFound - http://romip.ru/romip2009/15_yandex.pdf

2. Найдите самостоятельно материалы,

изучите и опубликуйте ссылки:
HITS
SEOlink, SEOtext, SEOin, SEOout

3.* Рассчитайте BM25 для анкор-листа, следуя инструкции http://habrahabr.ru/post/162937/

4. Ответьте на вопросы, используя поисковые системы: 
Какие апдейты бывают в Яндексе, как часто? Какие апдейты бывают в Google, как часто?
По каким признакам поисковая система может распознать, что сайт удовлетворил ожидания пользователя?
Что пользователь не смог найти решение своей потребности?


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика