Слайд 2Что и для чего проходим?
Текстовое ранжирование: TF/IDF, BM25, BM25f, LinkBM25
Частота и
взвешивание терминов
PageRank и ссылочное ранжирование
HostRank, ТИЦ
TrustRank
Поведенческое ранжирование: поведенческие факторы, паттерны поведения
BrowseRank
ClickRank
Слайд 3TF (term frequency — частота слова)
Слайд 4Задание 1
Задание: посчитайте TF для слова «купить» в тексте
“Влад давно собирался
купить новую Lada Vesta, но в итоге решил купить жене подарок”
Слайд 5IDF (Document Frequency)
инверсия частоты, с которой некоторое слово встречается в документах коллекции.
Слайд 6IDF
DF = количество документов, в которых встречается слово / количество документов
в корпусе
IDF – обратное значение DF (1/DF)
Слайд 9Текстовое ранжирование: пассажи
Слайд 10Текстовое ранжирование: расчет веса словопозиций
Слайд 11Текстовое ранжирование: употребление частей речи
Слайд 12Текстовое ранжирование: контекстуальное сходство
Слайд 13Текстовое ранжирование: контрастность слова
Слайд 14TF (term frequency — частота слова)
Слайд 15TF (term frequency — частота слова)
Слайд 16TF (term frequency — частота слова)
Слайд 17TF (term frequency — частота слова)
Слайд 18TF-IDF - важность слова в документе
TF-IDF=TF*IDF
Слайд 19Задание #1 - cчитаем TF-IDF
1. Посчитать количество слов в каждом тексте.
2.
Посчитать кол-во вхождений каждого слова(!) в документ.
3. Определить общее кол-во документов в индексе поисковой системы.
4. Определить кол-во документов, содержащих каждое слово(!), в индексе поисковой системы.
5. Посчитать TF, DF IDF, TF-IDF
6. Посчитать вес запросов
Слайд 20Задание #1 - cчитаем TF-IDF
https://docs.google.com/spreadsheets/d/1pVC2EHYghvXcBc_cURuLXgvPnatr76hMDPqjOkpu1ts/edit?usp=sharing
Слайд 24TF (term frequency — частота слова)
Слайд 28Что влияет на PageRank
Кто на вас ссылается
На кого вы ссылаетесь
Навигация на
сайте
Слайд 29Задание
Вопрос: какая страница даст больше веса
- PageRank 4, 20 исходящих ссылок
-
PageRank 3, 1 исходящая ссылка
Слайд 30PageRank – архивные предсказания
Слайд 48Задание: посчитайте сколько веса будет передано в 3 итерации
1.0
1.0
1.0
1.0
1.0
Слайд 50Утверждения о PageRank
PR – это вероятность нахождения пользователя на заданной странице.
Слайд 51Алгоритм возврата: в случае наличия ссылки на штрафной документ, её голос
будет разделен между другими ссылками, а оставшееся значение будет возвращено страницам, которые вызвали увеличение её ранга, по итогам многочисленных итераций вес страницы уменьшиться
Утверждения о PageRank
Слайд 52Утверждения о PageRank
Если ссылок несколько: учитывается одна ссылка или все? В
Google учитывается первая по коду, в Яндексе все
Слайд 53Утверждения о PageRank
Коэффициент затухания: страница не может голосовать так, чтобы другая
страница была так же важна, как она сама
Слайд 54Утверждения о PageRank
Чем больше страниц в индексе, тем выше изначальный PageRank
Слайд 55Утверждения о PageRank
PageRank не зависит от содержания страницы, возраста документа и
текста ссылки
Слайд 56Утверждения о PageRank
Google объявил, что прекратит отображение тулбарного PageRank, так что
узнать PageRank конкретной страницы будет нельзя
Слайд 57Утверждения о PageRank
Как влиять на ранжирование с помощью PageRank? Об этом
на модуле «Поисковое продвижение».
Слайд 61PageRank (равномерная перелинковка)
Слайд 63Утверждения о PageRank
тИЦ – это PageRank, присвоенный домену
Слайд 64Утверждения о PageRank
Тематический индекс цитирования (тИЦ) — технология поисковой машины «Яндекс»,
заключающаяся в определении авторитетности интернет-ресурсов с учётом качественной характеристики — ссылок на них с других сайтов. ТИЦ рассчитывается по специально разработанному алгоритму, в котором особое значение придаётся тематической близости ресурса и ссылающихся на него сайтов.
Слайд 65Утверждения о PageRank
При расчете алгоритмом тИЦ не учитываются ссылки с форумов,
блогов, досок объявлений, каталогов без модерации и других ресурсов, на которых любой пользователь может добавлять ссылки, которые никак не модерируются на сайте. Также при расчете тИЦ не учитываются ссылки с сайтов, расположенных на бесплатных хостингах, если их нет в Яндекс.Каталоге. Т.е. описанные выше ссылки при расчете весов алгоритмом Яндекса имеют значения нуль.
Слайд 66Утверждения о PageRank
Влияет ли тИЦ на ранжирование?
тИЦ 10
тИЦ 180
Слайд 68TrustRank
TrustRank — показатель авторитетность сайта. Передается за счёт ссылок с самых авторитетных
сайтов, выбранных вручную. Не зависит от тематики сайта.
Невозможно достоверно проверить TrustRank сайта.
Можно по косвенным признакам определить сайты, которые с высокой вероятностью раздают TrustRank
Документы на «Трастовых» сайтах выше ранжируются
Слайд 69TrustRank
У этого сайта с TrustRank всё в порядке
Слайд 71Задание #2
Задание #2 – назовите 5 авторитетных сайтов, которые, по-вашему
мнению, могут передать TrustRank TrustRank
Слайд 73BrowseRank
В алгоритме BrowseRank голосующую способность имеют не ссылки, а поведение пользователейTrustRank
Слайд 74BrowseRank оперирует
1. Надстройки для браузеров
2. Метрику (Яндекс.Метрика, Google Analytics и др.)
3.
Специализированные браузеры (Chrome, Яндекс.Браузер)
Слайд 78Модификации:
ClickRank
Fresh BrowseRank
Слайд 79Fresh BrowseRank
Более новые страницы, вероятно, более релевантны запросам, чувствительным к новизне, чем
старые страницы и, как следствие, временная характеристика релевантности документа позволяет провести более чёткое разграничение между релевантными и нерелевантными документами.
Слайд 82pFound – вероятность перехода на сайт
pRel - релевантность i-того документа (принимает
значение 0.4, если асессор пометил документ как релевантный)
pLook - вероятность просмотра i-того документа в выдаче
Слайд 83pFound – вероятность перехода на сайт
pRel - релевантность i-того документа (принимает
значение 0.4, если асессор пометил документ как релевантный)
pLook - вероятность просмотра i-того документа в выдаче
pBreak - вероятность того, что пользователь прекратит просмотр по каким-то внешним причинам. Принимается равной 0.15.
Хотя в статье об этом и не сказано, очевидно, что pLook(1) должен быть равен 1.
Слайд 86Паттерны поведения
Характеристики дерева маршрута
Слайд 90Классификация текстов и запросов
Слайд 91Тематическая классификация
К каким категориям отнести документ?
Слайд 92Машинное обучение
Тематическая классификация
Слайд 93
F3
F7 > 2
F3 > 2
F3 > 1
2
1
4
3
Деревья вариантов
Слайд 94Инструкция
Алгоритмы
Машинное обучение
Слайд 103Модификации BM25
BM11, BM15
BM25F
LinkBM25
Слайд 104Домашнее задание
Изучите описание алгоритмов:
PageRank - http://digits.ru/articles/promotion/pagerank.html
BrowseRank - http://seo.wikimart.ru/введение-в-browserank/
TrustRank - http://www.optimization.ru/subscribe/165.html
pFound - http://romip.ru/romip2009/15_yandex.pdf
2. Найдите самостоятельно материалы,
изучите и опубликуйте ссылки:
HITS
SEOlink, SEOtext, SEOin, SEOout
3.* Рассчитайте BM25 для анкор-листа, следуя инструкции http://habrahabr.ru/post/162937/
4. Ответьте на вопросы, используя поисковые системы:
Какие апдейты бывают в Яндексе, как часто? Какие апдейты бывают в Google, как часто?
По каким признакам поисковая система может распознать, что сайт удовлетворил ожидания пользователя?
Что пользователь не смог найти решение своей потребности?