Методы определения семантической близости документов презентация

Содержание

Области применения: Текстовый поиск в интернете. Поиск «близких» документов. Классификация текстов. Устранение многозначности.

Слайд 1Методы определения семантической близости документов


Слайд 2Области применения:
Текстовый поиск в интернете.
Поиск «близких» документов.
Классификация текстов.
Устранение многозначности.


Слайд 3Методы:
По тексту
По связям


Слайд 4Методы:
По тексту
По связям


Слайд 5

Латентно-семантический анализ


Слайд 6

Задача: кластеризовать новости по заголовкам.


Слайд 7Британская полиция знает о местонахождении основателя WikiLeaks

В суде США начинается процесс

против россиянина, рассылавшего спам

Церемонию вручения Нобелевской премии мира бойкотируют 19 стран

В Великобритании арестован основатель Wikileaks Джулиан Ассандж

Украина игнорирует церемонию вручения Нобелевской премии

Шведский суд отказался рассматривать апелляцию основателя Wikileaks

НАТО и США разработали планы обороны стран Балтии против России

Полиция Великобритании нашла основателя WikiLeaks, но, не арестовала

В Стокгольме и Осло сегодня состоится вручение Нобелевских премий

Слайд 8Подготовка:
Удаление стоп-слов
Стемминг
Удаление слов в единст- венном экземпляре


Слайд 9Британская полиция знает о местонахождении основателя WikiLeaks

В суде США начинается процесс

против россиянина, рассылавшего спам

Церемонию вручения Нобелевской премии мира бойкотируют 19 стран

В Великобритании арестован основатель Wikileaks Джулиан Ассандж

Украина игнорирует церемонию вручения Нобелевской премии

Шведский суд отказался рассматривать апелляцию основателя Wikileaks

НАТО и США разработали планы обороны стран Балтии против России

Полиция Великобритании нашла основателя WikiLeaks, но, не арестовала

В Стокгольме и Осло сегодня состоится вручение Нобелевских премий

Слайд 10Считаем количество раз вхождения каждого слова в документы и заносим в

матрицу.

Слайд 12Сингулярное разложение матрицы:
M = U*W*Vt
U и Vt – ортогональные
W – диагональная

(элементы в порядке неубывания)

Слайд 14Строки и столбцы с меньшим сингулярным числом дают меньший вклад в

произведение.
Оставим только 2 самых весомых.

Слайд 17Методы:
По тексту
По связям


Слайд 18Методы, использующие связи: абстрагируемся от текста, важны только связи между документами.


Унификация.

Слайд 19
Локальные
Глобальные


Слайд 20
Локальные
Глобальные


Слайд 21Локальные: близость определяется для пары вершин и не затрагивает большинство вершин.


Слайд 22Ближайшие соседи:


Слайд 23N(a) – множество ближайших соседей узла a


Слайд 24Коэффициент Жаккара:
Коэффициент Дайса:
СимКос:


Слайд 25Для направленных графов:
Со-цитирование
Библиографическое сочетание


Слайд 26
Локальные
Глобальные


Слайд 27Глобальные: вычисляют близость между всеми вершинами графа.


Слайд 28SimRank: два объекта похожи, если на них ссылаются похожие объекты
C –

коэффициент затухания.

Слайд 29Метод итеративен.


Слайд 30Затраты времени и памяти.
Базовый подход.
O(n2) памяти.
O(Kn2d2) времени, где:
K – количество

итераций
d2 – среднее значение |I(a)||I(b)| по всем (a, b)

Слайд 31Затраты времени и памяти.
Улучшенный подход: рассматриваем только близкие вершины в графе.
Пусть

r – радиус в котором рассматриваются соседи.
dr – среднее количество соседей в r.
O(drn) памяти
O(Kndrd2) времени

Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика