Технология разработки программного обеспечения(вторая часть)Поведенческие шаблоны проектирования ПО презентация

Содержание

Web Mining — технология, использующая методы Data Mining для исследования и извлечения информации из Web-документов и сервисов 1.1. Проблемы анализа информации из Web Поиск значимой информации; Создание новых знаний

Слайд 1«Извлечение знаний из Web — Web Mining»


Слайд 2Web Mining — технология, использующая методы Data Mining для исследования и

извлечения информации из Web-документов и сервисов 1.1. Проблемы анализа информации из Web

Поиск значимой информации;
Создание новых знаний вне информации, доступной на Web;
Персонализация информации;
Изучение потребителя или индивидуального пользователя.


Слайд 31.2. Этапы Web Mining
Выделяют следующие этапы:

Поиск ресурсов — локализация неизвестных документов

и сервисов в Web.
Извлечение информации — автоматическое извлечение определенной информации из найденных Web-ресурсов.
Обобщение — обнаружение общих шаблонов в отдельных и пересекающихся множествах сайтов.
Анализ — интерпретация найденных шаблонов.

Слайд 41.4. Категории Web Mining
В области Web Mining выделяют следующие направления анализа:
Извлечение

Web-контента (Web Content Mining);.
Извлечение Web-структур (Web Structure Mining);
Исследование использования Web-ресурсов (Web Usage Mining).

Слайд 5Таблица 1 . Классификация задач Web Mining


Слайд 6Извлечение Web-контента Способы представления документа:
К неструктурированному типу относятся все текстовые документы,

не имеющие определенной структуры;
К почти структурированным относятся документы, имеющие структуру в целом, но позволяющую вхождение в структурный элемент неструктурированного текста. К таким документам относятся HTML, XML и другие.



Слайд 7 Каждому слову во множестве неструктурированного текста ставится в

соответствие некоторое свойство. Данное свойство может иметь или логический тип, отражающий наличие или отсутствие слова в тексте, или числовое значение, отражающее частоту появления слова в тексте. Последующая обработка может быть связана с удалением пунктуации, нечастых слов, стоп-слов и др. Уменьшение числа свойств возможно за счет применения различных методов выбора свойств, основанных на расчете следующих метрик:
информационного прироста (information gain);.
полного количества информации (mutual information);
перекрестной энтропии (cross entropy);
вероятности успешного исхода (odds-ration).

Слайд 8Если же неструктурированный текст представлен в виде вектора слов, то нужно

отметить что векторное представление документов имеет существенный недостаток: оно не обрабатывает синонимы — документы считаются семантически далекими друг от друга, если в них нет одинаковых слов. Данный недостаток устраняется методом скрытой семантической индексации (Latent Semantic Indexing — LSI).

Слайд 9Кроме представления документа в виде вектора слов, возможны и другие представления:

использующие

информацию о позиции слова в документе;
использующие n-граммное представление (последовательности слов длины вплоть до n) (например, "морфологический корень" — 3-грамма);
использующие целые фразы (например, "быстрая лиса исчезла из вида");
использующие понятие документа категорий;
использующие термины (например, "норма годового процента" или "Уолл-стрит");
использующие гипернимы (hypernym — слово, являющееся более общим, абстрактным по отношению к данному) (лингвистический термин отношения "это есть" — "собака есть животное", поэтому "животное" — это hypernym "собаки");
использующие адресные объекты (например, имена людей, даты, почтовые адреса, расположения, организации или URL).

Слайд 10 В силу схожести задачи извлечения Web-контента с задачами Text Mining

для ее решения используются такие же методы. Отдельно стоит остановиться на задаче определения событий и трекинге. Данная задача является частной задачей более широкого направления автоматизированной обработки новостных данных — Topic Detection and Tracking.

В TDT выделяют следующие направления исследований:
разбиение потока на сюжеты;
идентификация новых событий;
определение связей между новостными историями;
отслеживание интересующей пользователя информации.


Слайд 11Слабоструктурированные документы Как и в случае с неструктурированными документами, к полученным представлениям

применяются общие методы Data Mining.

Область применения методов довольно широка:

гипертекстовая классификация;
классификации и кластеризации;
изучение отношений между Web-документами;
извлечение шаблонов или правила;
поиск шаблонов и слабоструктурированных данных.


Слайд 12Таблица 2 . Методы извлечения Web-контента из неструктурированных документов в целях

информационного поиска

Слайд 13Таблица 2 . (продолжение)


Слайд 14Таблица 2 . (окончание)


Слайд 15Таблица 3. Методы извлечения Web-контента из слабоструктурированных документов в целях информационного поиска


Слайд 162.2. Извлечение Web-контента для формирования баз данных
Из табл.4 можно видеть, что

методы извлечения Web-контента для целей базы данных используют представления, которые отличаются от представлений, используемых для целей информационного поиска. Данные методы в основном используют представления в виде модели объектного обмена (Object Exchange Model — OEM).
В большинстве своем рассмотренные методы применяются в задачах, связанных с выявлением, исследованием или формированием схем DataGuides.

Слайд 17Таблица 4 . Методы извлечения Web-контента из слабоструктурированных документов в сохранения в

базе данных

Слайд 18DataGuide — сжатый вид схемы слабоструктурированных данных. Для практического применения и

из-за сложности вычислений DataGuide часто аппроксимируется. Некоторые приложения не решают задачу поиска глобальной схемы, они концентрируются на задачах поиска подсхем в слабоструктурированных данных. Другое применение методов данной категории Web Mining — это формирование многослойной базы данных (MLDB), в которой каждый уровень создается обобщением низших уровней и использует специальный язык запросов для Web Mining, чтобы извлекать некоторые знания из MLDB.

Слайд 193.1. Извлечение Web-структур В задаче извлечения Web-структур, прежде всего, интерес вызывает

структура гиперссылок в пределах Web-сети. Требуется представление документов и отношений между ними, учитывающее гиперссылки.

Гиперссылки моделируются с разным уровнем детализации в зависимости от применения модели. В простейших моделях гиперссылки могут быть представлены как направленный граф:
G = (D, L),
где D — это набор узлов, документов или страниц,
L — набор ссылок.


Слайд 20Можно выделить три основные задачи, которые могут быть решены на основании

анализа Web-структуры:

Оценка важности структуры Web (документа или узла), воздействие и влияние их друг на друга;
Поиск Web-документов с учетом гиперссылок, содержащихся в них;
Кластеризация структур для их возможного явного объединения.


Слайд 213.2. Оценка важности Web-структур Л. Катц (L. Katz.) предложил для вычисления

значимости Web-структур использовать пути, основанные на входящих ссылках. В соответствии с этой идеей количество путей длиной r от узла i к j обозначается rij. Общее количество путей разной длины вычисляется по формуле: Qij = , величина < 0 должна выбираться таким образом, чтобы обеспечить сходимость формулы для каждой пары. Значимость узла j вычисляется как сумма количеств путей от всех узлов: s j =





Слайд 22 В матричной форме вычисление значимости каждого узла может быть записано

в виде: S = (I - bA)-1 - I , где I — единичная матрица; A — матрица, содержащая веса связей между узлами.





Слайд 23Для определения значимости влияния и воздействия Web-структур широко используются метрики, применяемые

для ранжирования найденных документов в поисковых системах. Так, широкое применение в данной категории задачи Web Mining нашла метрика, используемая поисковой системой Google—PageRank. PageRank — статическая величина, предназначенная для оценки качества страниц на основании информации о количестве ссылок на нее.





Слайд 24Вероятность нахождения пользователя на странице p можно вычислить по следующей формуле:

R i+1 (p) = d + (1 - d) Rj (pi) / Сj(pi), где R( p) — PageRank страницы; C( p) — число исходящих ссылок на странице; k — число ссылающихся на p страниц; d — коэффициент затухания (damping factor), обычно 0,1< d < 0,15 . Если масштабировать PageRank таким образом, что R (pi) = 1, где N — число всех страниц, для которых производится расчет PageRank, то R( p) можно рассматривать как распределение вероятности по всем страницам.






Слайд 25Для вычисления PageRank составляется матрица M размером N × N ,

где каждому элементу mij матрицы присваивается значение R0( p) =1/ C( p) в том случае, если с i -й страницы имеется ссылка на j -ю, все оставшиеся элементы матрицы заполняются нулями. Таким образом, вычисление PageRank сводится к отысканию собственного вектора матрицы M , что достигается умножением матрицы M на вектор Rj на каждом шаге итерации. Введение коэффициента затухания гарантирует, что процесс сходится. Другой популярной метрикой определения важности Web-страницы является HITS (Hyperlink-Induced Topic Search). HITS вычисляется локально для каждого запроса.






Слайд 263.3. Поиск Web-документов с учетом гиперссылок Для поиска Web-страниц применяется алгоритм Мархиори

(Marchiori's) HyperSearch. В нем значение релевантности для страницы p вычисляется методом, который включает релевантность страниц, достижимых из p . При этом зависимость от релевантности достижимой страницы уменьшается за счет коэффициента затухания, уменьшенного экспоненциально с увеличением расстояния от страницы p .





Слайд 27 Другим направлением работ, использующим гиперссылки для улучшения результатов поиска, является создание

поискового формализма, который будет способен обрабатывать запросы, включающие предикаты текста и ссылок. Ароцена (Arocena), Менделзон (Mendelzon) и Михаила (Mihaila) разработали структуру, поддерживающую Web-запросы, которые комбинируют стандартные ключевые слова с условиями структуры окружающей ссылки.






Слайд 283.3. Кластеризация Web-структур
Для кластеризации применительно к Web-документам используются две функции

подобия из библиометрики, вычисляемых для каждой пары документов p и q :
библиографическая связанность (bibliographic coupling) — количество документов, цитируемых обоими документами p и q ;
взаимное цитирование (co-citation) — количество документов, которые цитируют оба документа p и q.

Слайд 294. Исследование использования Web-ресурсов
Процесс исследование использования Web-ресурсов обычно включает в себя

только три фазы:
Препроцессинг;
Извлечение шаблонов;
Анализ шаблонов.

Слайд 30Выделяют следующие типы данных, применяемые в задаче исследования использования Web-ресурсов:
использование —

данные, которые описывают использование страниц, такие как IP-адреса, ссылки на страницы, а также дату и время доступа к ним;
пользовательские профили — данные, которые обеспечивают демографическую информацию (пол, возраст, социальное положение и др.) о пользователе, а также регистрационную информацию.


Слайд 314. 2 Этап препроцессинга
После того как ресурсы найдены, из них должна

быть извлечена информация, подвергаемая анализу. Этот этап называют препроцессинг, т. к. он заключается в подготовке найденных ресурсов непосредственно к анализу.

Слайд 32Таблица 5 . Пример серверного лога


Слайд 33В табл. 5 приведен пример серверного лога (первая колонка добавлена для

удобства), на котором можно увидеть проблемы. IP-адрес 123.456.78.9 относится к трем серверным сессиям. Адреса 209.456.78.2 и 209.45.78.3 относятся к одной — четвертой сессии. Выделение 3-х сессий для одного адреса (с 1-й по 11-ю строку таблицы) возможно на основании совместно используемой информации о ссылке, по которой произошел переход с предыдущей страницы, и агенте.
В данном примере без использования информации о куки-файлах, встроенной в запрос ID сессии, или информации со стороны клиента не удастся определить, что строки 12 и 13 принадлежат одной сессии, т. к. они различаются IP-адресами

Слайд 344. 3 Этап извлечения шаблонов
Для извлечения шаблонов из информации об использовании

Web-ресурсов применяются различные методы как классической статистики, так и относящиеся к области Data Mining.
Многие инструменты анализа трафика позволяют получить такие характеристики, как наиболее часто посещаемые страницы, среднее время посещения страниц или средняя длина пути перемещения по страницам.
Так, например, может быть построена модель зависимости между этапами, которые проходит посетитель, и фактом совершения покупки в интернет-магазине (т. е. модель, отличающая случайного посетителя от потенциального покупателя). Существует несколько вероятностных методов обучения модели, которые могут быть использованы для построения модели поведения пользователя при просмотре Web, включая скрытые модели Маркова (Hidden Markov Models) и Байесовские сети доверия (Bayesian BeliefNetworks).

Слайд 354. 4 Этап анализа шаблонов и их применение
Более общей формой анализа

шаблонов является механизм запроса знаний, такой как SQL. Другой метод заключается в загрузке данных в куб данных для применения к нему OLAP-операций.
Методы визуализации, такие как раскрашивание или графическое изображение шаблонов, могут выделять характерные шаблоны или тренды в данных.

Слайд 36Классификация существующих систем анализа использования Web-ресурсов выполняется по пяти характеристикам:
источнику данных:

сторона сервера, сторона клиента и прокси;
типу данных: структуры, контент и информация об использовании;
количеству пользователей: однопользовательские и многопользовательские;
количеству сайтов: один или множество сайтов;
области применения.


Слайд 37Выделяют следующие области применения систем анализа использования Web-ресурсов:
Персонализация (Personalization);
Улучшение систем (System

Improvement);
Модификация сайтов (Site Modification);
Бизнес-интеллект (Business Intelligence);


Слайд 38ВЫВОДЫ:
Web Mining включает в себя этапы: поиск ресурсов, извлечение информации, обобщение

и анализ;
Различают следующие категории задач Web Mining: извлечение Web-контента, извлечение Web-структур и исследование использования Web-ресурсов;
В решении задачи извлечения структуры Web используются подходы из области социальных сетей, библиометрики, ранжирования документов и т. п.
Существуют два основных подхода анализа использования Web-ресурсов: преобразование данных использования Web-сервера в реляционные таблицы до выполнения адаптированных методов Data Mining и использование информации из файла протокола непосредственно, применяя специальные методы предварительной обработки.

Слайд 39

Вопрос 1. Расположите по порядку следующие этапы Web Mining: извлечение информации, поиск ресурсов, обобщение и анализ

1. Поиск ресурсов;
2. Извлечение информации;
3. Обобщение и анализ.


Слайд 40

Вопрос 2. Представлены следующие категории Web Mining. Выберите лишнее.

извлечение Web-контента;
извлечение Web-структур;
исследование использования Web-ресурсов;
создание запросов для БД.


Слайд 41

Вопрос 3. Какого типа данные рассматриваются в категории «Извлечение Web-контента»?

неструктурированные и слабоструктурированные Web-документы;
Структуры ссылок;
IP-адреса, URL и а также дату и время доступа к ним.


Слайд 42

Вопрос 4. Для построения модели поведения пользователя, при просмотре Web, используются вероятностные методы. Какой из этих методов не может быть использован?

Скрытые модели Маркова (Hidden Markov Models);
Байесовские сети доверия (Bayesian Belief Networks);
Деревья решений.


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика