Технологии обработки информации. Лекция 4. Технологии OLAP и Data Mining презентация

Содержание

Содержание Пример куба Основные понятия кубов Технология (процесс) добычи знаний Решаемые задачи Математические основы (РАД)

Слайд 1Технологии обработки информации. Лекция 4. Технологии OLAP и Data Mining
Антон Викторович

Кудинов,
доцент кафедры ВТ

Слайд 2Содержание
Пример куба
Основные понятия кубов
Технология (процесс) добычи знаний
Решаемые задачи
Математические основы (РАД)



Слайд 3OLAP
OLAP (англ. online analytical processing, оперативная аналитическая обработка) — технология обработки

данных, заключающаяся в подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу
Агрегатные функции образуют многомерный (и, следовательно, нереляционный) набор данных (называемый гиперкубом или метакубом), оси которого содержат параметры, а ячейки — зависящие от них агрегатные данные. Вдоль каждой оси данные могут быть организованы в виде иерархии, представляющей различные уровни их детализации


Слайд 4OLAP: Тест FASMI
FASMI – Fast Analysis of Shared Multidimensional Information —

Быстрый анализ разделяемой многомерной информации

Fast: ответ на запрос в течение 1-20 с
Analysis: любой сложный логический и статистический анализ для бизнес–приложений
Shared: защищенный многопользовательский доступ
Multidimensional: многомерное представление данных включая иерархии
Information: большое количество данных и информации


Слайд 5Как реализовать OLAP?
OLAP-функциональность может быть реализована различными способами, начиная с простейших

средств анализа данных в офисных приложениях и заканчивая распределенными аналитическими системами, основанными на серверных продуктах

Слайд 6Рассмотрим пример
Стандартная БД Northwind , создаем запрос к таблицам и представлениям:
Invoices


Products
Categories
Цель – получить набор данных о заказах, включающий:
категорию и наименование заказанного товара
дату размещения заказа
имя сотрудника, выписавшего счет,
город, страну и название компании-заказчика,
наименование компании, отвечающей за доставку

Слайд 7Текст запроса
SELECT
dbo.Invoices.Country, dbo.Invoices.City,    dbo.Invoices.CustomerName,   dbo.Invoices.Salesperson,    dbo.Invoices.OrderDate,dbo.Categories.CategoryName,    dbo.Invoices.ProductName,    dbo.Invoices.ShipperName,    dbo.Invoices.ExtendedPrice
FROM dbo.Products
INNER

JOIN   dbo.Categories ON dbo.Products.CategoryID = dbo.Categories.CategoryID INNER JOIN   dbo.Invoices ON dbo.Products.ProductID = dbo.Invoices.ProductID

Слайд 8Запрос в конструкторе


Слайд 9Какие агрегатные данные можно получить
Результатом любого запроса является число


Слайд 10Изменяем параметры запроса 1
Если в первом из запросов заменить параметр ‘France’

на ‘Austria’ или на название иной страны, можно снова выполнить этот запрос и получить другое число. Выполнив эту процедуру со всеми странами, мы получим следующий набор данных
Country SUM (ExtendedPrice)
Argentina 7327.3
Austria 110788.4
Belgium 28491.65
Brazil 97407.74
Canada 46190.1
Denmark 28392.32
Finland 15296.35

SELECT
Country,
SUM (ExtendedPrice)
FROM invoices1
GROUP BY Country


Слайд 11Манипуляции с запросом 2
Если выполнять этот запрос, подставляя в него все

возможные значения параметров Country и ShipperName, мы получим двухмерный набор данных

SELECT
Country,ShipperName,
SUM (ExtendedPrice)
FROM invoices1
GROUP BY COUNTRY,ShipperName


Слайд 12Манипуляции с запросом 3
SELECT
SUM (ExtendedPrice)
FROM Ord_pmt
WHERE CompanyName=’Speedy Express’


AND OrderDate BETWEEN ‘December 31, 1995’
AND ‘April 1, 1996’
AND ShipperName=’Speedy Express’

Ячейки куба содержат агрегатные данные, соответствующие находящимся на осях куба значениям параметров запроса в предложении WHERE


Слайд 13Основные понятия кубов
описания значений данных в ячейках, используется термин summary (в

общем случае в одном кубе их может быть несколько)
для обозначения исходных данных, на основе которых они вычисляются — термин measure
для обозначения параметров запросов — термин dimension
значения, откладываемые на осях, называются членами измерений (members)

Слайд 14Структура OLAP-куба


Слайд 15Иерархии измерений
сбалансированная (balanced) иерархия


Слайд 16Операции, выполняемые над гиперкубом. Срез
Срез - формируется подмножество многомерного массива данных,

соответствующее единственному значению одного или нескольких элементов измерений, не входящих в это подмножество (slice and dice)

Слайд 17Операции, выполняемые над гиперкубом. Вращение
Вращение - изменение расположения измерений, представленных

в отчете или на отображаемой странице. Например, операция вращения может заключаться в перестановке местами строк и столбцов таблицы. Кроме того, вращением куба данных является перемещение внетабличных измерений на место измерений, представленных на отображаемой странице, и наоборот

Слайд 18Операции, выполняемые над гиперкубом. Консолидация и детализация
Консолидация и детализация - операции,

которые определяют переход вверх по направлению от детального представления данных к агрегированному и наоборот, соответственно. Направление детализации (обобщения) может быть задано как по иерархии отдельных измерений, так и согласно прочим отношениям, установленным в рамках измерений или между измерениями (drill down)

Слайд 19Что такое Data Mining
Data Mining – «добыча данных»
Извлечение новых знаний и

неочевидных зависимостей из больших объемов сложных данных
Предмет интереса:
Нетривиальные знания
Неявные зависимости
Предварительно неизвестные знания
Потенциально полезные знания
Синонимы
Интеллектуальный анализ данных - Business Intelligence
Открытие знаний в БД
Базы знаний. Извлечение знаний
Анализ паттернов


Слайд 20Примеры формулировок задач при использовании технологий OLAP и Data Mining


Слайд 21Почему Data Mining?
Накопление и доступность больших объемов данных
Инструментарий автоматического накопления данных,

БД, интернет, компьютеризованное общество
Лавинообразный рост объемов данных: терабайты и более
Основные источники больших объемов данных
Бизнес: интернет, e-коммерция, магазины, OLTP-транзакции
Наука: дистанционное зондирование, биоинформатика, моделирование
Общество, люди: новости, фотографии
Люди «тонут» в необработанных данных
Необходим автоматизированный анализ больших наборов данных

Слайд 22Развитие технологий БД
1960-е:
Сбор данных, разработка БД, сетевые СУБД
1970-е:
Реляционная модель данных,

реляционные СУБД
1980-е:
Реляционные СУБД, продвинутые модели данных (иерархические, объектно-ориентированные, дедуктивные и др.)
Предметно-ориентированные БД (космос, наука, инженерия)
1990-е:
Data Mining, Data Warehousing, мультимедиа БД, интернет БД
2000-е
Управление потоком данных, извлечение знаний
Data Mining
Web технологии (SOA, XML, интеграция данных)
Глобальные информационные системы


Слайд 23Приложения Data Mining (1)
Анализ данных и поддержка принятия решений
Маркетинг и менеджмент
CRM-системы,

целевое потребление, анализ корзин покупателя, кросс-продажи, сегментация рынка
Анализ и управление рисками
Прогнозы, контроль качества, конкурентный анализ, анализ «что-если»
Обнаружение мошенничества в транзакциях OLTP систем
Другие приложения
Text Mining (news группы, e-почта, статьи) и Web Mining
Data Mining в поточных данных
Биоинформатика и анализ


Слайд 24Приложения Data Mining (2)
http://3.bp.blogspot.com/-ARWXJFdzxmo/TzTcIU1MKeI/AAAAAAAAA0w/f-IyuJZ55tY/s1600/data_mining_map.JPG


Слайд 25Приложения: Анализ рынка и менеджмент (3)
Источники данных:
транзакции продаж, продвижение продукции

со скидками, БД в Call-центрах, опросы и изучение общественного мнения
Маркетинг
Выделить сегменты потребителей со сходными характеристиками: интерес, уровень дохода, привычки потребления и др.
Определить паттерны покупок покупателей за период времени
Анализ рынка
— Найти ассоциации и корреляции по продажам продуктов, выполнить предсказания на основе ассоциативных правил
Профилирование потребителей
— какие типы потребителей покупают определенные группы продуктов (кластеризация или классификация)
Анализ требований потребителей
Выявление наилучших продуктов для разных групп потребителей
Прогноз, какие факторы привлекают новых клиентов
Подготовка отчетности
Многомерные итоговые отчеты
Статистическая отчетность (тенденции и вариации в данных)


Слайд 26Приложения: Анализ и управление рисками (4)
Финансовое планирование и оценка остатков
Анализ финансовых

потоков и прогнозы
Анализ претензий
Перекрестный анализ и анализ временных рядов: стратегии и тренды
Задачи планирования ресурсов
Оценка и поддержка ресурсов
Конкурентоспособность
monitor competitors and market directions
Группировка потребителей в классы и сегментирование ценовой политики. Установка ценовых политик на высококонкурентном рынке

Слайд 27Приложения: Обнаружение мошенничества и неожиданных паттернов (5)
Подходы: Построение модели и кластеризация

данных с неожиданными характеристиками для обнаружения мошенничества
Приложения: страхование, торговля, банковские карты,телекоммуникации.
Ипотека: риски невозвращения кредита
Финансовые операции: нетипичные транзакции
Медицинские страховки
Разработка скрининговых тестов здоровья пациентов
Телекоммуникации: мошенничество
Модель типового звонка: место назначения, длительность, день недели и время. Анализ паттернов, отличающихся от типовых.
Торговля
До 38% воровства – из-за нечестных сотруднков
Анти-терроризм


Слайд 28Общий подход
построение модели (= паттерна)
прогноз на основе модели
выявление данных, не укладывающихся

в модель

CRISP-DM методология


Слайд 29Процесс извлечения знаний


Слайд 30Ключевые шаги в извлечении знаний
Изучение предметной области
Изучение априорной информации и целей

приложения
Создание модельных данных (target): селекция данных
Очистка данных и предобработка: (до 60% времени!)
Уменьшение размерности данных и трансформации
Выявление полезных характеристик, инвариантов, методов понижения размерности в модели
Суммирование, классификация, регрессия, ассоциации
Выбор алгоритмов Data Mining
Data Mining: поиск интересных паттернов
Оценка паттернов и представление знаний
Визуализация, трансформация, удаление избыточных паттернов и т.д.
Использование открытых знаний

Слайд 31Data Mining и Business Intelligence

Увеличение потенциала поддержки принятия решений
End User
Business

Analyst

Data
Analyst

DBA

Принятие решений

Презентация данных

Техники визуализации

Data Mining

Открытие информации

Извлечение данных

Агрегирование, запросы, отчетность

Предобработка данных/интеграция, хранилища данных

Гетерогенные источники данных


Слайд 32Data Mining vs. Традиционный анализ данных
Огромные объемы данных
Требуются масштабированные алгоритмы

для террабайтных БД
Данные высокой размерности
До десятков тысяч измерений
Высокая сложность данных
Потоковые бинарные данные и данные датчиков
Данные временных рядов, временные данные, данные последовательностей событий
Структурные данные, графики, социальные отношения, данные со множественными ссылками
Гетерогенные источники данных и унаследованные БД
Пространственные, пространственно-временные, мультимедиа, текстовые и Web-данные
Программное обеспечение, научное моделирование
Новые сложные приложения


Слайд 33Задачи
Классификация
Кластеризация
Сокращение описания
Ассоциация
Прогнозирование
Анализ отклонений
Оценивание
Анализ связей
Визуализация


Слайд 34Классификация (Classification)
Наиболее простая и распространенная задача Data Mining. В результате

решения задачи классификации обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных - классы; по этим признакам новый объект можно отнести к тому или иному классу.

Слайд 35Классификация: примеры
Кредитный скоринг
Распознавание образов
Медицинская диагностика
Определение лояльности клиентов


Слайд 36Виды классификации
Простая и сложная
Одномерная и многомерная

Обучение с учителем:
Обучающее множество
Контрольное множество
Кросс-валидация


Слайд 37Методы решения задачи классификации
ближайшего соседа (Nearest Neighbor)
k-ближайшего соседа (k-Nearest

Neighbor)
байесовские сети (Bayesian Networks)
индукция деревьев решений
нейронные сети (neural networks)
линейная регрессия


Слайд 38Пример классификации: определение съедобности грибов (дерево решений)


Слайд 39Кластеризация (Clustering)
Кластеризация является логическим продолжением идеи классификации. Это задача более сложная,

особенность кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы.
Обучение без учителя
Признаки кластера:
внутренняя однородность
внешняя изолированность

Слайд 40Классификация vs. кластеризация


Слайд 41Примеры кластеризации
Маркетинг:
сегментация потребителей и конкурентов
позиционирование продуктов
Медицина
классификация симптомов
Социология:
разбиение респондентов на однородные

группы
Производство:
выявление типичных производственных ситуаций и режимов


Слайд 42Методы решения задачи кластеризации
Алгоритмы, основанные на разделении данных (Partitioning algorithms):
разделение объектов

на k кластеров
итеративное перераспределение объектов для улучшения кластеризации
Иерархические алгоритмы (Hierarchy algorithms):
агломерация: каждый объект первоначально является кластером, кластеры, соединяясь друг с другом, формируют больший кластер и т.д.
Методы, основанные на концентрации объектов (Density-based methods)
Грид-методы (Grid-based methods)
Модельные методы (Model-based)

Слайд 43Ассоциация (Associations)
Ассоциативное правило: «Из события А следует событие В»
В ходе решения

задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных.
Отличия: поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно.
Пример: 65% купивших пиво берут также и чипсы, а при наличии скидки за такой комплект - в 85% случаев

Слайд 44Ассоциация: методы решения
Алгоритм AIS
Алгоритм SETM
Алгоритмы Apriori:
AprioriTiD
AprioriHybrid


Слайд 45Последовательность (Sequence)
Последовательность позволяет найти временные закономерности между транзакциями.
Правило последовательности: после события

X через определенное время произойдет событие Y.
Пример. После покупки квартиры жильцы в 60% случаев в течение двух недель приобретают холодильник, а в течение двух месяцев в 50% случаев приобретается телевизор.


Слайд 46Прогнозирование (Forecasting)
В результате решения задачи прогнозирования на основе особенностей исторических данных

оцениваются пропущенные или же будущие значения целевых численных показателей.
Этапы:
построение модели по обучающей выборке
прогнозирование по модели
оценка точности прогнозирования
Методы решения: методы математической статистики (линейная регрессия), деревья решений, нейронные сети и др.

Слайд 47Прогнозирование по временным рядам
Временной ряд – последовательность наблюдаемых значений какого-либо признака,

упорядоченных в неслучайные моменты времени
Период, горизонт и интервал прогнозирования
Краткосрочный прогноз (<3% от объема наблюдений), среднесрочный (3-5%), долгосрочный (>5%)

Слайд 48Анализ временных рядов (2)
Большинство регулярных составляющих временных рядов принадлежит к двум

классам: они являются либо трендом, либо сезонной составляющей
Тренд – общая систематическая линейная или нелинейная компонента, которая может изменяться во времени
Сезонная составляющая - это периодически повторяющаяся компонента
часто присутствуют в ряде одновременно (продажи компании могут возрастать из года в год, но они также содержат сезонную составляющую)


Слайд 49Анализ временных рядов (3)


Слайд 50Временная корреляция между поисковыми запросами в Google Trends


Слайд 51Анализ отклонений или выбросов (Deviation Detection)
Цель решения данной задачи - обнаружение

и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов.
Пример: выявление вредоносных программ через анализ нетипичной сетевой активности


Слайд 52Визуализация (Visualization, Graph Mining)
В результате визуализации создается графический образ анализируемых данных.

Для решения задачи визуализации используются графические методы, показывающие наличие закономерностей в данных.
Пример методов визуализации - представление данных в 2-D и 3-D измерениях.
Графы
Параллельные координаты
Лица Чернова
Лепестковые диаграммы
другие


Слайд 53Примеры визуализации: графы (1)
связи между различными болезнями


Слайд 54Примеры визуализации: графы (2)
Спирограф, построенный на данных о встречаемости имен людей

и организаций в статьях NYTimes за 2009 г. (используя NYTimes.com Article Search API). Размер текста и положение указывают на частоту упоминания, а линии показывают как часто два имени встречаются вместе (http://www.flickr.com/photos/blprnt/3291287830/in/set-72157614008027965/ )

Слайд 55Визуализация: деревья
http://bl.ocks.org/mbostock/4063550


Слайд 56Примеры визуализации: графы (3)
Показаны результаты анализа твитов, содержащих фразы «Только что

вылетел из…» и «Только что приземлился в…» (http://www.flickr.com/photos/blprnt/3521508124/)

Слайд 57Визуализация: столбцовые диаграммы
http://flare.prefuse.org/


Слайд 58Визуализация: параллельные координаты
сравнение параметров двух моделей


Слайд 59Визуализация: лепестковые диаграммы
числа, выпадавшие в лотереях в разные годы


Слайд 60Визуализация: диаграммы Венна
описывают логические отношения между конечным числом наборов данных


Слайд 61Визуализация: лица Чернова


Слайд 62Визуализация: график рассеивания
http://informationandvisualization.de/blog/5dimensional-scatter-plot


Слайд 63Визуализация: текстура
Подводные течения
http://ccom.unh.edu/vislab/projects/2d_flow_vis.html


Слайд 64Визуализация: heat map
http://www.mediabistro.com/alltwitter/files/2012/11/Screen-Shot-2012-11-19-at-12.07.35-PM.png


Слайд 65Визуализация: ландшафтная
http://www.coolinfographics.com/blog/2007/10/29/where-we-live.html


Слайд 66Визуализация: диаграммы Вороного
http://mbostock.github.io/d3/talk/20111116/airports-all.html


Слайд 67Визуализация: карты динамики
http://datamining.typepad.com/data_mining/2009/08/the-human-journey.html


Слайд 68Визуализация: аноморфные карты
Картирование размера населения страны
http://www.worldmapper.org/display.php?selected=2


Слайд 69Визуализация: 3D-картодиаграмма в Excel 2013
http://blogs.office.com/b/microsoft-excel/archive/2013/04/11/public-preview-of-geoflow-for-excel-delivers-3d-data-visualization-and-storytelling.aspx


Слайд 70Визуализация: облако тэгов
Результаты обработки текстов песен-победителей "Евровидения« с 1956 по 2010

гг.

Слайд 71Визуализация: dashboard


Слайд 72Математическая основа
Разведочный анализ данных


Слайд 73Отличия от традиционной проверки гипотез
не предназначен для проверки априорных предположений
нужен, когда

природа связей между переменными неизвестна («черный ящик»)
учитывается и сравнивается большое число переменных
для поиска закономерностей используются самые разные методы

Слайд 74Многомерный РАД
поиск закономерностей в многомерных данных (или последовательностях одномерных данных)
кластерный анализ
факторный

анализ
анализ дискриминантных функций
многомерное шкалирование
логлинейный анализ
канонические корреляции
пошаговая линейная и нелинейная (например, логит) регрессия
анализ соответствий
анализ временных рядов
деревья классификации

Слайд 75Кластерный анализ
включает в себя набор различных алгоритмов классификации
общий вопрос – как

организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии (древообразная структура классификаций определенного набора объектов)
пример – разделение животных на классы, рода и виды
приложения – медицина, археология, биология, маркетинг
методы – объединение (древовидная кластеризация), двувходовое объединение, метод K средних

Слайд 76Главные компоненты и факторный анализ
Главные цели:
сокращение числа переменных (редукция данных)


определение структуры взаимосвязей между переменными, т.е. классификация переменных

Слайд 77Анализ временных рядов
основывается на предположении, что последовательные значения в файле данных

наблюдаются через равные промежутки времени (тогда как в других методах нам не важна и часто не интересна привязка наблюдений ко времени)
две основные цели анализа временных рядов:
определение природы ряда
прогнозирование (предсказание будущих значений временного ряда по настоящим и прошлым значениям)
предполагает, что данные содержат систематическую составляющую (обычно включающую несколько компонент) и случайный шум (ошибку)

Слайд 78Спасибо за внимание!
KudinovAV@tpu.ru


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика