Основные понятия интеллектуального анализа данных (data mining) презентация

Содержание

1. Основные понятия интеллектуального анализа данных (data mining)
2. Структура курса Лекции – 34 ч.
3. Литература Методичка «Решение задач ИАД» в среде
4. Айвазян С.А., Бежаева З.И., Староверов О.В. Классификация
5. Бериков В.Б. Анализ статистических данных с использованием
6. 1. Определение ИАД Интеллектуальный анализ данных (ИАД,
7. 1. Определение ИАД ИАД (Data Mining)
8. 1. Определение ИАД Data Mining” –
9. 1. Определение ИАД ИАД “Data Mining” –
10. “Data Mining” – технология поиска характеризующих
11. ИАД (Data Mining) - процесс аналитического
12. 1. Определение Data Mining Data Mining
13. 1. Определение Data Mining Основные
14. знания должны быть практически полезны. Знания
15. 1. Определение KNOWLEDGE DISCOVERY IN DATABASES (POLYANALYST)
16. 1. Этапы KDD ПОСТАНОВКА ЗАДАЧИ (В
17. Одно из направлений ИАД: поиск, выбор, синтез
18. Отличительная особенность ВМ от обычного (классического)
19. 2. Классификация задач ИАД 1. Выявление ассоциативных
20. Результатом ассоциативного анализа являются правила вида:
21. 2. Выявление последовательностей Последовательные шаблоны
22. 3. Кластеризация объектов – разделение
23. 4. Классификация объектов – отнесение объектов
24. 5. Нахождение исключений, исключительных ситуаций, записей,
25. 6. Задачи регрессии – задача определения значения
26. 3. Области применения ИАД Сфера применения
27. 3. Области применения ИАД
28. 3. Области применения ИАД
29. 3. Области применения ИАД
30. 3. Области применения ИАД
31. 4. Математический аппарат ИАД ИАД –
32. 4. Классификация методов ИАД Методы статистической обработки
33. Методы статистической обработки данных Предварительный анализ природы
34. Методы статистической обработки данных Достоинства Построенные модели
35. Методы статистической обработки данных Недостатки Требуют сохранение
36. Методы статистической обработки данных Программное обеспечение Statistica
37. Кибернетические методы оптимизации Нейронные сети (Neural
38. Нейронные сети Достоинства Не требуют априорных
39. Нейронные сети Недостатки “Черный ящик”: модель
40. Генетические алгоритмы Достоинства Красота подхода, близость
41. Генетические алгоритмы Недостатки Невозможно оценить статистическую
42. Эволюционное программирование Достоинства Высокая степень автоматизации
43. Эволюционное программирование Недостатки Сложность (невозможность) содержательной
44. Традиционные методы решения оптимизационных задач Методы
45. Экспертные методы Деревья решений Ассоциативный анализ Предметно-ориентированные системы анализа ситуаций Методы визуализации
46. Деревья решений Достоинства Наглядность (возможность графического
47. Деревья решений Недостатки Проблема оценки статистической
48. Ассоциативный анализ Достоинства Простота (для осуществления
49. Ассоциативный анализ Недостатки В процессе решения не
50. Методы визуализации Достоинства Наглядность, простота. Недостатки Высокая
51. Интегрированные технологии, вариативное моделирование Достоинства Эффективность (можно
52. Технология KDD
53. Особенности технологий ИАД Технологии ИАД в большей
54. Требования к результатам ИАД Результат должен быть
55. Связь технологий Data Warehousing и OLAP с методами ИАД

Главная
Информатика
Основные понятия интеллектуального анализа данных (data mining)

Слайд 1Лекция № 1
Введение. Основные определения и понятия курса

Слайд 2Структура курса
Лекции – 34 ч.
Лабораторные работы – 17 ч. (4)
Самостоятельная

работа – 64 ч.
Контрольная работа
Зачет
Всего – 119 ч.

Слайд 3Литература
Методичка «Решение задач ИАД» в среде Statistica
А.А. Барсегян «Методы и модели

анализа данных: OLAP и Data Mining», Санкт-Петербург, изд-во БХВ-Петрбург, 2004 г. (коллектив авторов Санкт- Петербургский гос. тех. Университет – ЛЭТИ и компания ZSoftLtd – разработка информационно-аналитических систем). Книга – обзор технологий обработки данных, первая на русском языке.
Факторный, дискриминантный и кластерный анализ/Пер. с англ. А.М. Хотинского. Под ред. И.С. Енюкова. -М.: Финансы и статистика, 1989.
Электронный учебник StatSoft по анализу данных.

Слайд 4Айвазян С.А., Бежаева З.И., Староверов О.В. Классификация многомерных наблюдений. – М.:

Финансы и статистика, 1974. – 240 с.
Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности.- М.: Финансы и статистика, 1989.
Аренс Х., Лейтер Ю. Многомерный дисперсионный анализ/Пер. с нем. В.М. Ивановой. -М.: Финансы и статистика, 1985.
Боровиков В.П. Statistica. Искусство анализа данных на компьютере: Для профессионалов. 2-е изд. – СПб.: Питер, 2003. – 688 с.
Боровиков В.П., Боровиков И.П. Statistica - Статистический анализ и обработка данных в среде Windows. – М.: «Филин», 1997. – 608 с.

Слайд 5Бериков В.Б. Анализ статистических данных с использованием деревьев решений: Учебное пособие.

– Новосибирск. Изд-во НГТУ, 2002. – 60 с.
Авдеенко Т.В. Компьютерные методы анализа временных рядов и прогнозирования. - Новосибирск: НГТУ, 2008. - 271 с.
Дайитбегов Д.М. Компьютерные технологии анализа данных в эконометрике. – Изд-во Инфра-М, 2008. - 578 с.

Слайд 61. Определение ИАД
Интеллектуальный анализ данных (ИАД, data mining) представляет собой новое

направление в области информационных систем (ИС), ориентированное на решение задач поддержки принятия решений на основе количественных и качественных исследований сверхбольших массивов разнородных ретроспективных данных.

Слайд 71. Определение ИАД

ИАД (Data Mining) - это процесс поддержки принятия решений,

основанный на поиске в данных скрытых закономерностей (шаблонов информации). При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания.

Слайд 81. Определение ИАД

Data Mining” – это процесс выделения, исследования и моделирования

больших объемов данных для обнаружения неизвестных до этого закономерностей с целью достижения преимуществ в бизнесе (SAS Institute).

Слайд 91. Определение ИАД
ИАД “Data Mining” – это процесс, цель которого –

обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образов и методов математической статистики (Gartner Group).

Слайд 10
“Data Mining” – технология поиска характеризующих объект скрытых зависимостей и взаимосвязей,

проявляющихся через данные о нем.

1. Определение ИАД

Слайд 11
ИАД (Data Mining) - процесс аналитического исследования больших массивов информации (обычно

экономического характера) с целью выявления определенных закономерностей и систематических взаимосвязей между переменными, которые затем можно применить к новым совокупностям данных.

1. Определение ИАД (StatSoft)

Слайд 12
1. Определение Data Mining
Data Mining – исследование и обнаружение «машиной» (алгоритмами,

средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком. (Григорий Пятецкий-Шапиро, 1996 г. – основатель направления)

Слайд 13

1. Определение Data Mining
Основные свойства знаний:

- знания должны быть новые, ранее

неизвестные. Затраченные усилия на открытие знаний, которые уже были известны пользователю – не окупаются.

- знания должны быть нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Наример, если знания получены простым просмотром – привлечение мощных средств Data Mining не оправдывается.

Слайд 14
знания должны быть практически полезны. Знания должны быть применимы на новых

данных с достаточно высокой степенью достоверности и приносить выгоду при их применении.

знания должны быть доступны для понимания человеку. Закономерности д.б. логически объяснимы, иначе они могут быть случайны и представлены в понятном для человека виде.

В этом контексте знания представляют собой краткое обобщенное описание основного содержания информации, представленной в данных (скрытые закономерности, корреляции, тенденции, обобщенные характеристики данных типа “если-то” и т.д.).

Слайд 151. Определение KNOWLEDGE DISCOVERY IN DATABASES (POLYANALYST)
«ОБНАРУЖЕНИЕ ЗНАНИЙ В БАЗАХ

ДАННЫХ») – АНАЛИТИЧЕСКИЙ ПРОЦЕСС ИССЛЕДОВАНИЯ ЧЕЛОВЕКОМ БОЛЬШОГО ОБЪЕМА ИНФОРМАЦИИ С ПРИВЛЕЧЕНИЕМ СРЕДСТВ АВТОМАТИЗИРОВАННОГО ИССЛЕДОВАНИЯ ДАННЫХ С ЦЕЛЬЮ ОБНАРУЖЕНИЯ СКРЫТЫХ В ДАННЫХ СТРУКТУР ИЛИ ЗАВИСИМОСТЕЙ.
ПРЕДПОЛАГАЕТСЯ ПОЛНОЕ ИЛИ ЧАСТИЧНОЕ ОТСУТСТВИЕ АПРИОРНЫХ ПРЕДСТАВЛЕНИЙ О ХАРАКТЕРЕ СКРЫТЫХ СТРУКТУР И ЗАВИСИМОСТЕЙ.

Слайд 161. Этапы KDD
ПОСТАНОВКА ЗАДАЧИ (В ТЕРМИНАХ ЦЕЛЕВЫХ ПЕРЕМЕННЫХ);
ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА (ПРЕОБРАЗОВАНИЕ

ДАННЫХ К ДОСТУПНОМУ ДЛЯ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ФОРМАТУ)
ОБНАРУЖЕНИЕ СРЕДСТВАМИ АВТОМАТИЧЕСКОГО ИССЛЕДОВАНИЯ ДАННЫХ (DATA MINING) СКРЫТЫХ СТРУКТУР ИЛИ ЗАВИСИМОСТЕЙ;
АПРОБАЦИЯ ОБНАРУЖЕННЫХ МОДЕЛЕЙ НА НОВЫХ, НЕ ИСПОЛЬЗОВАВШИХСЯ ДЛЯ ПОСТРОЕНИЯ МОДЕЛЕЙ ДАННЫХ И ИНТЕРПРЕТАЦИЯ ЧЕЛОВЕКОМ ОБНАРУЖЕННЫХ МОДЕЛЕЙ.

Слайд 17Одно из направлений ИАД: поиск, выбор, синтез методов и средств обработки

и анализа данных с учетом поставленных целей исследования.
Технология, которая реализует этот вариант ИАД – вариативное моделирование (ВМ).
ВМ - есть метод исследования, основанный на замене исследуемого объекта-оригинала набором разнообразных моделей его и на работе с ними.

1. Определение ИАД, ВМ
(Губарев В.В.)

Слайд 18
Отличительная особенность ВМ от обычного (классического) заключается в том, что здесь

обязательным является построение и применение в процессе моделирования не менее двух разных моделей исследуемого (моделируемого) объекта.
Это могут быть модели разных классов (познавательные и прагматические; материальные и идеальные; микро, макро и мегамодели; реальные, виртуальные и абстрактные; априорные и апостериорные; регулярные и иррегулярные; стохастические и хаотические и т.п.), одного класса, но разных типов, склонностей; использующие разные уровни описания объекта, средства и технологии их построения, интерпретации и применения и т.п.
Виды моделей зависят от метода их создания. Наиболее распространенные: правила, деревья решений, кластеры, математические функции.

1. Определение ВМ (Губарев В.В.)

Слайд 192. Классификация задач ИАД
1. Выявление ассоциативных взаимосвязей в данных
Ассоциация используется

для определения закономерностей в событиях или процессах.
Ассоциации связывают различные факты одного события.
Найденные закономерности представляются в виде правил и используются как для лучшего понимания природы явления так и для предсказания появления события.

Слайд 20Результатом ассоциативного анализа являются правила вида: Если факт А является частью

события, то с вероятностью Х% факт B будет частью того же события.

Выявление ассоциативных
взаимосвязей в данных

Слайд 21
2. Выявление последовательностей
Последовательные шаблоны аналогичны ассоциациям с той лишь разницей,

что связывают события, разнесенные во времени.
Такая задача является разновидностью задачи поиска ассоциативных правил и называется сиквенциальным анализом.

2. Классификация задач ИАД

Слайд 22

3. Кластеризация объектов – разделение исследуемого множества объектов на группы «похожих»

объектов, называемых кластерами.
В процессе кластеризации методами ИАД определяются схожие характеристики объектов и на их основе объединяются объекты в классы (кластеры).

2. Классификация задач ИАД

Слайд 23
4. Классификация объектов – отнесение объектов к одному из известных классов

на основе их характеристик.

2. Классификация задач ИАД

Слайд 24
5. Нахождение исключений, исключительных ситуаций, записей, которые резко отличаются чем-либо от

основного множества записей (группы больных).

2. Классификация задач ИАД

Слайд 25 6. Задачи регрессии – задача определения значения одного из параметров анализируемого

объекта (характеристики) на основе значений других характеристик (все характеристики – количественные).

Задачи взаимосвязаны, из одной вытекает другая.

2. Классификация задач ИАД

Слайд 263. Области применения ИАД
Сфера применения Data Mining ничем не ограничена

- Data Mining нужен везде, где имеются какие-либо данные.

Слайд 27
3. Области применения ИАД

Слайд 28
3. Области применения ИАД

Слайд 293. Области применения ИАД

Слайд 303. Области применения ИАД

Слайд 314. Математический аппарат ИАД
ИАД – это многодисциплинарный подход, который включает

в себя методы математической статистики и теории вероятности, методы визуализации данных, нейросетевые методы, методы деревьев решений, нечеткую логику, экспертный анализ, эволюционное программирование, генетические алгоритмы и т.д.

Слайд 324. Классификация методов ИАД
Методы статистической обработки данных
Кибернетические методы оптимизации
Традиционные методы решения

оптимизационных задач
Экспертные методы
Интегрированные технологии, вариативное моделирование

Слайд 33Методы статистической обработки данных
Предварительный анализ природы статистических данных (проверка гипотез стационарности,

нормальности, независимости, однородности, оценка вида функции распределения и ее параметров).
Выявление связей и закономерностей (линейный и нелинейный регрессионный анализ, корреляционный анализ).
Многомерный статистический анализ (линейный и нелинейный дискриминантный анализ, кластер-анализ, компонентный анализ, факторный анализ).
Динамические модели и прогноз на основе временных рядов.

Слайд 34Методы статистической обработки данных
Достоинства
Построенные модели “прозрачны” и допускают интерпретацию.
Возможно оценить статистическую

значимость полученных результатов.
Разработано много алгоритмов и накоплен большой опыт их применения в научных и инженерных приложениях.

Слайд 35Методы статистической обработки данных
Недостатки
Требуют сохранение неизменных условий эксперимента (требования статистического ансамбля).
Требуют

априорных допущений об исследуемых данных (закон распределения исследуемых данных, отсутствие пропусков в данных, отсутствие аномальных выбросов и т.д.).

Слайд 36Методы статистической обработки данных
Программное обеспечение
Statistica (Statsoft), SAS (компания SAS Institute), SPSS

(SPSS), Statgraphics (Statistical Graphics).

Слайд 37Кибернетические методы оптимизации
Нейронные сети (Neural Nets)
Генетические алгоритмы (Genetic algorithms)
Эволюционное программирование

(Еvolutionary programming)

Слайд 38Нейронные сети
Достоинства
Не требуют априорных допущений о природе исследуемых данных.
Удобны

при работе с нелинейными зависимостями, зашумленными и неполными данными.

Слайд 39Нейронные сети
Недостатки
“Черный ящик”: модель не может объяснить выявленные знания (не

поддается интерпретации).
Программное обеспечение
BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic), 4Thought.

Слайд 40Генетические алгоритмы
Достоинства
Красота подхода, близость метода к природному механизму (имитация процесса

естественного отбора в природе).
Высокая скорость решения задач большой размерности.

Слайд 41Генетические алгоритмы
Недостатки
Невозможно оценить статистическую значимость результата.
Сложность использования метода (сложность постановки

задачи, сложность определения критерия отбора хромосом и т.д.).
Программное обеспечение
GeneHunter (Ward Systems Group)

Слайд 42Эволюционное программирование
Достоинства
Высокая степень автоматизации (автоматическое обнаружение в массивах данных кластеров,

случайных выбросов, скрытых закономерностей, фильтрация шумов; визуализация обнаруженных зависимостей, оценка статистической значимости результатов и т.д.).

Слайд 43Эволюционное программирование
Недостатки
Сложность (невозможность) содержательной интерпретации полученных результатов
Программное обеспечение
PolyAnalyst (Мегапьютер

Интеллидженс).

Слайд 44Традиционные методы решения оптимизационных задач
Методы исследования операций, включающие в себя

различные виды математического программирования (линейное, нелинейное, дискретное, целочисленное)
динамическое программирование,
методы теории систем массового обслуживания
Программное обеспечение
MathCAD и MatLab.

Слайд 45Экспертные методы
Деревья решений
Ассоциативный анализ
Предметно-ориентированные системы анализа ситуаций
Методы визуализации

Слайд 46Деревья решений
Достоинства
Наглядность (возможность графического представления результатов, иерархическая структура дерева).
Простота интерпретации

полученных результатов.

Слайд 47Деревья решений
Недостатки
Проблема оценки статистической значимости результатов.
Программное обеспечение
С5.0 (RuleQuest, Австралия);

Clementine (Integral Solutions, Великобритания); SIPINA (University of Lyon, Франция); IDIS (Information Discovery, США), Scenario.

Слайд 48Ассоциативный анализ
Достоинства
Простота (для осуществления прогноза или выбора решения в прошлом

находятся аналоги наличной ситуации, и выбирается тот же ответ, который был для них правильным).

Слайд 49Ассоциативный анализ
Недостатки
В процессе решения не создаются модели и правила, обобщающие предыдущий

опыт. Программное обеспечение
KATE tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США).

Слайд 50Методы визуализации
Достоинства
Наглядность, простота.
Недостатки
Высокая доля субъективизма в интерпретации результатов.
Отсутствие аналитических моделей.
Программное

обеспечение
MineSet (Silicon Graphics).

Слайд 51Интегрированные технологии, вариативное моделирование
Достоинства
Эффективность (можно выбирать подходы адекватные задачам, или сравнивать

результаты применения разных подходов).
Недостатки
Сложные средства поддержки (программное и аппаратное обеспечение), высокая стоимость.
Программное обеспечение: Scenario, MineSet, Statistica.

Слайд 52Технология KDD

Слайд 53Особенности технологий ИАД
Технологии ИАД в большей степени ориентированы на практическое приложение

полученных результатов, чем на выяснение природы явления.
При ИАД нас не очень интересует конкретный вид зависимости между переменными. Основное внимание уделяется поиску решений, на основе которых модно получить достоверный прогноз.
В ИАД широко используют модели типа «черный» ящик.

Слайд 54Требования к результатам ИАД
Результат должен быть понятен пользователю-нематематику.
Результат должен быть

пригодным для дальнейшей обработки компьютерными программами, т.е. требование «прозрачности» для человека и машины.
Например, правила «если-то» таким условиям удовлетворяют.

Слайд 55Связь технологий Data Warehousing и OLAP с методами ИАД

Скачать презентацию

Основные понятия интеллектуального анализа данных (data mining) презентация

Содержание

Слайд 1Лекция № 1 Введение. Основные определения и понятия курса

Слайд 2Структура курсаЛекции – 34 ч. Лабораторные работы – 17 ч. (4)Самостоятельная

Слайд 3ЛитератураМетодичка «Решение задач ИАД» в среде StatisticaА.А. Барсегян «Методы и модели

Слайд 4Айвазян С.А., Бежаева З.И., Староверов О.В. Классификация многомерных наблюдений. – М.:

Слайд 5Бериков В.Б. Анализ статистических данных с использованием деревьев решений: Учебное пособие.

Слайд 61. Определение ИАДИнтеллектуальный анализ данных (ИАД, data mining) представляет собой новое

Слайд 71. Определение ИАДИАД (Data Mining) - это процесс поддержки принятия решений,

Слайд 81. Определение ИАДData Mining” – это процесс выделения, исследования и моделирования

Слайд 91. Определение ИАДИАД “Data Mining” – это процесс, цель которого –

Слайд 10“Data Mining” – технология поиска характеризующих объект скрытых зависимостей и взаимосвязей,

Слайд 11ИАД (Data Mining) - процесс аналитического исследования больших массивов информации (обычно

Слайд 121. Определение Data Mining Data Mining – исследование и обнаружение «машиной» (алгоритмами,

Слайд 13 1. Определение Data Mining Основные свойства знаний: - знания должны быть новые, ранее

Слайд 14 знания должны быть практически полезны. Знания должны быть применимы на новых

Слайд 151. Определение KNOWLEDGE DISCOVERY IN DATABASES (POLYANALYST) «ОБНАРУЖЕНИЕ ЗНАНИЙ В БАЗАХ

Слайд 161. Этапы KDD ПОСТАНОВКА ЗАДАЧИ (В ТЕРМИНАХ ЦЕЛЕВЫХ ПЕРЕМЕННЫХ);ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА (ПРЕОБРАЗОВАНИЕ

Слайд 17Одно из направлений ИАД: поиск, выбор, синтез методов и средств обработки

Слайд 18 Отличительная особенность ВМ от обычного (классического) заключается в том, что здесь

Слайд 192. Классификация задач ИАД 1. Выявление ассоциативных взаимосвязей в данных Ассоциация используется

Слайд 20Результатом ассоциативного анализа являются правила вида: Если факт А является частью

Слайд 21 2. Выявление последовательностей Последовательные шаблоны аналогичны ассоциациям с той лишь разницей,

Слайд 22 3. Кластеризация объектов – разделение исследуемого множества объектов на группы «похожих»

Слайд 23 4. Классификация объектов – отнесение объектов к одному из известных классов

Слайд 24 5. Нахождение исключений, исключительных ситуаций, записей, которые резко отличаются чем-либо от

Слайд 25 6. Задачи регрессии – задача определения значения одного из параметров анализируемого

Слайд 263. Области применения ИАД Сфера применения Data Mining ничем не ограничена

Слайд 27 3. Области применения ИАД

Слайд 28 3. Области применения ИАД

Слайд 293. Области применения ИАД

Слайд 303. Области применения ИАД

Слайд 314. Математический аппарат ИАД ИАД – это многодисциплинарный подход, который включает

Слайд 324. Классификация методов ИАДМетоды статистической обработки данныхКибернетические методы оптимизацииТрадиционные методы решения

Слайд 33Методы статистической обработки данныхПредварительный анализ природы статистических данных (проверка гипотез стационарности,

Слайд 34Методы статистической обработки данныхДостоинстваПостроенные модели “прозрачны” и допускают интерпретацию.Возможно оценить статистическую

Слайд 35Методы статистической обработки данныхНедостаткиТребуют сохранение неизменных условий эксперимента (требования статистического ансамбля).Требуют

Слайд 36Методы статистической обработки данныхПрограммное обеспечениеStatistica (Statsoft), SAS (компания SAS Institute), SPSS

Слайд 37Кибернетические методы оптимизации Нейронные сети (Neural Nets)Генетические алгоритмы (Genetic algorithms)Эволюционное программирование

Слайд 38Нейронные сети ДостоинстваНе требуют априорных допущений о природе исследуемых данных. Удобны

Слайд 39Нейронные сети Недостатки“Черный ящик”: модель не может объяснить выявленные знания (не

Слайд 40Генетические алгоритмы ДостоинстваКрасота подхода, близость метода к природному механизму (имитация процесса

Слайд 41Генетические алгоритмы НедостаткиНевозможно оценить статистическую значимость результата.Сложность использования метода (сложность постановки

Слайд 42Эволюционное программирование ДостоинстваВысокая степень автоматизации (автоматическое обнаружение в массивах данных кластеров,

Слайд 44Традиционные методы решения оптимизационных задач Методы исследования операций, включающие в себя

Слайд 45Экспертные методы Деревья решенийАссоциативный анализПредметно-ориентированные системы анализа ситуацийМетоды визуализации

Слайд 46Деревья решений ДостоинстваНаглядность (возможность графического представления результатов, иерархическая структура дерева).Простота интерпретации

Слайд 47Деревья решений НедостаткиПроблема оценки статистической значимости результатов.Программное обеспечение С5.0 (RuleQuest, Австра­лия);

Слайд 48Ассоциативный анализ ДостоинстваПростота (для осуществления прогноза или выбора решения в прошлом

Слайд 49Ассоциативный анализНедостаткиВ процессе решения не создаются модели и правила, обобщающие предыдущий

Слайд 51Интегрированные технологии, вариативное моделированиеДостоинстваЭффективность (можно выбирать подходы адекватные задачам, или сравнивать

Слайд 52Технология KDD

Слайд 53Особенности технологий ИАДТехнологии ИАД в большей степени ориентированы на практическое приложение

Слайд 54Требования к результатам ИАДРезультат должен быть понятен пользователю-нематематику. Результат должен быть

Слайд 55Связь технологий Data Warehousing и OLAP с методами ИАД

Похожие презентации

Обратная связь

Что такое ThePresentation.ru?

Слайд 1Лекция № 1
Введение. Основные определения и понятия курса

Слайд 2Структура курса
Лекции – 34 ч.
Лабораторные работы – 17 ч. (4)
Самостоятельная

Слайд 3Литература
Методичка «Решение задач ИАД» в среде Statistica
А.А. Барсегян «Методы и модели

Слайд 61. Определение ИАД
Интеллектуальный анализ данных (ИАД, data mining) представляет собой новое

Слайд 71. Определение ИАД

ИАД (Data Mining) - это процесс поддержки принятия решений,

Слайд 81. Определение ИАД

Data Mining” – это процесс выделения, исследования и моделирования

Слайд 91. Определение ИАД
ИАД “Data Mining” – это процесс, цель которого –

Слайд 10
“Data Mining” – технология поиска характеризующих объект скрытых зависимостей и взаимосвязей,

Слайд 11
ИАД (Data Mining) - процесс аналитического исследования больших массивов информации (обычно

Слайд 12
1. Определение Data Mining
Data Mining – исследование и обнаружение «машиной» (алгоритмами,

Слайд 13

1. Определение Data Mining
Основные свойства знаний:

- знания должны быть новые, ранее

Слайд 14
знания должны быть практически полезны. Знания должны быть применимы на новых

Слайд 151. Определение KNOWLEDGE DISCOVERY IN DATABASES (POLYANALYST)
«ОБНАРУЖЕНИЕ ЗНАНИЙ В БАЗАХ

Слайд 161. Этапы KDD
ПОСТАНОВКА ЗАДАЧИ (В ТЕРМИНАХ ЦЕЛЕВЫХ ПЕРЕМЕННЫХ);
ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА (ПРЕОБРАЗОВАНИЕ

Слайд 18
Отличительная особенность ВМ от обычного (классического) заключается в том, что здесь

Слайд 192. Классификация задач ИАД
1. Выявление ассоциативных взаимосвязей в данных
Ассоциация используется

Слайд 21
2. Выявление последовательностей
Последовательные шаблоны аналогичны ассоциациям с той лишь разницей,

Слайд 22

3. Кластеризация объектов – разделение исследуемого множества объектов на группы «похожих»

Слайд 23
4. Классификация объектов – отнесение объектов к одному из известных классов

Слайд 24
5. Нахождение исключений, исключительных ситуаций, записей, которые резко отличаются чем-либо от

Слайд 263. Области применения ИАД
Сфера применения Data Mining ничем не ограничена

Слайд 27
3. Области применения ИАД

Слайд 28
3. Области применения ИАД

Слайд 314. Математический аппарат ИАД
ИАД – это многодисциплинарный подход, который включает

Слайд 324. Классификация методов ИАД
Методы статистической обработки данных
Кибернетические методы оптимизации
Традиционные методы решения

Слайд 33Методы статистической обработки данных
Предварительный анализ природы статистических данных (проверка гипотез стационарности,

Слайд 34Методы статистической обработки данных
Достоинства
Построенные модели “прозрачны” и допускают интерпретацию.
Возможно оценить статистическую

Слайд 35Методы статистической обработки данных
Недостатки
Требуют сохранение неизменных условий эксперимента (требования статистического ансамбля).
Требуют

Слайд 36Методы статистической обработки данных
Программное обеспечение
Statistica (Statsoft), SAS (компания SAS Institute), SPSS

Слайд 37Кибернетические методы оптимизации
Нейронные сети (Neural Nets)
Генетические алгоритмы (Genetic algorithms)
Эволюционное программирование

Слайд 38Нейронные сети
Достоинства
Не требуют априорных допущений о природе исследуемых данных.
Удобны

Слайд 39Нейронные сети
Недостатки
“Черный ящик”: модель не может объяснить выявленные знания (не

Слайд 40Генетические алгоритмы
Достоинства
Красота подхода, близость метода к природному механизму (имитация процесса

Слайд 41Генетические алгоритмы
Недостатки
Невозможно оценить статистическую значимость результата.
Сложность использования метода (сложность постановки

Слайд 42Эволюционное программирование
Достоинства
Высокая степень автоматизации (автоматическое обнаружение в массивах данных кластеров,

Слайд 44Традиционные методы решения оптимизационных задач
Методы исследования операций, включающие в себя

Слайд 45Экспертные методы
Деревья решений
Ассоциативный анализ
Предметно-ориентированные системы анализа ситуаций
Методы визуализации

Слайд 46Деревья решений
Достоинства
Наглядность (возможность графического представления результатов, иерархическая структура дерева).
Простота интерпретации

Слайд 47Деревья решений
Недостатки
Проблема оценки статистической значимости результатов.
Программное обеспечение
С5.0 (RuleQuest, Австралия);

Слайд 48Ассоциативный анализ
Достоинства
Простота (для осуществления прогноза или выбора решения в прошлом

Слайд 49Ассоциативный анализ
Недостатки
В процессе решения не создаются модели и правила, обобщающие предыдущий

Слайд 51Интегрированные технологии, вариативное моделирование
Достоинства
Эффективность (можно выбирать подходы адекватные задачам, или сравнивать

Слайд 53Особенности технологий ИАД
Технологии ИАД в большей степени ориентированы на практическое приложение

Слайд 54Требования к результатам ИАД
Результат должен быть понятен пользователю-нематематику.
Результат должен быть