Этапы анализа данных презентация

Содержание

Последовательность этапов Data Mining

Слайд 1Этапы анализа данных
Графеева Н.Г.
2016


Слайд 2Последовательность этапов Data Mining


Слайд 3Выдвижение гипотез
Максимально использовать знание. экспертов о предметной области.
Полагаться на здравый смысл.
Отталкиваться

от опыта и интуиции специалистов.
Собрать и систематизировать максимум возможных предположений и гипотез.


Слайд 4Сбор и систематизация данных (подбор факторов)
Абстрагироваться от существующих информационных систем и

имеющихся в наличии данных.
Описать факторы, влияющие на анализируемый процесс/объект.
Оценить значимость каждого фактора.




Слайд 5Сбор и систематизация данных (методы сбора)
Получение из существующих информационных систем.
Извлечение необходимых

сведений из косвенных данных.
Использование открытых источников .
Проведение социологических, маркетинговых и подобных исследований .
Ввод данных «вручную».

Слайд 6Сбор и систематизация данных. Формат.
Данные должны быть собраны в единую таблицу

в формате MS Excel, текстовые файлы с разделителями или в набор таблиц в любой СУБД.

Необходимо унифицировать представление данных – один и тот же объект должен описываться везде одинаково.


Слайд 7Сбор упорядоченных данных


Слайд 8Объемы упорядоченных данных
Если для процесса характерна сезонность/цикличность, необходимо иметь данные хотя

бы за один полный сезон/цикл с возможностью варьирования интервалов (понедельное, помесячное…).

Максимальный горизонт прогнозирования зависит от объема данных:
данные на 1,5 года – прогноз максимум на 1 месяц
данные за 2-3 года – прогноз максимум на 2 месяца


Слайд 9Сбор неупорядоченных данных


Слайд 10Объемы неупорядоченных данных
Количество примеров (прецедентов) должно быть значительно больше количества факторов.
Желательно,

чтобы данные покрывали как можно больше ситуаций реального процесса.
Пропорции различных примеров (прецедентов) должны примерно соответствовать реальному процессу.


Слайд 11Сбор транзакционных данных


Слайд 12Объемы транзакционных данных
Анализ транзакций целесообразно производить на большом объеме данных, иначе

могут быть выявлены статистически необоснованные правила. Алгоритмы поиска ассоциативных связей способны быстро перерабатывать огромные массивы данных.

Примерное соотношение между количеством объектов и объемом данных:
300-500 объектов – более 10 тыс. транзакций
500-1000 объектов – более 300 тысяч транзакций


Слайд 13Подбор модели
Уделить внимание очистке данных.
Комбинировать методики анализа.
Не гнаться за абсолютной точностью

и начать использование при получении первых приемлемых результатов.
При невозможности получения приемлемых результатов вернуться на предыдущие шаги схемы.


Слайд 14Тестирование, интерпретация
Для оценки полученных результатов использовать знания экспертов.
Тестировать построенные модели на

различных выборках для оценки их обобщающих способностей.
При невозможности получения приемлемых результатов вернуться на предыдущие шаги схемы.


Слайд 15Использование
При получении приемлемых результатов начать использование.
Периодически оценивать адекватность модели текущей ситуации.

Даже самая удачная модель со временем перестает ей соответствовать.
Постоянно работать над улучшением модели.


Слайд 16Задание 0
Загрузить в базу содержимое следующего файла (понадобится для последующих заданий):



Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика