Лекция 1 DMT. Большая картина Data Mining презентация

Содержание

Алексей Натёкин (организатор) В 2007/2008 на Матмехе СПбГУ «влился»: нечеткая логика, нейросети, ... Аспирант: Про меня

Слайд 1Большая картина Data Mining
Лекция 1, 15.10.2014
Алексей Натёкин



Слайд 2Алексей Натёкин (организатор)

В 2007/2008 на Матмехе СПбГУ «влился»: нечеткая логика, нейросети, ...





Аспирант:

Про меня



Слайд 3Зима 2013:
6 месяцев
25 студентов

Осень 2013:
12 месяцев
25 студентов

Осень 2014:
3 месяца
50+ студентов


Про

Data Mining Track


Лекции от экспертов из компаний
Лекции от студентов для студентов

Курс лекций по R, ML, Big Data
Лекции от экспертов из компаний
Events: SNA hackathon, DM Sauna

?


Слайд 5Что такое Data Science?



Слайд 6


Data Mining ~ Анализ Данных


Data Science ~ Наука о Данных


KDD: Knowledge

Discovery in Databases


Data ***



Слайд 7



“… key player in organizations: the “data scientist.” It’s a high-ranking

professional with the training and curiosity to make discoveries in the world of big data. “

“The title has been around for only a few years. But thousands of data scientists are already working at both start-ups and well-established companies. “

Data Scientist: The Sexiest Job of the 21st Century



Слайд 8











«Data science, as it’s practiced, is a blend of

Red-Bull-fueled hacking and espresso-inspired statistics.»

Metamarket CEO Mike Driscoll, Quora

Особенности профессии


Слайд 9











«Data science, as it’s practiced, is a blend of

Red-Bull-fueled hacking and espresso-inspired statistics.»

Metamarket CEO Mike Driscoll, Quora

Особенности профессии

«A data scientist is someone who knows more statistics than a computer scientist and more computer science than a statistician.»

«Data Scientist = statistician + programmer + coach + storyteller + artist.»

«A data scientist is a statistician who lives in San Francisco»


Слайд 10

Друзья Data Scientist’ов

Data Miners, Machine Learners, Big Data engineers, ...
А также

те, кто занимается:
Artificial Intelligence
Natural Language Processing
Statistical Process Control
Information Retrieval
Business Intelligence
Signal Processing
Econometrics
Biostatistics

И вообще, R&D engineers


Слайд 11
Механика Анализа Данных


Слайд 12Всем нужны знания. Их можно извлекать из данных:
Понимание происходящего
Предсказание будущего
Управление ситуацией


Механика

Анализа Данных



Слайд 13Всем нужны знания. Их можно извлекать из данных:
Понимание происходящего
Предсказание будущего
Управление ситуацией


Механика

Анализа Данных



Слайд 14Всем нужны знания. Их можно извлекать из данных:
Понимание происходящего
Предсказание будущего
Управление ситуацией


Основная

цель:
Принять решение
Действовать!

Механика Анализа Данных


Информация


Слайд 15Всем нужны знания. Их можно извлекать из данных:
Понимание происходящего
Предсказание будущего
Управление ситуацией


Основная

цель:
Принять решение
Действовать!

Механика Анализа Данных


Информация


!


Слайд 16
Пример: оффлайн магазин чая
Понимание происходящего ...
Предсказание будущего ...
Управление ситуацией ...
Механика Анализа Данных


Слайд 17
Пример: оффлайн магазин чая
Понимание происходящего - есть различные сегменты покупателей (какие?) - потребительские

корзины (какие?) - больше всего покупают на выходных (когда?)
Предсказание будущего - на 8 марта купят 3 кило пу-эра
Управление ситуацией - можно делать bundle’ы

Механика Анализа Данных



Слайд 18
Пример: ...
Понимание происходящего - ...
Предсказание будущего - ...
Управление ситуацией - ...

Что только что произошло?
Механика

Анализа Данных



Слайд 19

Большая картина Больших Данных


Слайд 20Business Analysis
Business Call


1. Все всегда начинается с реальной

задачи, которая стоит перед компанией. На языке бизнеса.
2. Конкретизировать задачу в терминах анализа.

Большая картина: бизнес



Слайд 21Business Analysis
Business Call


1. Все всегда начинается с реальной

задачи, которая стоит перед компанией. На языке бизнеса.
2. Конкретизировать задачу в терминах анализа.

3. Сформировать гипотезы про реальную проблему, породившую задачу.

Пример: уходят пользователи, нужно чтобы не уходили.

Большая картина: бизнес



Слайд 22

Business Analysis
Business Call


1. Все всегда начинается с реальной

задачи, которая стоит перед компанией. На языке бизнеса.
2. Конкретизировать задачу в терминах анализа.

3. Сформировать гипотезы про реальную проблему, породившую задачу.

4. Определить, какие данные нужны для проверки гипотез

5. Собрать данные.

Большая картина: бизнес



Слайд 23Мы знаем что решаем
У нас есть данные

Нужно договориться о том,

что должно быть в решении

Solutions



Solution Interface

Большая картина: бизнес


Business Analysis




Слайд 24Мы знаем что решаем
У нас есть данные

Нужно договориться о том,

что должно быть в решении

И решить

Solutions



Solution Interface

Большая картина: бизнес


Business Analysis




Слайд 25Business Analysis
Business Call


Виды решений:
Отчет, былина об анализе
Набор красивых вылизанных графиков

(или dashboard)
Оракул, к которому можно обратиться
Сервис и/или realtime решение

Solutions



Solution Interface

Большая картина: бизнес



Слайд 26Business Analysis
Сколько живых подписчиков у паблика X?
график
Solution Interface


Большая картина: бизнес


Слайд 27Business Analysis
Сколько посетителей переходят на страницу продукта с главной?
график
Solution Interface


Большая

картина: бизнес



Слайд 28Business Analysis
Business Call

Не хватает магии – непосредственной работы с данными
Solutions
Solution

Interface


Data Mining

Мы знаем что решаем
У нас есть данные
Мы знаем что должно получиться на выходе

Большая картина: аналитика



Слайд 29Business Analysis
Business Call

Не хватает магии – непосредственной работы с данными

и построения моделей (знаний).

Solutions

Solution Interface


Data Mining

Большая картина: аналитика



Machine Learning


Слайд 30Business Analysis
Business Call

Solutions
Solution Interface

Data Mining
Большая картина: аналитика


Machine Learning
Сперва мы добываем

данные, исследуем их, приводим к удобному виду и обрабатываем.

Затем строим модели, прогнозы, объясняем их и т.д. Используем их результаты для ответа на поставленный вопрос.


Слайд 31Business Analysis
Business Call
Эта часть схемы обслуживает данные
Solutions
Solution Interface

Data Mining

Machine Learning
В

этой части схемы создаются знания



Связующий с бизнесом слой

Слой анализа данных

Большая картина: аналитика



Слайд 32Business Analysis
Кто лидеры мнений среди наших читателей
Solution Interface

Data Mining

Machine Learning


Business layer
Analysis

layer

Data domain

Knowledge domain

Интерактивный график с узлами-людьми

Большая картина: аналитика



Слайд 33Business Analysis
Solution Interface

Data Mining

Machine Learning

Business layer
Analysis layer
Data domain
Knowledge domain
Чего-то не хватает...
Business

Call

Solutions

Большая картина: аналитика



Слайд 34Business Analysis
Solution Interface

Data Mining

Machine Learning

Business layer
Analysis layer
Data domain
Knowledge domain
Business Call
Solutions

Big

Data


High Performance Computing

Infrastructure layer

Большая картина: инфраструктура



Слайд 35Business Analysis
Solution Interface

Data Mining

Machine Learning
Business layer
Analysis layer
Data domain
Knowledge domain
Business Call
Solutions

Big

Data


High Performance Computing

Infrastructure layer

Большая картина: инфраструктура





Слайд 36Business Analysis
Solution Interface

Data Mining

Machine Learning
Business layer
Analysis layer
Data domain
Knowledge domain
Business Call
Solutions

Big

Data


High Performance Computing

Infrastructure layer

Большая картина: инфраструктура




Слайд 37Business Analysis
Solution Interface

Data Mining

Machine Learning

Big Data

High Performance Computing
Business layer
Analysis layer
Infrastructure layer
Data

domain

Knowledge domain

Снизить затраты магазина чая



Система прогноза спроса на чай, оптимизация закупок

Большая картина: пример



Слайд 38 Про блоки:
Все начинается с реальной задачи. Задача первична!
Данные и знания могут

перемешиваться
Чем глубже погружается анализ – тем полезнее и качественнее извлеченные знания. И тем он дороже Про структуру схемы:
Одна сторона целиком занята обслуживанием данных, другая – знаниями
Каждый слой поддерживает вышестоящие


Большая картина



Слайд 39Business Analysis
Solution Interface

Data Mining

Machine Learning
Business layer
Analysis layer
Data domain
Knowledge domain

Big Data

High Performance

Computing

Infrastructure layer



Data Mining Track

Digital Sales Track

Data Visualization Track

Структура обучающей программы Осень 2014


Слайд 40Business Analysis
Solution Interface

Data Mining

Machine Learning
Business layer
Analysis layer
Data domain
Knowledge domain

Big Data

High Performance

Computing

Infrastructure layer



Data Mining Track

Digital Sales Track

Data Visualization Track

Структура обучающей программы Весна 2014

Data Journalism

Defence Against Dark Arts

Data Mining in Industry

Big Data


Слайд 41Business Analysis
Solution Interface

Data Mining

Machine Learning
Business layer
Analysis layer
Data domain
Knowledge domain

Big Data

High Performance

Computing

Infrastructure layer



Data Mining Track

Digital Sales Track

Data Visualization Track

Структура обучающей программы Лето 2014

Data Journalism

Defence Against Dark Arts

Data Mining in Industry

Big Data

Machine Learning in Production

Advanced Machine Learning

Data Mining for Public Good

International Data Mining in Industry


Слайд 42
Структура обучающей программы
Data Mining
Data Visualiz
Digital Sales
Big Data
Dark Arts
Data Journal
Data Mining Industr
DM

Public Good

Advan. ML

ML in produc.

Intern. DM

More in progress

Student Tracks

Oct-Dec 2014

Feb-Apr 2015

Jul-Aug 2015


Слайд 43Зачем это все?
Сообщество
Будущие коллеги

Чем курс отличается от других программ?
Эксперты с реальными

задачами
Много практики
Знакомство с частями большой картины

Чем курс отличается от прежних лет?
Хардкор – ведущая группа
Еще больше проектов
Хакатоны каждую неделю


FAQ про обучение



Слайд 44Зачем это все?
Сообщество
Будущие коллеги

Чем курс отличается от других программ?
Эксперты с реальными

задачами
Много практики
Знакомство с частями большой картины

Чем курс отличается от прежних лет?
Хардкор – ведущая группа
Еще больше проектов
Хакатоны каждую неделю


FAQ про обучение: где магия



Слайд 45Столько задач и проектов, сколько захотите ...их хватит на всех

Запросы на темы

лекций. ...в обмен на участие в их подготовке

Больше сила – больше ответственность ...помощь общей группе

Можно звать на помощь общую группу ...в обмен на опыт – курировать своих подопечных

Hardcore группа?



Слайд 46
...
Очень большая задача на курс


Слайд 47
Что происходит на DM+ML слое










Результат
Нам поставили задачу Пример: «предсказывать оценку эссе

студента, имея только его текст», «научиться классифицировать тип пользователя», …
Мы знаем каким должен быть результат Пример: хотим угадывать оценку, чтобы увеличить QWKappa, хотим предсказывать число лайков как мождно точнее (R2), …
У нас есть данные Пример: таблица .csv, БД SQL, сырой .txt, API к сервису, сенсоры, ...


Слайд 48
Что происходит на DM+ML слое









Результат
У нас есть данные Пример: таблица .csv,

БД SQL, сырой .txt, API к сервису, сенсоры, ...
Нам поставили задачу Пример: «предсказывать оценку эссе студента, имея только его текст», «научиться классифицировать тип пользователя», …
Мы знаем каким должен быть результат Пример: хотим угадывать оценку, чтобы увеличить QWKappa, хотим предсказывать число лайков как мождно точнее (R2), …



Слайд 49
Что происходит на DM+ML слое










Результат
Модель
(замес)
Обработка
(тактика)
Гипотезы (стратегия)
Нам поставили задачу Пример: «предсказывать оценку эссе

студента, имея только его текст», «научиться классифицировать тип пользователя», …
Мы знаем каким должен быть результат Пример: хотим угадывать оценку, чтобы увеличить QWKappa, хотим предсказывать число лайков как мождно точнее (R2), …
У нас есть данные Пример: таблица .csv, БД SQL, сырой .txt, API к сервису, сенсоры, ...


Слайд 50
Что происходит на DM+ML слое










Результат
Модель
(замес)
Обработка
(тактика)
Гипотезы (стратегия)
В университетах учат как построить модель.

Все остальное – остается за кадром.

“The bulk of the time is spent manipulating data − a mix of data discovery, data structuring, and creating context.” HBR
“Most analytic and visualization tools focus on the last two phases of this workflow. Unfortunately, most of a data scientist’s time is spent on the first three stages.” HBR




Слайд 51
Что происходит на DM+ML слое
























Результат
v.3.1.18
МоМодель
(замес)
дель
Обработка
(тактика)
Гипотезы (стратегия)


Слайд 52













Данные считываются верно?
Свериться с документацией (мб неверна документация)
Считывать построчно, вручную все

распарсивать
В данных есть ошибки?
Проверять типы переменных
Посмотреть на данные глазами
Вручную выправлять данные

Данных достаточно?
Выгрузить/собрать еще данных
Организовать новые эксперементы

Данные актуальны?
Выгрузить/собрать еще данных

Можно улучшить результат?
Запоминаем текущее решение, возвращаемся на тот шаг, где мы расслабились
Начинаем новый «круг» решения

Тестирование корректно?
Не трогать тестовое множество
Кросс-валидация, бутстрепп

Учтены все решения?
«Не забудем, не простим»
Аггрегировать решения, stacking

Можно внедрять? (bonus)
Выделить все что можно в предрассчитанные модули
Добавить в валидацию моделей технические требования real-time


Тип модели?
Наращивать сложность модели (эффекты) постепенно
Посмотреть специальные модели для текущей задачи

Выбор гиперпараметров?
Кросс-валидация\бутстрепп
Для оценки обобщающих способностей – nested CV

Нет ли оверфиттинга?
Кросс-валидация моделей
Регуляризация
Отбор признаков в моделях
Усреднение моделей

Нет ли андерфиттинга?
Если точность устойчива на тренировочном и тестовом множествах –утяжелить модель
Назначать наблюдениям веса


Есть технические трудности?
Пробовать работать с малыми подвыборками

Данные удобны?
Выбрать политику заполнения дыр: среднее/медиана, knn, svd, …
При необходимости фильтровать данные: выбросы, сглаживания
Нормализация данных

Что еще можно вытащить?
Использовать проекторы: SVD, ICA, kPCA, …
Использовать кластерный анализ: метрические кластера (признак), иерархические (отбор), …
Feature learning
Посмотреть информацию, что еще делают по задаче

Как задачу обычно решают?
Здравый смысл
Поиск литературы: статьи, туториалы, форумы
Спросить экспертов

На что в данных смотрят?
Посмотреть пакеты и библиотеки по тематике задачи
Помотреть пресс-релизы коммерческих решений

Что именно оптимизировать?
См. как обычно решают задачу
См. техническую документацию к пакетам и библиотекам

Модель

Обработка

Гипотезы

Результат

Делать полный круг как можно быстрее! Начинать с простых гипотез, признаков, моделей
Запоминать результаты готовых связок «признаки-обработка-модель», хранить их
Сохранять порядок в решении: держать разные признаки, обработки и модели в отдельных файлах
Вести комментарии с результатами анализа

Что происходит на DM+ML слое



Слайд 53
Очень большая задача на курс

Открытая, reusable библиотека решений


Слайд 54
Очень большая задача на курс

Открытая, reusable библиотека решений, попадающих в

top-5%

Слайд 55?

Выводы


Слайд 56Выводы
Что такое DM, DA, KDD?

Механика DM?

Задачи на практике?

Картина решений?

Структура треков?



Слайд 57Орг вопросы
Перенос на 18:00-21:00

Старосты

Редакторы

Сайт\платформа

Биржа проектов



Слайд 58Алексей Натёкин
+7 960 276 41 33
natekin@dmlabs.org


Спасибо!

Следующее занятие: Воскресенье 19 октября С

12:00 до 17:00

Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика