Про меня
Лекции от экспертов из компаний
Лекции от студентов для студентов
Курс лекций по R, ML, Big Data
Лекции от экспертов из компаний
Events: SNA hackathon, DM Sauna
?
Data ***
Data Scientist:
The Sexiest Job of the 21st Century
Metamarket CEO Mike Driscoll, Quora
Особенности профессии
Metamarket CEO Mike Driscoll, Quora
Особенности профессии
«A data scientist is someone who knows more statistics than a computer scientist and more computer science than a statistician.»
«Data Scientist = statistician + programmer + coach + storyteller + artist.»
«A data scientist is a statistician who lives in San Francisco»
Механика Анализа Данных
Информация
Механика Анализа Данных
Информация
!
Механика Анализа Данных
Большая картина: бизнес
Большая картина: бизнес
Большая картина: бизнес
Solutions
Solution Interface
Большая картина: бизнес
Business Analysis
Solutions
Solution Interface
Большая картина: бизнес
Business Analysis
Solutions
Solution Interface
Большая картина: бизнес
Data Mining
Мы знаем что решаем
У нас есть данные
Мы знаем что должно получиться на выходе
Большая картина: аналитика
Solutions
Solution Interface
Data Mining
Большая картина: аналитика
Machine Learning
Затем строим модели, прогнозы, объясняем их и т.д. Используем их результаты для ответа на поставленный вопрос.
Связующий с бизнесом слой
Слой анализа данных
Большая картина: аналитика
Data domain
Knowledge domain
Интерактивный график с узлами-людьми
Большая картина: аналитика
Solutions
Большая картина: аналитика
High Performance Computing
Infrastructure layer
Большая картина: инфраструктура
High Performance Computing
Infrastructure layer
Большая картина: инфраструктура
High Performance Computing
Infrastructure layer
Большая картина: инфраструктура
Knowledge domain
Снизить затраты магазина чая
Система прогноза спроса на чай, оптимизация закупок
Большая картина: пример
Большая картина
Infrastructure layer
Data Mining Track
Digital Sales Track
Data Visualization Track
Структура обучающей программы
Осень 2014
Infrastructure layer
Data Mining Track
Digital Sales Track
Data Visualization Track
Структура обучающей программы
Весна 2014
Data Journalism
Defence Against
Dark Arts
Data Mining in Industry
Big Data
Infrastructure layer
Data Mining Track
Digital Sales Track
Data Visualization Track
Структура обучающей программы
Лето 2014
Data Journalism
Defence Against
Dark Arts
Data Mining in Industry
Big Data
Machine Learning in Production
Advanced Machine Learning
Data Mining for Public Good
International Data Mining in Industry
Advan. ML
ML in produc.
Intern. DM
More in progress
Student Tracks
Oct-Dec 2014
Feb-Apr 2015
Jul-Aug 2015
FAQ про обучение
FAQ про обучение: где магия
Hardcore группа?
Можно улучшить результат?
Запоминаем текущее решение, возвращаемся на тот шаг, где мы расслабились
Начинаем новый «круг» решения
Тестирование корректно?
Не трогать тестовое множество
Кросс-валидация, бутстрепп
Учтены все решения?
«Не забудем, не простим»
Аггрегировать решения, stacking
Можно внедрять? (bonus)
Выделить все что можно в предрассчитанные модули
Добавить в валидацию моделей технические требования
real-time
Тип модели?
Наращивать сложность модели (эффекты) постепенно
Посмотреть специальные модели для текущей задачи
Выбор гиперпараметров?
Кросс-валидация\бутстрепп
Для оценки обобщающих способностей – nested CV
Нет ли оверфиттинга?
Кросс-валидация моделей
Регуляризация
Отбор признаков в моделях
Усреднение моделей
Нет ли андерфиттинга?
Если точность устойчива на тренировочном и тестовом множествах –утяжелить модель
Назначать наблюдениям веса
Есть технические трудности?
Пробовать работать с малыми подвыборками
Данные удобны?
Выбрать политику заполнения дыр: среднее/медиана, knn, svd, …
При необходимости фильтровать данные: выбросы, сглаживания
Нормализация данных
Что еще можно вытащить?
Использовать проекторы:
SVD, ICA, kPCA, …
Использовать кластерный анализ: метрические кластера (признак), иерархические (отбор), …
Feature learning
Посмотреть информацию, что еще делают по задаче
Как задачу обычно решают?
Здравый смысл
Поиск литературы: статьи,
туториалы, форумы
Спросить экспертов
На что в данных смотрят?
Посмотреть пакеты и библиотеки по тематике задачи
Помотреть пресс-релизы коммерческих решений
Что именно оптимизировать?
См. как обычно решают задачу
См. техническую документацию
к пакетам и библиотекам
Модель
Обработка
Гипотезы
Результат
Делать полный круг как можно быстрее!
Начинать с простых гипотез, признаков, моделей
Запоминать результаты готовых связок
«признаки-обработка-модель», хранить их
Сохранять порядок в решении: держать разные признаки, обработки и модели в отдельных файлах
Вести комментарии с результатами анализа
Что происходит на DM+ML слое
Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:
Email: Нажмите что бы посмотреть