Машинное обучение: качество презентация

Содержание

1. Машинное обучение: качество
2. Немного «фраз» «Гораздо легче что-то измерить, чем
3. Постановка в случае учителя Ожидание хотим
4. Какая нужна выборка Интересно получить выборку, несмещенную
5. Как это выглядит на практике?
6. Как это выглядит на практике?
7. Как это выглядит на практике?
8. Виды ошибок обучения
9. Виды ошибок обучения Переобучение, переподгонка (overtraining, overfitting)
10. Наш первый метод
11. Пример По материалам machinelearning.ru
12. Пример По материалам machinelearning.ru
13. Пример По материалам machinelearning.ru
14. Задача Дано: Найти оптимальные p и a
15. Постановка в случае учителя Ожидание хотим
16. Схема тестирования
17. Overfit on validation
18. Как не оверфитнуться? White box:
19. Теория Вапника-Червоненкиса Владимир Наумович Вапник, Алексей Яковлевич
20. Вероятность переобучения Воронцов Константин Вячеславович (machinelearning.ru, ШАД
21. PAC-Bayes bounds Результат алгоритма – распределение
22. Изменение процедуры подбора Игры с шагом:
23. Cross-validation Рандомно поделим множество X на
24. Виды cross-validation 2-fold k-fold
25. Как принять решение по результатам CFV?
26. На чем тестировать? Реальные данные
27. ОТСЕБЯТЕНА Машинное Обучение: качество
28. Решающие функции и информация Решающая функция

Немного «фраз» «Гораздо легче что-то измерить, чем понять, что именно вы измеряете.» — Джон Уильям Салливан «If you can't measure it, you can't improve it» — Lord Kelvin

Главная
Разное
Машинное обучение: качество

Слайд 1ИГОРЬ КУРАЛЁНОК
К.Ф.-М.Н., ЯНДЕКС/СПБГУ
Машинное обучение: качество

Слайд 2Немного «фраз»
«Гораздо легче что-то измерить, чем понять, что именно вы измеряете.»

—

Джон Уильям Салливан

«If you can't measure it, you can't improve it»

— Lord Kelvin

Слайд 3Постановка в случае учителя
Ожидание хотим считать по всей ген. совокупности

Функцию обучаем на X

=> Если бы X была репрезентативной то все проще:

Слайд 4Какая нужна выборка
Интересно получить выборку, несмещенную (смещенную не более чем …)

по результатам процедуры обучения:
Найти «хороший» способ генерации выборки при условии процедуры подбора
Наложить ограничения на процедуру подбора
Ограничения на решающую функцию

=> Надо научиться мерять смещенность выборки

Иными словами, репрезентативная выборка представляет собой микрокосм, меньшую по размеру, но точную модель генеральной совокупности, которую она должна отражать.

- Дж. Б. Мангейм, Р. К. Рич

Слайд 5Как это выглядит на практике?

Слайд 6Как это выглядит на практике?

Слайд 7Как это выглядит на практике?

Слайд 8Виды ошибок обучения

Слайд 9Виды ошибок обучения
Переобучение, переподгонка (overtraining, overfitting) — нежелательное явление, возникающее при

решении задач обучения по прецедентам, когда вероятность ошибки обученного алгоритма на объектах тестовой выборки оказывается существенно выше, чем средняя ошибка на обучающей выборке.

Недообучение (underfitting)— нежелательное явление, возникающее при решении задач обучения по прецедентам, когда алгоритм обучения не обеспечивает достаточно малой величины средней ошибки на обучающей выборке. Недообучение возникает при использовании недостаточно сложных моделей.

- machinelearning.ru

Слайд 10Наш первый метод

Слайд 11Пример
По материалам machinelearning.ru

Слайд 12Пример
По материалам machinelearning.ru

Слайд 13Пример
По материалам machinelearning.ru

Слайд 14Задача
Дано:

Найти оптимальные p и a

Слайд 15Постановка в случае учителя
Ожидание хотим считать по всей ген. совокупности

Функцию обучаем на X

=> Если бы X была репрезентативной то все проще:

Слайд 16Схема тестирования

Слайд 17Overfit on validation

Слайд 18Как не оверфитнуться?
White box:
Выбор решающего семейства при фиксированном объеме

данных:
VC оценки
Оценка вероятности переобучения (по Воронцову)
PAC-Bayes bounds
Изменение процедуры подбора:
Игры с шагом
Регуляризация
Black box:
Cross-validation

Слайд 19Теория Вапника-Червоненкиса
Владимир Наумович Вапник, Алексей Яковлевич Червоненкис
Задача минимизации эмпирического риска

VC-оценка (классификация):

Слайд 20Вероятность переобучения
Воронцов Константин Вячеславович (machinelearning.ru, ШАД в Москве)
Вводим слабую вероятностную

аксиоматику

Оцениваем вероятность переобучения:

Слайд 21PAC-Bayes bounds
Результат алгоритма – распределение над семейством
Решающая функция –среднее

выборки этого распределения

Слайд 22Изменение процедуры подбора
Игры с шагом: а давайте не будем точно

решать задачку

Поменяем Lossь так, чтобы более «рискованные» решения получали discount.

Слайд 23Cross-validation
Рандомно поделим множество X на несколько кусочков
Обучимся на одной

части
Проверим на оставшихся
Повторим до ощущения надежности

Слайд 24Виды cross-validation
2-fold
k-fold
Random sub-sampling (e.g. bootstrapping)
Leave-one-out (LOOCV)

Слайд 25Как принять решение по результатам CFV?
Wilcoxon signed rank test для

проверки на равенство
Знак по выборочному среднему
Проблемы:
Чем меньше выборка X тем более зависимы результаты
Интересно:

а наблюдаем мы только 1 реализацию.
Слишком оптимистичные решения
Любое практическое исследование должно иметь эти оценки

Слайд 26На чем тестировать?
Реальные данные
Поиск: РОМИП, TREC, Яндекс.ИМАТ, Yahoo LTRCh

Pascal Challenge
InnoCentive
Искусственные данные (многомерный XOR)
Задумаем «хитрое» распределение и попробуем его отгадать

Слайд 27ОТСЕБЯТЕНА
Машинное Обучение: качество

Слайд 28Решающие функции и информация
Решающая функция несет информацию о выборке
Чем

«короче» можно записать решающую функцию, тем меньше оверфита
Чем сложнее зависимость, тем больше данных надо

Скачать презентацию

Машинное обучение: качество презентация

Содержание

Слайд 1ИГОРЬ КУРАЛЁНОК
К.Ф.-М.Н., ЯНДЕКС/СПБГУ
Машинное обучение: качество

Слайд 2Немного «фраз»
«Гораздо легче что-то измерить, чем понять, что именно вы измеряете.»

—

Слайд 3Постановка в случае учителя
Ожидание хотим считать по всей ген. совокупности

Слайд 4Какая нужна выборка
Интересно получить выборку, несмещенную (смещенную не более чем …)

Слайд 5Как это выглядит на практике?

Слайд 6Как это выглядит на практике?

Слайд 7Как это выглядит на практике?

Слайд 8Виды ошибок обучения

Слайд 9Виды ошибок обучения
Переобучение, переподгонка (overtraining, overfitting) — нежелательное явление, возникающее при

Слайд 10Наш первый метод

Слайд 11Пример
По материалам machinelearning.ru

Слайд 12Пример
По материалам machinelearning.ru

Слайд 13Пример
По материалам machinelearning.ru

Слайд 14Задача
Дано:

Найти оптимальные p и a

Слайд 15Постановка в случае учителя
Ожидание хотим считать по всей ген. совокупности

Слайд 16Схема тестирования

Слайд 17Overfit on validation

Слайд 18Как не оверфитнуться?
White box:
Выбор решающего семейства при фиксированном объеме

Слайд 19Теория Вапника-Червоненкиса
Владимир Наумович Вапник, Алексей Яковлевич Червоненкис
Задача минимизации эмпирического риска

Слайд 20Вероятность переобучения
Воронцов Константин Вячеславович (machinelearning.ru, ШАД в Москве)
Вводим слабую вероятностную

Слайд 21PAC-Bayes bounds
Результат алгоритма – распределение над семейством
Решающая функция –среднее

Слайд 22Изменение процедуры подбора
Игры с шагом: а давайте не будем точно

Слайд 23Cross-validation
Рандомно поделим множество X на несколько кусочков
Обучимся на одной

Слайд 24Виды cross-validation
2-fold
k-fold
Random sub-sampling (e.g. bootstrapping)
Leave-one-out (LOOCV)

Слайд 25Как принять решение по результатам CFV?
Wilcoxon signed rank test для

Слайд 26На чем тестировать?
Реальные данные
Поиск: РОМИП, TREC, Яндекс.ИМАТ, Yahoo LTRCh

Слайд 27ОТСЕБЯТЕНА
Машинное Обучение: качество

Слайд 28Решающие функции и информация
Решающая функция несет информацию о выборке
Чем

Обратная связь

Что такое ThePresentation.ru?

Машинное обучение: качество презентация

Содержание

Слайд 1ИГОРЬ КУРАЛЁНОКК.Ф.-М.Н., ЯНДЕКС/СПБГУМашинное обучение: качество

Слайд 2Немного «фраз»«Гораздо легче что-то измерить, чем понять, что именно вы измеряете.»—

Слайд 3Постановка в случае учителя Ожидание хотим считать по всей ген. совокупности

Слайд 4Какая нужна выборкаИнтересно получить выборку, несмещенную (смещенную не более чем …)

Слайд 5Как это выглядит на практике?

Слайд 6Как это выглядит на практике?

Слайд 7Как это выглядит на практике?

Слайд 8Виды ошибок обучения

Слайд 9Виды ошибок обученияПереобучение, переподгонка (overtraining, overfitting) — нежелательное явление, возникающее при

Слайд 10Наш первый метод

Слайд 11ПримерПо материалам machinelearning.ru

Слайд 12ПримерПо материалам machinelearning.ru

Слайд 13ПримерПо материалам machinelearning.ru

Слайд 14ЗадачаДано: Найти оптимальные p и a

Слайд 15Постановка в случае учителя Ожидание хотим считать по всей ген. совокупности

Слайд 16Схема тестирования

Слайд 17Overfit on validation

Слайд 18Как не оверфитнуться? White box: Выбор решающего семейства при фиксированном объеме

Слайд 19Теория Вапника-ЧервоненкисаВладимир Наумович Вапник, Алексей Яковлевич Червоненкис Задача минимизации эмпирического риска

Слайд 20Вероятность переобученияВоронцов Константин Вячеславович (machinelearning.ru, ШАД в Москве) Вводим слабую вероятностную

Слайд 21PAC-Bayes bounds Результат алгоритма – распределение над семейством Решающая функция –среднее

Слайд 22Изменение процедуры подбора Игры с шагом: а давайте не будем точно

Слайд 23Cross-validation Рандомно поделим множество X на несколько кусочков Обучимся на одной

Слайд 24Виды cross-validation 2-fold k-fold Random sub-sampling (e.g. bootstrapping) Leave-one-out (LOOCV)

Слайд 25Как принять решение по результатам CFV? Wilcoxon signed rank test для

Слайд 26На чем тестировать? Реальные данные Поиск: РОМИП, TREC, Яндекс.ИМАТ, Yahoo LTRCh

Слайд 27ОТСЕБЯТЕНАМашинное Обучение: качество

Слайд 28Решающие функции и информация Решающая функция несет информацию о выборке Чем

Похожие презентации

Обратная связь

Что такое ThePresentation.ru?

Слайд 1ИГОРЬ КУРАЛЁНОК
К.Ф.-М.Н., ЯНДЕКС/СПБГУ
Машинное обучение: качество

Слайд 2Немного «фраз»
«Гораздо легче что-то измерить, чем понять, что именно вы измеряете.»

—

Слайд 3Постановка в случае учителя
Ожидание хотим считать по всей ген. совокупности

Слайд 4Какая нужна выборка
Интересно получить выборку, несмещенную (смещенную не более чем …)

Слайд 9Виды ошибок обучения
Переобучение, переподгонка (overtraining, overfitting) — нежелательное явление, возникающее при

Слайд 11Пример
По материалам machinelearning.ru

Слайд 12Пример
По материалам machinelearning.ru

Слайд 13Пример
По материалам machinelearning.ru

Слайд 14Задача
Дано:

Найти оптимальные p и a

Слайд 15Постановка в случае учителя
Ожидание хотим считать по всей ген. совокупности

Слайд 18Как не оверфитнуться?
White box:
Выбор решающего семейства при фиксированном объеме

Слайд 19Теория Вапника-Червоненкиса
Владимир Наумович Вапник, Алексей Яковлевич Червоненкис
Задача минимизации эмпирического риска

Слайд 20Вероятность переобучения
Воронцов Константин Вячеславович (machinelearning.ru, ШАД в Москве)
Вводим слабую вероятностную

Слайд 21PAC-Bayes bounds
Результат алгоритма – распределение над семейством
Решающая функция –среднее

Слайд 22Изменение процедуры подбора
Игры с шагом: а давайте не будем точно

Слайд 23Cross-validation
Рандомно поделим множество X на несколько кусочков
Обучимся на одной

Слайд 24Виды cross-validation
2-fold
k-fold
Random sub-sampling (e.g. bootstrapping)
Leave-one-out (LOOCV)

Слайд 25Как принять решение по результатам CFV?
Wilcoxon signed rank test для

Слайд 26На чем тестировать?
Реальные данные
Поиск: РОМИП, TREC, Яндекс.ИМАТ, Yahoo LTRCh

Слайд 27ОТСЕБЯТЕНА
Машинное Обучение: качество

Слайд 28Решающие функции и информация
Решающая функция несет информацию о выборке
Чем