versicolor
virginica
setosa
Методы понижения размерности
Деревья принятия решений
…
Анализ главных компонент Кластеризация
Простая визуализация «сырых» данных:
ВОПРОС: какой из видов ирисов более «другой», чем остальные?
D0: высота лица, тип волос, улыбка D24: высота глаз, ширина лица, высота носа
D48: ширина глаз, тип лица, ширина носа
R3: ширина уха, высота рта, высота волос
R24: ширина рта, ширина волос, высота уха
Как вы думаете, «кто» это?
Служебный график осыпи (scree plot)
Доля объяснённой дисперсии. Первые 2 гл.компоненты объясняют почти 96% дисперсии!
s – setosa
a – virginica
v – versicolor
(1)
(2)
(3)
(4)
a)
b)
с)
d)
Шаг 2. «Раскрашиваем» точки по принципу ближайшего центра
Шаг 3. Переставляем центры кластеров
в центр масс (геометрический центр)
Точки, которые находятся «на чужой территории»
Точки, которые находятся «на чужой территории»
Точки, которые находятся «на чужой территории» (стало меньше!)
Шаг 6. «Перекрашиваем» точки,
которые находятся «на чужой территории»
Шаг 7. Переставляем центры кластеров
в центр масс (геометрический центр)
Точки, которые находятся «на чужой территории» (ещё меньше!)
Чем более явные кластеры в данных, тем быстрее сойдётся алгоритм!
0
1
2
3
4
5
Финальная «раскраска»
Чем более явные кластеры в данных, тем круче локоть!
Подход снизу-вверх
Уровень точности (то есть доля верно классифицированных объектов) для тестовой выборки должен соответствовать уровню точности для обучающей!
Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:
Email: Нажмите что бы посмотреть