Кластеризация презентация

Содержание

Что такое кластеризация? Кластеризация – это процесс организации объектов на группы, элементы которых схожи в некотором роде. Кластер – это группа похожих объектов. Примечание: Кластеризация может показаться очень похожей на

Слайд 1Кластеризация
Графеева Н.Г.
2016


Слайд 2Что такое кластеризация?
Кластеризация – это процесс организации объектов на группы, элементы

которых схожи в некотором роде.
Кластер – это группа похожих объектов.

Примечание: Кластеризация может показаться очень похожей на классификацию. В чем же отличие? Некоторые авторы утверждают, что принципиальное отличие в количестве кластеров, которое нельзя задать заранее. Другие – разница в методах обучения. Кластеризация использует методы обучения без учителя.

Слайд 3Пример 1


Слайд 4Пример 1(продолжение)
В примере явно просматриваются 4 кластера. В качестве критерия подобия

можно использовать расстояние. Два или более объектов принадлежат одному кластеру, если они ‘близко’ расположены друг от друга в соответствии с выбранным критерием (расстоянием). Такая кластеризация называется кластеризацией на основе расстояния.

Слайд 5Виды кластеризации
Различают 2 вида кластеризации:
жесткая (hard clastering)
мягкая (soft clastering)

При жесткой кластеризации

каждый элемент исходного data set принадлежит только к одному кластеру, при мягкой – может принадлежать к нескольким.

Слайд 6Как определить качество кластеризации?
Нет никаких универсальных критериев, которые в общем случае

могут оценить качество кластеризации (однако активные исследования в этом направлении ведутся). Качество кластеризации всегда привязано к специфике конкретной задачи и, как правило, выражается в виде какой-то целевой функции, которую надо минимизировать или максимизировать.

Слайд 7Сферы применения кластеризации
Маркетинг: определение групп клиентов с похожим поведением.
Биология: кластеризация растений

и животных с учетом их особенностей.
Страхование: выявление групп держателей страховых полисов в соответствии со степенью риска.
Землетрясения: кластеризация эпицентров с целью выявления опасных зон.
И т.п.


Слайд 8Проблемы кластеризации
Не все методы кластеризации в состоянии учитывать некоторые свойства атрибутов

кластеризуемых объектов;
Для методов, основанных на расстояниях, эффективность сильно зависит от определения расстояния, которое может определяться неоднозначно;
Результаты кластеризации могут трактоваться неоднозначно.




Слайд 9Нормализация значений атрибутов объектов
Важной составляющей алгоритмов

кластеризации, основанных на расстоянии, является измерение расстояния между объектами. Если атрибуты измеряются одними и теми же физическими единицам, то, как правило, метрики евклидова расстояния бывает достаточно. Однако в более сложных случаях требуется проводить нормализацию (масштабирование, приведение к единой или, по крайней мере, соизмеримой шкале) атрибутов. Такое преобразование атрибутов в общем случае может привести к различным результатам (см. рис. на след слайде). Разумеется, самая подходящая нормализация может быть выбрана только на основе знаний о предметной области. Тем не менее универсальные приемы нормализации существуют.

Слайд 10Пример 2


Слайд 11MinMax нормализация
Существует много подходов для нормализации данных. Один из наиболее распространенных

- нормализация на основе минимума-максимума. Для такого типа нормализации используется следующая формула:

где X* — это нормализованное значение,
min(X),max(X) – минимальное и максимальное значение атрибута X.
Примечание:данная формула располагает все координаты на отрезке [0;1]




Слайд 12Измерение расстояний
Для многомерных случаев популярной мерой расстояния является метрика Минковского:


При p=2

– метрика Евклида:


При p=1 – Манхэттенское расстояние (расстояние городских кварталов):







Слайд 13Как проверить качество кластеризации на основе расстояния?
После получений результатов кластерного анализа

можно проверить правильность кластеризации (т.е. оценить, насколько кластеры отличаются друг от друга).
Для этого рассчитываются средние значения для каждого кластера. При хорошей кластеризации должны быть получены сильно отличающиеся средние для всех измерений или хотя бы большей их части.


Слайд 14Алгоритм K-means
Простейший алгоритм кластеризации, основанный на определении расстояний. В основе алгоритма

– определение k центроидов (по одному для каждого кластера). В дальнейшем центроиды переопределяются, однако их начальное местоположение может сильно повлиять на конечный результат. Весь смысл алгоритма – минимизация целевой функции:







Слайд 15Шаги алгоритма K-means
Определить количество кластеров и выбрать начальные центроиды для каждого

кластера.
Сопоставить каждый анализируемый объект кластеру с ближайшим выбранным расстоянием до центроида.
В каждом сформированном кластере пересчитать местоположение центроида на основе объектов, вошедших в кластер.
Повторять шаги 2 и 3 пока местоположение центроидов не перестанет изменяться.
Оценить качество кластеризации. Если плохо – вернуться к шагу 1 и изменить количество кластеров.



Слайд 16Как пересчитать местоположение центроида?
Простейший вариант – среднее арифметическое соответствующих координат всех

объектов кластера. Например, в двумерном случае с координатами x и y:








Слайд 17Пример перерасчета местоположения центроидов
До перерасчета
После перерасчета


Слайд 18Недостатки k-means
Алгоритм не всегда находит глобальный минимум, соответствующий целевой функции.
Алгоритм

очень чувствителен к начальному определению центроидов (поэтому в сомнительных случаях рекомендуется задавать начальные центроиды несколько раз).
Алгоритм очень чувствителен к количеству определяемых кластеров.

И, тем не менее, это хороший алгоритм, который адаптирован для многих предметных областей и дает хороший результат при правильном использовании.

Слайд 19Есть ли подходящие алгоритмы в готовом виде в современных СУБД?
Практически во

всех СУБД, претендующих на Data Mining, реализован алгоритм K-means. Разумеется, есть аналогичная реализация и в СУБД ORACLE.

Слайд 20ORACLE К-means
Процесс построения соответствующей модели разбивается на два шага:
Задание параметров

кластеризации.
Построение модели кластеризации.

Слайд 21Как выглядит задание параметров кластеризации?
Создаем таблицу с параметрами:

CREATE TABLE km_settings (setting_name

 VARCHAR2(30), setting_value VARCHAR2(30));

Заполняем таблицу подходящими параметрами алгоритма:

BEGIN          INSERT INTO km_settings (setting_name, setting_value)
VALUES    (dbms_data_mining.kmns_distance, dbms_data_mining.kmns_euclidean);    
INSERT INTO km_settings (setting_name, setting_value) VALUES    (dbms_data_mining.prep_auto, dbms_data_mining.prep_auto_on);
  INSERT INTO km_settings (setting_name, setting_value)
VALUES  (dbms_data_mining.clus_num_clusters, '7');
END;

Слайд 22Построение модели кластеризации
declare
m_name varchar2(32) :='km';
input_tbl varchar2(32) :='points';
rec_id varchar2(32)

:='rec_id';
BEGIN
DBMS_DATA_MINING.CREATE_MODEL(
model_name => m_name,
mining_function => dbms_data_mining.clustering,
data_table_name => input_tbl,
case_id_column_name => rec_id,
settings_table_name => 'km_settings');
END;

Слайд 23Можно ли простым пользователям облачного сервиса APEX создавать модели?


Слайд 24А где можно?
Мат-меховский APEX:
вход для администратора:
http://195.19.241.198:8080/apex/apex_admin
вход для разработчика:
http://195.19.241.198:8080/apex

Только разработчикам

надо договориться о создании account с администратором. Кто готов быть администратором?



Слайд 25Проблема
Есть реальные данные метеослужб о погоде в Санкт-Петербурге в 2010 году.

Нужно проанализировать эти данные и кластеризовать все дни 2010 года в зависимости от погодных условий на категории. Оценить качество кластеризации.

Слайд 26Как выглядят исходные данные?


Слайд 27Какие данные имеет смысл использовать?
Как минимум следующие:
Температура
Скорость ветра
Нижняя граница облачности

Может быть

что-нибудь еще…


Слайд 28На что следует обратить внимание?
Данные представляют собой различные единицы измерения и

имеют сильно различающиеся диапазоны возможных значений. Это означает, что нормализация – обязательна.

Слайд 29Задание 4
На основе метеоданных Санкт-Петербурга 2010 года требуется

кластеризовать дни по погодным условиям и
отобразить результаты кластеризации по дням
агрегировать результаты кластеризации по месяцам

Исходные данные – файл Saint-Petersburg_2010.xml.

Ссылку на приложение, логин и пароль для входа отправлять по адресу: N.Grafeeva@spbu.ru
Тема - Data_Mining_2016_job4



Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика