Технология извлечения знаний из использования Интернет презентация

Содержание

Определение Извлечение знаний – поиск нетривиальных потенциально полезных знаний в больших объёмах данных.

Слайд 1Технология извлечения знаний из использования Интернет
Технология извлечения знаний из использования Интернет


Слайд 2Определение
Извлечение знаний – поиск нетривиальных потенциально полезных знаний в больших объёмах

данных.


Слайд 3Основные области применения
Финансы
Страхование
Медицина
Биология
Интернет


Слайд 4OLAP/Data mining


Слайд 5Структура web mining


Слайд 6Структура web content mining


Слайд 7Web usage mining
Извлечение знаний из использования Интернет – поиск

нетривиальных потенциально полезных знаний в деятельности пользователей Интернет.

Слайд 8Применения Web usage mining
Персонификация контента
Улучшение работы сети
Модификация сайтов
Исследования сети


Слайд 9Этапы Web usage mining
Сбор данных
Обработка данных
Применение методов Data mining
Кластеризация
Поиск ассоциативных правил
Поиск

наиболее частых подпоследовательностей

Слайд 10Сбор информации


Слайд 11Обработка данных
Очистка данных
Заполнение пути
Выделение пользовательских сессий


Слайд 12Ассоциативные правила
Правила вида:
A=>b. Где А - ДНФ
Поддержка – отношение тех элементов

где A к общему числу
Уверенность – отношение элементов, где выполняется правило к элементам с А

Слайд 13Цель кластеризации
Уменьшение размерности (выбор представителей)
Генерация гипотез
Проверка гипотез
Прогнозные модели


Слайд 14Методы кластеризации
Иерархические
Алгоритмы оптимизации
Основанные на плотности
Нечёткие методы


Слайд 15Иерархические методы
N кластеров
На каждом шаге объединение двух самых «близких» кластеров
Расстояние: по

наиболее близкими или наиболее удалённым точкам, по центрам.


Слайд 16Нечёткий c-medoids метод

Jm(V;X) =
Минимизируется это значение
Только 30 элементов с наибольшей вероятностью

используются для пересчёта центров.



Слайд 17Верификация кластеризации


Слайд 18Методы верификации
Сопоставление эталонного разбиения и кластеров
Статистические
Связанные с нечётким разбиением
Комбинированные методы


Слайд 19Предлагаемый метод
Сессии представлены как численные векторы
Используюется расстояние редактирования
Расстояние модифицируется с

учётом положения страниц
Нечёткий C-Medoids метод

Слайд 20Данные Sigla.ru
70000 посещений в день
1300 сессий в день
50 страниц
Данные за три

дня
Сессии с длинной от 3 до 40 визитов

Слайд 21Расстояние Евклида
Каждая сессия это вектор vi = {x1,..xn}
xj = 1 если

страница j входит в сессию.
xj = 0 иначе.


Слайд 22Расстояние редактирования
Примеры строк: ‘cat’, ‘cash’
CAT -> CAS -> CASH
Общее расстояние 3.


Слайд 23Модификация расстояния
dir11/dir12/pagename1
dir21/dir22/pagename2 Если совпадают dir 11 и dir 21 то уменьшается стоимость

замены
Если совпадают dir 21 и dir 22 то стоимость снижается еще больше

Слайд 24Индекс Беждека






Слайд 25Энтропия разбиения





Слайд 26Предлагаемая верификация
Подсчёт уникальных ассоциативных правил
Индекс = количество уникальных правил/количество кластеров


Слайд 27Предлагаемый метод


Слайд 28Спасибо!
Ваши вопросы?..


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика