Извлечение информации из полуструктурированных веб-источников презентация

Содержание

План Мотивация; Направления Web Mining; Отбор источников информации; Извлечение структурированной информации Основные этапы процесса, Классификация методов, Примеры существующих подходов и систем, Заключение.

Слайд 1Извлечение информации из полуструктурированных веб-источников
Евгения Яковлева
ragvena@yandex-mail.ru

Владимир Батыгин
vbatygin@yandex-team.ru






Слайд 2План
Мотивация;
Направления Web Mining;
Отбор источников информации;
Извлечение структурированной информации
Основные этапы процесса,
Классификация методов,
Примеры существующих

подходов и систем,
Заключение.



Слайд 3План
Мотивация;
Направления Web Mining;
Отбор источников информации;
Извлечение структурированной информации
Основные этапы процесса,
Классификация методов,
Примеры существующих

подходов и систем,
Заключение.



Слайд 4Структурированная информация в веб-источниках, как правило, содержит полезную информацию.
Анализ контента

страницы повышает качество работы сервисов.




Мотивация


Слайд 5Мотивация: пример


Слайд 6Мотивация: способ решения
Извлечение структурированных данных из веб-источников является задачей Web Content

Mining(WCM).


Web Content Mining – направление Web Mining, занимающееся извлечением полезной информации из веб-страниц.




Слайд 7Знаешь, что такое Web Mining?


Слайд 8План
Мотивация;
Направления Web Mining;
Отбор источников информации;
Извлечение структурированной информации
Основные этапы процесса,
Классификация методов,
Примеры существующих

подходов и систем,
Заключение.



Слайд 9Направления Web Mining
1996


Web Mining





«The World-Wide Web: quagmire or gold mine?»

Professor
Oren

Etzioni
Director of the Turing Center

Слайд 10Направления Web Mining
1996
1997

Web Mining
Web Content Mining


Web Usage Mining


Слайд 11Направления Web Mining
1996
1997
1999
Web Mining
Web Content Mining
Web Content Mining
Web Structure Mining
Web Usage

Mining

Web Usage Mining


Слайд 12Направления Web Mining: Характеристика
Web Usage Mining
Логи веб-серверов;

Предпочтений посетителей.

Web Structure

Mining
Ссылки


Взаимосвязь между страницами

Web Content Mining
HTML-страницы;

Информация и знания.




Слайд 13Задачи Web Content Mining
Извлечение структурированной информации;
Извлечение фактов и связей.
Построение баз знаний,
PROSPERA.
Послать

к Герхарду .

Извлечение структурированной информации
Извлечение фактов и отношений


Слайд 14«Георгий Иванович, он же Жора, он же Гоша, он же Гога…»
Web

Harvesting

Web Scraping 

Web Data Extraction

Information Extraction

Web Content Mining

Wrapper Induction


Слайд 15Задачи Web Content Mining
Извлечение структуриро- ванных данных
Извлечение фактов и отношений


Слайд 16Задачи Web Content Mining

Свободный текст
Gerhard Weikum

Max Planck Institute for Informatics

«Scalable knowledge

harvesting with high precision and high recall» [2011]

PROSPERA


Oren Etzioni

University of Washington
KnowItAll [2004]






Слайд 17План
Мотивация;
Направления Web Mining;
Отбор источников информации;
Извлечение структурированной информации
Основные этапы процесса,
Классификация методов,
Примеры существующих

подходов и систем,
Заключение.



Слайд 18 Конференции Computer Science Conference Ranking


Слайд 19Критерии отбора статей
Престижность конференции;
Год публикации;
Индекс цитируемости;
«Серийные» авторы.


Слайд 20«Серийные» авторы

Bing, Liu
Professor University of Illinois at Chicago (UIC) 
 WONG, Tak-Lam
PhD,Lecturer  The Hong Kong

Institute of Education

Chang, Chia-Hui
Professor National Central University


Слайд 21Исследовательские центры на карте мира



Слайд 22План
Мотивация;
Направления Web Mining;
Отбор источников информации;
Извлечение структурированной информации
Основные этапы процесса,
Классификация методов,
Примеры существующих

подходов и систем,
Заключение.



Слайд 23Данные в Веб
Виды данных: текст, графика, аудио, видео.


Слайд 24Данные в Веб
Виды данных: текст, графика, аудио, видео.
Текстовая информация:

Неструктурированная
свободный текст;
Полуструктурированная
HTML-страницы;
Структурированная
документы, генерирующиеся

из БД.

Слайд 25Данные в Веб
Виды данных: текст, графика, аудио, видео.
Текстовая информация:

Неструктурированная
свободный текст;
Полуструктурированная
HTML-страницы;
Структурированная
документы, генерирующиеся

из БД.

Слайд 26План
Мотивация;
Направления Web Mining;
Отбор источников информации;
Извлечение структурированной информации
Основные этапы процесса,
Классификация методов,
Примеры существующих

подходов и систем,
Заключение.



Слайд 27Основные этапы процесса
Crawling
Построение wrapper-ов
Извлечение данных
Анализ данных


Слайд 28Основные этапы процесса
Crawling
Построение wrapper-ов
Извлечение данных
Анализ данных


Слайд 29«Георгий Иванович, он же Жора, он же Гоша, он же Гога…»-2
«То,

что извлекает данные со страницы»

Wrapper

Правила извлечения

Parser

Pattern

Спец. робот

Экстрактор

Посредник между исходными и извлеченными данными


Слайд 30«Георгий Иванович, он же Жора, он же Гоша, он же Гога…»-2
«То,

что извлекает данные со страницы»

Wrapper

Правила извлечения

Parser

Pattern

Спец. робот

Экстрактор

Посредник между исходными и извлеченными данными

Строится заново для каждой страницы и не использует знаний о структуре ранее обработанных страниц

Строится на этапе обучения и использует знания о строе предыдущих страниц


Слайд 31План
Мотивация;
Направления Web Mining;
Отбор источников информации;
Извлечение структурированной информации
Основные этапы процесса,
Классификация методов,
Примеры существующих

подходов и систем,
Заключение.



Слайд 32
Wrapper Induction System
Классификация методов [Chang2006]


Wrapper


Extracted Data

Test Page
Un-labeled Training Web Pages


Слайд 33Manual | Supervised | Semi-supervised | Un-supervised


Wrapper Induction System
Классификация методов [Chang2006]



Wrapper


Extracted

Data


Test Page

Un-labeled Training Web Pages


Manual



Слайд 34Manual | Supervised | Semi-supervised | Un-supervised


Wrapper Induction System
Классификация методов [Chang2006]



Wrapper


Extracted

Data


Test Page

Un-labeled Training Web Pages



Supervised


Labeled Web Pages



Слайд 35Manual | Supervised | Semi-supervised | Un-supervised

Wrapper Induction System
Классификация методов [Chang2006]



Wrapper


Extracted

Data


Test Page

Un-labeled Training Web Pages



Semi-supervised


Слайд 36Manual | Supervised | Semi-supervised | Un-supervised

Wrapper Induction System
Классификация методов [Chang2006]



Wrapper


Extracted

Data


Test Page

Un-labeled Training Web Pages


Unsupervised



Слайд 37План
Мотивация;
Направления Web Mining;
Отбор источников информации;
Извлечение структурированной информации
Основные этапы процесса,
Классификация методов,
Примеры существующих

подходов и систем,
Заключение.



Слайд 38Существующие подходы


Слайд 39Примеры существующих подходов и систем

Группа «Manual»;
Группы «Supervised» и «Semi-supervised»;
Группа «Unsupervised»;


Слайд 40Примеры существующих подходов и систем

Группа «Manual»;
Группы «Supervised» и «Semi-supervised»;
Группа «Unsupervised»;


Слайд 41Группа «Manual»
Особенности:
Wrapperы пишутся вручную;
Для разбора используют
Xpath;
RegExp.


Слайд 42Flashback: Существующие подходы


Слайд 43Группа «Manual»: Инструменты




http://web-harvest.sourceforge.net/


Слайд 44WebHarvest: Easy Web Scraping from Java

Ах, вот ты какой,
рукописный wrapper




Слайд 45Manual. Инструменты




http://web-harvest.sourceforge.net/

http://scrapy.org/


Слайд 46Таких инструментов много
30 Digits Web Extractor Software
Djuggler
Happy Harvester
Irobot Soft
ListGrabber
http://www.theeasybee.com/


Слайд 47Примеры существующих подходов и систем

Группа «Manual»;
Группы «Supervised» и «Semi-supervised»;
Группа «Unsupervised».


Слайд 48Группы «Supervised» и «Semi-supervised»
Особенность:
Правила извлечения генерируются автоматически или под контролем пользователя.


Слайд 49Flashback: Существующие подходы


Слайд 50Группы «Supervised» и «Semi-supervised»: Инструменты



http://www.visualwebripper.com/


Слайд 52Группы «Supervised» и «Semi-supervised» Инструменты

http://www.visualwebripper.com/
http://www.lixto.com/
http://www.denodo.com


Слайд 53Примеры существующих подходов и систем

Группа «Manual»;
Группы «Supervised» и «Semi-supervised»;
Группа «Unsupervised»


Слайд 54Группа «Unsupervised»
Особенности:
Полностью автоматические.
не требуют контроля со
стороны пользователя.


Слайд 55Flashback: Существующие подходы


Слайд 56Flashback: Исследовательские центры на карте мира



Слайд 57Flashback: Исследовательские центры на карте мира



Слайд 58Crescenzi et al.
Организации:
Università di Roma Tre,
Università della Basilicata;

Направление исследования:
Автоматическая экстракция .

Работы:
RoadRunner[2001];
Flint[2008];
Automatically

building probabilistic databases from the web [2011]





Слайд 59Crescenzi et al: RoadRunner
Дано множество «хороших» страниц;
Строится wrapper в форме RegExp.
Подход
Wrapper

строится на основании сравнения двух страниц одинаковой структуры.


Слайд 64Crescenzi et al: RoadRunner. Пример


Слайд 65Flashback: Исследовательские центры на карте мира



Слайд 66Flashback: Исследовательские центры на карте мира



Слайд 67Liu et al.
Организации:
University of Illinois at Chicago.

Направление исследования:
Очистка страниц от

«шума»,
Автоматическая экстракция данных из каталожных страниц.

Работы:
Web Page Cleaning for Web Mining through Feature Weighting [2003];

MDR[2003] DEPTA[2005] NET[2005];





Слайд 68Liu et al: Mining Data Records (MDR)


Data Region



Data Reсord


Слайд 69Liu et al: MDR. Пример


Слайд 70Liu et al: MDR. Пример





Слайд 71

Liu et al: MDR. Пример







Слайд 72Flashback: Исследовательские центры на карте мира



Слайд 73Flashback: Исследовательские центры на карте мира



Слайд 74Microsoft Research Asia
Направление исследования:
Сегментация страницы;
Извлечение информации;
Вероятностные модели для извлечения информации.

Работы:
VIPS: a

Vision-based Page Segmentation Algorithm[2003];
2d conditional random fields for web information extraction[2005];
Simultaneous record detection and attribute labeling in web data extraction [2006];

Слайд 75Microsoft Research Asia: Vision-based Page Segmentation Algorithm (VIPS)



Слайд 76Microsoft Research Asia: Vision-based Page Segmentation Algorithm (VIPS)




Слайд 77План
Мотивация;
Направления Web Mining;
Отбор источников информации;
Извлечение структурированной информации
Основные этапы процесса,
Классификация методов,
Примеры существующих

подходов и систем,
Заключение.



Слайд 78Заключение Сложности
Manual
-Свой на каждый сайт;
Supervised, Semi-supervised
Дорого поддерживать;
Unsupervised
Проблема с полнотой;


Слайд 79Заключение
Автоматизация:
От ручной обработки через полностью автоматическую к гибридной.
Уровень решения задачи:
от страницы

к вертикали.
Используемые параметры:
От тегов к использованию визуальных особенностей оформления и контекста.




Слайд 80Спасибо за внимание!
Вопросы?


Слайд 81Евгения Яковлева
ragvena@yandex-mail.ru

Владимир Батыгин
vbatygin@yandex-team.ru


mining-research@yandex-team.ru


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика