Поисковая система на основе семантики презентация

Содержание

Кафедра компьютерных систем и телекоммуникаций физического факультета ПГУ Специальность: мат моделирование, числ. методы и комплексы программ Научный руководитель: д-р ф.м.н., профессор, Михаил Андреевич Марценюк

Слайд 1Поисковая система на основе семантики
Пермский Государственный Университет
Рабчевский Евгений


Слайд 2
Кафедра компьютерных систем и телекоммуникаций физического факультета ПГУ
Специальность: мат моделирование, числ.

методы и комплексы программ
Научный руководитель: д-р ф.м.н., профессор, Михаил Андреевич Марценюк

Слайд 3SEUS: search engine using semantics
Поисковая машина с использованием семантики
Поиск по русско-язычным

коллекциям данных
Модифицированная векторная модель
На базе библиотеки Lucene и анализатора Dictum

Слайд 4План доклада
Постановка задачи, идея работы поисковой машины SEUS
Работа SEUS на практике
SEUS

на РОМИП
Результаты

Слайд 5Постановка задачи
Пусть коллекция документов состоит из двух документов:
D1. Стоимость полетов в

космос превышает стоимость жд билета в Москву.
D2. Пункт продажи жд билетов в Москве находится здесь.
А пользователь задает следующий запрос.
Q: купить жд билет в Москве.

Слайд 6Постановка задачи
Отранжировать документы на основе семантики документов и вычислений на базе

векторной модели

Слайд 7Векторная модель ранжирования
Текст представляется набором термов (слов текста, приведенных к нормальной

форме)
Запрос и документы коллекции представляются векторами, координатами которых являются относительные частоты соответствующих термов
Ранжирование проводится на основании поиска наименьшего угла между вектором запроса и векторами документов коллекции

Слайд 8Триплетное представление данных
RDF модель как основа для представления данных
RDF триплет –

тройка RDF ресурсов:
субъект, предикат и объект

Слайд 9Модель поиска SEUS
Текст представляется набором триплетов
Запрос и документы коллекции представляются векторами,

координатами которых являются коэффициенты доверия соответствующих триплетов
Ранжирование проводится на основании поиска наименьшего угла между вектором запроса и векторами документов коллекции

Слайд 10Представление текста в виде RDF графа
Текст каждого предложения представляется графом, полученным

с помощью полного синтаксического анализа
В результирующий граф включаются все подграфы главного графа

Слайд 11Триплетное представление документа 1
1 Стоимость полетов в космос 1
превышать 2
стоимость жд билета в Москву 3
2 полеты

в космос 4
стоимость (стоить) 5
величина стоимости 6
3 тот кто способен летать 7
полететь в 8
Космос 9
4 полет 10
в (направление движения) 11
космос 9
5 жд билет в Москву 12
стоимость (стоить) 5
величина стоимости 6
6 жд билет 13
в (направление движения) 11
Москва 14

Слайд 12Триплетное представление документа 2
7 Пункт продажи жд билетов в Москве 15
место расположения 16
Здесь 17
8 Пункт продажи

жд билетов 18
В (место расположения) 16
Москва 14
9 Продажа жд билетов 19
в (место проведения) 20
Москва 14
10 Продажа жд билетов 19
Имеет атрибут 21
Пункт 22
11 тот кто продает 23
Продажа - продавать 24
ЖД билет 13
12 Продажа 24
в (место проведения) 20
Москва 14

Слайд 13Триплетное представление запроса
13 покупка жд билетов 25
в (место проведения) 20
Москва 14
14 Тот кто покупает 26
покупка - покупать 27
Жд

билеты 13
15 покупка 27
в (место проведения) 20
Москва 14

Слайд 14Лингвистическая онтология
Покупка и продажа - инверсные понятия

16 тот кто покупает 26
покупка 27
тот кто продает 23
17 тот

кто продает 23
продажа 24
тот кто покупает 26


Слайд 15Триплетное представление документов, запроса и онтологии
D1
1 1 2 3
2 4 5 6
3 7 8 9
4 10 11 9
5 12 5 6
6 13 11 14
D2
7 15 16 17
8 18 16 14
9 19 20 14
10 19 21 22
11 23 24 13
12 24 20 14
Q
13 25 20 14
14 26 27 13
15 27 20 14
O
16 26 27 23
17 23 24 26


Слайд 16Логический вывод 1
Триплет
25 20 14 разложили на триплеты
26 27 13
27 20 14
Значит первый (при желании) можно не

рассматривать


Слайд 17Логический вывод 2
Используя инверсные свойства Покупка и Продажа, из триплетов запроса
26 27 13
27 20 14
Получим

триплеты
23 24 13
24 20 14



Слайд 18Вывод
Все триплеты отражающие смысл запроса полностью содержатся в RDF графе (наборе

триплетов), отражающем смысл документа D2. Что не выполняется для документа D1.
Значит документ D2 более релевантен запросу Q.
Для точной оценки можно подсчитать углы между соответствующими векторами

Слайд 19Модель SEUS на практике
Триплетное представление текста
Коэффициенты доверия триплетов
Логический вывод


Слайд 20Триплетное представление текста
RDF данные извлекаются при помощи:
GRDDL извлечения из микроформатов (например

RDF/A)
Извлекаются из текста при помощи лексико-синтаксических шаблонов

Слайд 21Лексико-синтаксические шаблоны
Позволяют извлекать семантику текста на основе особенностей языка
Тело шаблона состоит

из входной и выходной схем. Входная схема – характерное описание части предложения, по которому в сочетании с входным текстом, можно однозначно построить выходную семантическую модель, соответствующую анализируемому тексту.
Выходная семантическая модель представляется набором RDF триплетов, состоящих из субъекта, объекта и предиката.

Слайд 22Пример шаблона
Студент - это человек, который учится в университете
http://result/subject/Студент http://result/property/#subClassOf http://result/object/человек


Слайд 23LSPL (ПГУ)
XML основанный язык формализации шаблонов LSPL (не путать с LSPL

Большаковой)
Элементы входной схемы: литерал, словоформа, часть речи, синтаксическая группа, знаки препинания
Выходная схема – набор триплетов со с ссылками на элементы входной схемы

Слайд 24Полный текст шаблона



noun


-


это


noun

id="4">
,


который


verb




http://seus.rabchevsky.name/rdf#**1**
http://seus.rabchevsky.name/rdf#**3**
http://www.w3.org/1999/02/22-rdf-syntax-ns#type




Слайд 25Интерпретатор языка LSPL
Для обеспечения семантики языка LSPL использовался синтаксический анализатор DictaScope.
Java

библиотека PatternLib:
Взаимодействие с синтаксическим анализатором
Обработка шаблонов и применение их тексту
Работа с RDF данными через RDF store библиотеки Jena
Визуализация полученных RDF графов с помощью библиотеки GraphViz
Взаимодействие с клиентскими программами

Слайд 26Online анализатор
http://seus.rabchevsky.name:8080/DemoServlet/
Вводится текст
Выбираются шаблоны
После анализа выводятся триплеты в декларативном и графическом

виде

Слайд 27Триплетное представление документа 1
1 Стоимость полетов в космос 1
превышать 2
стоимость жд билета в Москву 3
2 полеты

в космос 4
стоимость (стоить) 5 определяется только величина стоимости 6 субъект и предикат
3 тот кто способен летать 7
полететь в 8
Космос 9
4 полет 10
в (направление движения) 11
космос 9
5 жд билет в Москву 12
стоимость (стоить) 5
величина стоимости 6
6 жд билет 13
в (направление движения) 11
Москва 14

Слайд 28Триплетное представление документа 2
7 Пункт продажи жд билетов в Москве 15
место расположения 16
Здесь 17
8 Пункт продажи

жд билетов 18
В (место расположения) 16
Москва 14
9 Продажа жд билетов 19
в (место проведения) 20
Москва 14
10 Продажа жд билетов 19
Имеет атрибут 21
Пункт 22
11 тот кто продает 23
Продажа - продавать 24
ЖД билет 13
12 Продажа 24
в (место проведения) 20
Москва 14

Слайд 29Семантический словарь
Для эффективного триплетного представления текста необходим семантический словарь
Статьи словаря можно

оформлять в виде таких же лексико-синтаксических шаблонов

Слайд 30Коэффициенты доверия триплетов
Для триплетов, полученных с помощью шаблонов, суть вероятности валидной

работы шаблона
Для этого разработан валидатор шаблонов


Слайд 31Валидатор шаблонов 1/3
http://seus.rabchevsky.name:8080/VallyWeb/
Позволяет оценивать работу шаблонов на коллекции документов
Сейчас залиты коллекции

РОМИП’2009 (legal, by.web и km.ru)


Слайд 32Валидатор шаблонов 2/3
Пользователь выбирает шаблон из базы имеющихся шаблонов и может
Пользователь

применяет готовый шаблон к коллекции документов, и система выдает лексикализации данного шаблона
Результат представляется в виде таблицы из лексикализации шаблона и соответствующего RDF графа

Слайд 33Валидатор шаблонов 3/3
Планируется реализовать интерфейс для отметки качества работы шаблонов пользователем

и механизм расчета коэффициентов доверия шаблонов

Слайд 34Коэффициенты доверия триплетов
Для триплетов, полученных с помощью логического вывода, специализированного под

информационный поиск, суть вероятности валидной работы правила логического вывода
Возможны случаи когда значение коэффициенты доверия триплета существенно зависят от контекста (наличия других триплетов) – сейчас это не предусмотрено


Слайд 35Логический вывод
Стандартный - при помощи стандартных машин вывода (например машина вывода

RDFS или OWL в библиотеке Jena)
Адаптированный под информационный поиск с учетом лингвистики (нужна лингвистическая онтология)

Слайд 36Работа с RDF данными
Полученные триплеты хранятся в RDF store библиотеки Jena
Jena

хранит RDF графы в виде моделей
Физически модель может храниться в СУБД, в XML файлах на диске и т.д.
В нашем случае – СУБД MySQL

Слайд 37Семантический индекс 1/2
В БД Jena моделей RDF графов добавлены поля:
Идентификатора триплета
Ссылка

на документ источник
Вместо термов коллекции в индексе хранятся идентификаторы триплетов


Слайд 38Семантический индекс 2/2
Модификация Lucene:
Изменениям были подвергнуты методы класса Similarity библиотеки Lucene:
метод

обработки отдельного терма
метод обработки коллекции термов.

Слайд 39SEUS на РОМИП
GRDDL – в коллекциях РОМИП отсутствуют микроформаты
Лексико-синтаксические шаблоны на

данный момент дают очень плохие результаты
Адаптированный под информационный поиск не разработан


Слайд 40SEUS в прогонах семинара
Поиск по коллекции нормативно правовых документов и веб

коллекции
Взята стандартная библиотека Lucene
Русскоязычный стеммер Snowball из поставки Lucene

Слайд 41Результаты SEUS


Слайд 42Результаты 1/3
LSPL - создан язык для формализации средств, позволяющих представлять текст

в виде RDF графов.
Интерпретатор LSPL - создан инструмент для применения языка LSPL
Валидатор шаблонов – создан инструмент для работы по наполнению базы шаблонов или семантического словаря (для лингвиста)

Слайд 43Результаты 2/3
Модификация Lucene – создана модель для поиска документов представленных в

виде RDF графов. Модель реализована.
SEUS на РОМИП’2009 1/2 – получена оценка «эталонной модели поиска» - оценка стандартной поставки Lucene
SEUS на РОМИП’2009 2/2 – получены коллекции данных, запросы и таблицы релевантности, с помощью которых впоследствии можно будет оценить качество работы семантической поисковой машины *

Слайд 44Результаты 3/3
Семантический словарь – не создан
Созданных шаблонов – очень мало
Логический вывод

для информационного поиска - не реализован
Лингвистическая онтология – не создана
Предметная область коллекций документов – не выбрана

Слайд 45Спасибо за внимание!
http://seus.rabchevsky.name/
http://seus.rabchevsky.name:8080/DemoServlet/
http://rabchevsky.name/semantic_web_in_IR
http://seus.rabchevsky.name:8080/VallyWeb/
http://seus.rabchevsky.name:8080/SEUS/

Mail me: evgeny@rabchevsky.name


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика