МОДЕЛЬ УПРОЩЕННОГО СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТОВ СЛОВАРНЫХ ОПРЕДЕЛЕНИЙ презентация

Содержание

Зачем? полуавтоматическое пополнение онтологии автоматическое выделение троек «понятие» - «отношение» - «понятие» проверка оператором

Слайд 1МОДЕЛЬ УПРОЩЕННОГО СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТОВ СЛОВАРНЫХ ОПРЕДЕЛЕНИЙ
Бочаров Виктор
Факультет филологии и искусств

СПбГУ
Санкт-Петербург

Слайд 2Зачем?
полуавтоматическое пополнение онтологии

автоматическое выделение троек «понятие» - «отношение» - «понятие»

проверка оператором


Слайд 3Источники
Российский энциклопедический словарь - Гл. ред.: А. М. Прохоров — М.:

Большая Российская энциклопедия, 2001

Раздел проекта «Википедия» на русском языке

Слайд 4Отношения
Обобщение (значение по умолчанию)
Тождество
Частный случай (обратное к тождеству)
Часть
Целое
Инструмент или назначение
другое



Слайд 5Примеры
СОЦИОСФЕРА - обозначение человечества, общества, а также освоенной человеком природной среды,

в совокупности составляющих часть географической оболочки.

СОЦИОСФЕРА same ЧЕЛОВЕЧЕСТВО

Слайд 6Ещё примеры
СИНЕСТЕЗИЯ - явление восприятия, когда при раздражении данного органа чувств

наряду со специфическими для него ощущениями возникают и ощущения, соответствующие другому органу чувств.

СИНЕСТЕЗИЯ gen ЯВЛЕНИЕ
СИНЕСТЕЗИЯ same ВОСПРИЯТИЕ

Слайд 7Как?
Базовая гипотеза:

«родовой по отношению к определяемому термин представлен опорным словом -

первым по порядку существительным в именительном падеже»

Слайд 8Первый результат


Слайд 9Проблемы
Омонимия
«о чукотском море»
леммы для словоформы «море»
МОРЕ (ср.р.)
МОР (мр.р.)
МОРА (жр.р.)

Мало информации:
все связи

одного типа (род-вид)
связи только с одним словом в определении

Слайд 10Усложнённый вариант


Слайд 11Лексикографическая обработка
сокращения (разворачиваются в полные слова, если это возможно)

пометы (удаляются)

текст в

скобках (удаляется)


Слайд 12Примеры
АБРЕКИ - В прошлом у народов Сев. Кавказа изгнанники из рода,

ведшие скитальческую или разбойничью жизнь

АБРЕКИ - В прошлом у народов Северного Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь


АКСЕЛЕРАЦИЯ - (В антропологии) ускорение роста и полового созревания детей и подростков

АКСЕЛЕРАЦИЯ - ускорение роста и полового созревания детей и подростков



Слайд 13Синтаксический анализ
Используются компоненты АОТ

Упрощённые правила: только группы с вершиной – существительным

Строится

дерево зависимостей


Слайд 14Грамматика
ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА
[ANP] -> [ADJ] [NP root]
: $0.grm := case_number_gender($1.grm,

$2.type_grm, $2.grm);

ГЕНИТИВНАЯ ГРУППА
[GP] -> [NP root] [NP grm="рд"];

ПРЕДЛОЖНАЯ ГРУППА
[PP] -> [PREP root] [NP];

ИМЕННАЯ ГРУППА
[NP] -> [NOUN];
[NP] -> [NP root] [PP] ;
[NP] -> [PP] | [GP] | [ANP];

Слайд 15Грамматика: примеры
ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА
ВОДОРОД - ХИМИЧЕСКИЙ ЭЛЕМЕНТ
ХАЛАТ – ВЕРХНЯЯ ОДЕЖДА

ГЕНИТИВНАЯ

ГРУППА
АМПЕР - ЕДИНИЦА ИЗМЕРЕНИЯ
АБЗАЦ – ЧАСТЬ ТЕКСТА

ПРЕДЛОЖНАЯ ГРУППА
АВАЛЬ - ПОРУЧИТЕЛЬСТВО ПО ВЕКСЕЛЮ
АКСЕЛЕРОМЕТР – ПРИБОР ДЛЯ ИЗМЕРЕНИЯ УСКОРЕНИЯ

Слайд 16Структура составляющих


Слайд 17Дерево зависимостей


Слайд 18Частичное снятие омонимии


Слайд 19Извлечение отношений
Правила (код на Perl)

обход дерева зависимостей
операции:
записать текущее слово с текущим

названием отношения
изменить текущее название отношения
выбрать следующее слово

Слайд 20Род, вид, сорт…
изменить текущее название отношения на «обобщение»
выбрать следующее существительное
записать

ФИЛЬДЕПЕРС -

высший сорт фильдекоса.

ПИДЖИНЫ - тип языков, используемых как средство межэтнического общения в среде разноязычного населения.

Пример правила


Слайд 21Было / стало


Слайд 22Статистика
25.324 словарных статей

26.376 записей в БД

4.679 опорных слов


Слайд 23Качество
Экспертная оценка
200 словарных статей:
179 (90%) – правильно
21 – неправильно:
16 - недоработки

ПО (синтаксис)
5 – неверна гипотеза о том, что опорное слово есть в первом предложении определения
предел точности: 179 + 16 / 200 = 97.5%

Слайд 24Примеры
АБРАЗИВНЫЙ ИНСТРУМЕНТ - служит для механической обработки ( шлифование , притирка

и другие ).

АВОГАДРО ЗАКОН - в равных объемах идеальных газов при одинаковых давлении и температуре содержится одинаковое число молекул.

АБИТУРИЕНТ - в большинстве стран - оканчивающий среднее учебное заведение.

Слайд 25Википедия
Отличия:
обработка wiki-разметки
оформление статей … разнообразно
«первое предложение определения» надо искать
статьи без определений

(«Советско-германские договоры 1939», «Список кодов ответов FTP», …)
статьи-даты («23 марта — 82-й день года …»)
«формализованная» информация (шаблоны)

Размер:
430 тыс. статей (дамп от 6 октября 2009)

Слайд 26Вики-разметка
вики-разметка:
'''Прего́ля''' (древнепрусск. ''Прэйгара'', {{lang-de|Pregel}} — Прегель, {{lang-lt|Prieglius}}, {{lang-pl|Pregoła}}) — [[река]], впадающая в [[Балтийское

море]], точнее в пресноводный [[Калининградский залив|Калининградский (Вислинский) залив]]. Длина Преголи — 123 км, вместе с Анграппой (один из важнейших притоков) — 292 км. Площадь бассейна Преголи — 15,5 тыс. км².

результат:
Прего́ля (древнепрусск. Прэйгара, нем. Pregel — Прегель, лит. Prieglius, польск. Pregoła) — река) — река, впадающая в Балтийское море) — река, впадающая в Балтийское море, точнее в пресноводный Калининградский (Вислинский) залив. Длина Преголи — 123 км, вместе с Анграппой (один из важнейших притоков) — 292 км. Площадь бассейна Преголи — 15,5 тыс. км².

Слайд 27«Плохие» первые предложения
Nyan Koi! (にゃんこい!) манга, созданная Сато Фудзиварой.

‘‘‘ИНСТИТУТ ГУМАНИТАРНЫХ

ИСТОРИКО-ТЕОРЕТИЧЕСКИХ ИССЛЕДОВАНИЙ’’’ (ИГИТИ) создан в рамках Государственного университета – Высшей школы экономики (ГУ-ВШЭ) в 2002 г.

«Описание мира в науке и религии отличается в своей основе. …»

Слайд 28Шаблоны
{{НП-Россия
|статус

= Город
|русское название = Великий Новгород
|регион = Новгородская область
|глава = [[Бобрышев, Юрий Иванович|Юрий Бобрышев]]
|дата основания = VIII{{!}} VIII—IX век
|первое упоминание = 859{{!}} 859 (Официально, условно)
|прежние имена = Новгород (до [[1999 год]]а)
|площадь = 90,08
|население = {{Падение}} 215 351
|год переписи = 2009
|плотность = 2405,6
|этнохороним = новгоро́дцы,
новгоро́дец,
новгоро́дка
|часовой пояс = +3
|почтовые индексы = 173xxx
|телефонный код = 8162
|автомобильный код = 53
|цифровой идентификатор = 49401000000
|категория в Commons = Velikiy Novgorod
|сайт = http://www.adm.nov.ru
|информация для туристов = http://www.visitnovgorod.ru }}

Слайд 29Инструменты
Wikipedia XML dump (все статьи одним файлом)

Wikiprep.pl (версия проекта Zemanta)
вики-разметка ->

~HTML / plain text
разворачивает шаблоны
URL: http://wikiprep.sf.net/

Слайд 30Вопросы?


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика