Статистический анализ связности текстов по общественно-политической тематике презентация

Содержание

Цель работы Исследование законов связности общественно-политических текстов, разработка методов и алгоритмов выявления межфразовых связей с целью усовершенствования технологии реферирования текстов.

Слайд 1Статистический анализ связности текстов по общественно-политической тематике
RCDL 2011
19- 22 октября 2011

г.
________________________________


к.т.н. Абрамова Н.Н., к.т.н. Абрамов В.Е., Некрасова Е.В, Росс Г.Н.
ФГУП «НИЦИ при МИД России», ЗАО СКБ «ТЭЛКА»
NAbramova@mid.ru, AbramVal@yandex.ru, ENekrasova@mid.ru, GRoss@mid.ru


Слайд 2Цель работы
Исследование законов связности общественно-политических текстов, разработка методов и алгоритмов выявления

межфразовых связей с целью усовершенствования технологии реферирования текстов.

Слайд 3Основные понятия
Для получения связного текста реферата необходимо анализировать связи между предложениями

- межфразовые связи.
Согласно законам связности текста, межфразовые связи можно определить через понятие замещения (анафоры), т.е. повторения смысла какого-либо отрезка текста с помощью особых языковых средств.
Заместители или показатели связи – это слова и словосочетания, обозначающие понятия, повторяющиеся в тексте,
Замещаемое (антецедент) – это обозначение того же понятия в предшествующем предложении.
Между замещаемым и заместителем существует анафорическая связь. Сами заместители могут выступать как антецеденты по отношению к своим заместителям.
Существует много способов выражения анафорических связей. Различают лексическую и местоименную анафору.


Слайд 4Типы замещения в текстах
Буквальный повтор - совпадение замещаемого и заместителя с

точностью до словоформ.
Морфо-синтаксический повтор - совпадение происходит с точностью до словообразования (например, «консульство» - «консульский») или на уровне опорных слов, определители которых могут трансформироваться (например, «журналисткое расследование» – «расследование журналиста»).
Синонимия, вызванная изменением состава слов и словосочетаний антецедента и заместителя («безвизовый режим» - «полная отмена виз»), или аббревиацией или сокращением слов («Содружество независимых государств» – «СНГ», «генеральное консульство» – «генконсульство»).
Гипонимия («информационная безопасность» – «международная информационная безопасность») и гиперонимия («заместитель министра» – «руководство министерства»).
Эллипсис – повторение смысла с некоторыми опущенными элементами, не сводимого к отношению род-вид («Комиссия по правам человека» - «Комиссия»).
Местоименная анафора – замена слова или словосочетания предшествующего предложения замещающими его местоимениями (личными - «он», «она», «они», «его»…; указательными – «это», «то»,..; относительными – «который», «где», «что», …) или местоименными наречиями («куда», «там», «туда»,…).
Вводные слова, наречия и союзы («таким образом», «в связи с изложенным», «выше», «далее», «поэтому», ...).



Слайд 5Современное состояние проблемы
Методы разрешения анафоры описаны в работах Е. Рича, Д.

Карбонеллы, Р. Брауна, С. Рико Перез, Ш. Лаппина, Г. Лисса . Г.Хирста, Р.Миткова и М.Поэсио.
Современные подходы базируются на интегрируемой модели разрешения анафоры, использующей комбинацию традиционных лингвистических методов с новым статистическим подходом.
Подход Ермакова А.Е. используется для решения задачи извлечения фактографической информации из текстовых документов особого стиля (биографий, протоколов, сводок и т.д.).
Метод Толпегина П. В. предназначен для автоматического разрешения анафоры личных местоимений третьего лица на основе методов машинного обучения.

Слайд 6Исходные данные для анализа

Всего было обработано 105 текстов общим объемом 319

Кб.

Слайд 7Пример установления межфразовых связей


Слайд 8 Распределение частот встречаемости различных типов связей в общественно-политических текстах






Слайд 9Частота встречаемости различных типов связей в общественно-политических текстах


Слайд 10Автоматическое разрешение местоименной анафоры
Цель работы: разработать алгоритм выявления межфразовых

местоименных анафорических связей.

Основные ограничения:
1. Между анафорой и антецедентом имеется явная кореферентность.
Анафорическое местоимение обозначает один и тот же объект действительности (имеет один и тот же референт).
2. Случаи катафоры не анализируются: Когда бортпроводники преградили ему дорогу, Гаев набросился на них.
3. Предполагается, что в тексте нет референциальных конфликтов (неоднозначностей), т.е. для каждого референта существует только один антецедент.
Пример конфликта: Сотрудник выполнил свою работу. Затем его вызвал начальник отдела . Он изложил план работы на ближайшее время.
4. Предсказуемость антецедента зависит от “референциального расстояния”, поэтому кореферентным считается ближайший по тексту антецедент.



Слайд 11 Метод распознавания межфразовых местоименных анафор
Этап 1. Выявление предложений текста, подлежащих анализу

на предмет обнаружения анафор.
Этап 2. Выявление слов, грамматически не связанных с членами предложения, т.е. вводных слов, вставных предложений и оборотов.
Этап 3. Определение вида предложения: простое, сложное или предложение с прямой речью.
Этап 4. Определение межфразовых местоименных анафорических связей.


Слайд 12Входная информация
Исходный текст, каждая словоформа которого сопровождается:
сведениями о ее месторасположении

(номере предложения, в котором она
находится, порядковом номере в этом предложении);
признаком буквы, с которой она начинается (большая или маленькая);
набором грамматической информации (часть речи, род, число, падеж и т.д.).

1#3#1#по 00/156/03
2#3#0#поступающей 02/105/10/32333536
3#3#0#информации 01/061/10/1213162124
4#3#0#, 00/2000/01
5#3#0#23 00/2000/01
6#3#0#марта 01/001/01/12
7#3#0#примерно 00/152/01
8#3#0#в 00/164/046
9#3#0#15 00/2000/01
10#3#0#. 00/2000/01
11#3#0#00 00/2000/01
12#3#0#по 00/156/03
13#3#0#местному 03/103/01/1323
14#3#0#времени 01/076/01/121316

15#3#0#в 00/164/046
16#3#1#районе 01/001/01/16
17#3#0#автовокзала 01/125/10/3
18#3#0#в 00/164/046
19#3#1#иерусалиме 01/001/01/16
20#3#0#было 01/125/10/2
21#3#0#приведено 00/147/01
22#3#0#в 00/164/046
23#3#0#действие 01/073/10/1114
24#3#0#самодельное 02/103/01/2124
25#3#0#взрывное 02/107/01/2124
26#3#0#устройство 01/070/01/1114
27#3#0#. 00/2000/01


Слайд 13Принципы выявления предложений для анализа межфразовых связей
В предложении встретилось хотя бы

одно слово с признаком местоименности.
Найденное слово должно распознаваться в словаре личных, указательных и притяжательных местоимений и уточняющих прилагательных (он, этот, тот, его, им, указанный, данный, последний и т.д.).
Распознанное в словаре слово не должно входить во «временные» словосочетания, например, «этой неделе», «тот же год», «этот месяц» и т.д.
Указательное местоимение тот (во всех падежах) не должно использоваться для связи в сложном предложении ( «в том, что…», «в том случае, если», «до того, как» и т.п.).
Предложение оставляется для дальнейшего анализа, если в него не входят слова, указанные в пунктах 3 и 4.

Слайд 14Выявление в предложении вводных конструкций
Учет особенностей расположения и пунктуационного

оформления вводных конструкций:
вводные слова и обороты находятся в начале предложения и выделяются на письме запятыми: либо справа, либо с двух сторон (пример: Вместе с тем, французские журналисты выяснили, что ее зовут Нафиссатоу Диалло);
вставные элементы заключаются в круглые, квадратные или косые скобки (пример: Вместе эти страны располагают огромной ресурсной базой, самыми большими трудовыми резервами, большими внутренними рынками (общая численность населения стран БРИКС – 2,939 миллиарда человек).
2. Распознавание вводных конструкций с помощью словаря вводных слов и словаря оборотов.
3. Вставные элементы не могут быть средством межфразовой связи.
4. Вводные слова и обороты могут быть средством межфразовой связи, если включают в себя местоимения или уточняющие прилагательные (например, «по его словам», «в связи с вышеизложенным»). Для выявления этой связи проводился поиск местоимений и уточняющих прилагательных в словаре личных, указательных и притяжательных местоимений и уточняющих прилагательных (он, этот, тот, его, им, указанный, данный, последний и т.д.).
5. Вводные слова и обороты, не содержащие местоимений и уточняющих прилагательных, а также вставные элементы не учитываются при дальнейшем анализе.

Слайд 15Определение вида предложения
Вид предложения определяется на основе анализа синтаксической структуры предложения.
Опорные

слова структуры - это слова, относящиеся к грамматическим классам глаголов, кратких причастий и кратких прилагательных с признаком отглагольности. К классу глаголов относятся: глаголы в личной форме, глаголы прошедшего времени, инфинитив, модальный глагол.
Признаки простого предложения:
отсутствуют глаголы;
имеется только один глагол или группа рядом стоящих глаголов;
имеется несколько глаголов, связанных сочинительными союзами, перед которыми не стоит знак препинания;
имеется несколько глаголов, не разделенных знаками препинания.
Граница простого предложения проходит по знакам препинания, непосредственно предшествующим опорным словам, при условии нахождения слева от знака препинания хотя бы одного опорного слова.
Сложные предложения расчленяются на простые, но для анализа выбираются только два первых простых предложения из состава сложного.


Слайд 16Распознавание прямой речи
Анализируются конструкции четырех типов:
Прямая речь после слов автора.

Пример: Он спросил: «Что ты делаешь?».
Прямая речь перед словами автора.. Пример: «Что ты делаешь?» - спросил он.
Прямая речь прерывается словами автора. Признаком ее являются внешние открывающиеся и закрывающиеся кавычки и наличие внутри комбинаций двух «тире», «запятой» или «точки». Пример: «Что ты делаешь вечером? - спросил он, - я хочу к тебе придти.» или «Что ты делаешь вечером? - спросил он. - Я хочу к тебе придти.»
Прямая речь стоит внутри авторских слов. Она распознается по признакам первого шаблона с той лишь разницей, что после закрывающихся кавычек авторские слова продолжаются после «тире». Пример: Он спросил: «К вам можно?» - и вошел в комнату.

Слайд 17Выявление анафор в простом предложении
Последовательно выбираются

слова с признаками местоименности от начала до границы предложения (за исключением местоимений, входящих во вводные конструкции, обороты и «временные» словосочетания) и ищутся в словаре личных, указательных и притяжательных местоимений и уточняющих прилагательных . Далее анализ проводится согласно следующим принципам:
1. Местоименная анафора отсутствует, если встречается местоимение «это»,
непосредственно перед которым стоит тире : «БРИКС – это площадка для
диалога».
2. Если местоимение входит в именную группу, состоящую из однородных
членов предложения, связанных союзами «и»/»или» (например,
«министры и их постоянные представители», «ООН и ее работники»), то
межфразовой связи нет.
3. Если местоимение не входит в именную группу и находится не далее
третьего места от начала предложения, то существует межфразовая
связь: По ее итогам было принято совместное коммюнике.
4. Межфразовая связь отсутствует, если слева от местоимения стоит
согласованное с ним в роде и числе существительное
(субстантивированное прилагательное): На странице юноши (м.р., ед.ч.)
размещены также его (м. р., ед. ч.) фотографии.
5. Межфразовая связь существует, если слева от местоимения нет
согласованных с ним в роде и числе существительных:
Содержание (ср.р., ед.ч.) радиоактивных веществ (мн.,ч.) в ней (ж.р., ед.ч.)
составляет около 1,9 беккерелей на кубический сантиметр.





Слайд 18 Принципы выявления анафор в сложных предложениях
В сложных предложениях всех видов (с

сочинительной и подчинительной связью и бессоюзных) анализируются только два первых простых предложения.
Первая часть сложного предложения анализируется согласно принципам 1 – 5, как обычное простое предложение (предыдущий слайд). При этом, если межфразовая связь не выявляется в первом предложении, то поиск ее должен быть продолжен во втором предложении.
Во второй части сложного предложения сначала ищутся личные и притяжательные местоимения. Если слева от местоимения стоит согласованное с ним в роде и числе существительное (субстантивированное прилагательное), то считается, что межфразовая связь отсутствует. Если такое существительное не находится, то его поиск продолжается в первой части предложения, начиная от конца.




Слайд 19Принципы выявления анафор в сложных предложениях
4. Межфразовая связь отсутствует, если слева

от знака препинания, разделяющего простые предложения, стоит существительное (субстантивированное прилагательное), согласованное в роде и числе с найденным во второй части местоимением.
Главный редактор агентства Reuters Стивен Адлер (м.р., ед.ч.) сообщил , что он (м.р., ед.ч.) связался с сирийскими властями с просьбой о помощи в поиске пропавших коллег.
5. Межфразовая связь существует, если слева от знака препинания, разделяющего простые предложения, нет существительных, согласованных в роде и числе с найденным во второй части местоимением, или встречается дейктическое местоимение («я», «мы», «ты», «вы»).
Думаю, что они должны активно подключиться к выработке оптимального курса, по которому пойдет БРИКС.
6. Межфразовая связь существует, если во второй части сложного предложения отсутствуют личные и притяжательные местоимения, но есть указательное местоимение («этот», «тот», «такой»).
Маркин сообщил, что эти решения Генпрокуратуры будут обжалованы….

Слайд 21Оценка работы алгоритма
Тестирование проводилось на случайной выборке из 30 текстов.
В

каждом документе определялась количество найденных и правильно определенных межфразовых связей.
Отношение числа правильно определенных связей к количеству всех найденных межфразовых связей, выраженное в процентах, - точность алгоритма. Она составила ~80%.




Слайд 22С п а с и б о з а в н

и м а н и е!

Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика