Машинная морфология. Автоматический морфологический анализ. Виды автоматического морфологического анализа презентация

Содержание

Машинная морфология

Слайд 1Машинная морфология Автоматический морфологический анализ Виды автоматического морфологического анализа




Слайд 2Машинная морфология




Слайд 3Область применения
Машинная морфология необходима в прикладных системах, ведущих поиск и анализ

информации на естественном языке.

При индексировании текстов и поиске запросов поисковая машина должна производить лингвистическую обработку слов.

Слайд 4У каждого слова очень много различных форм, которые называются словоформами.

Словоформы

по смыслу являются одним и тем же словом, но по форме могут очень сильно различаться из-за окончаний, а также чередований букв в основе.

Таким образом, поисковику нужно отождествлять между собой словоформы, являющиеся грамматическими формами одного и того же слова, чтобы при поиске не пропускать вхождений искомого слова.

Слайд 5Стемминг
Естественным решением этой проблемы изменчивости слов является решение хранить только основы

слов.

Для этого в ходе индексации web-страниц слова приводятся к основам, и уже в таком виде добавляются в индекс поисковой машины.

Если все словоформы слова сводятся к его основе на этапе создания индекса, то потом, при задании любой словоформы слова в запросе, она также будет сведена к основе и будут найдены все вхождения этой основы в тексте.

Слайд 6Функции машинной морфологии
Нормализация: получение по любой форме слова морфологического индекса, одинакового

для всех словоформ слова, используемого как для индексации, так и для поиска.


Слайд 7Анализ: получение по словоформе всех её характеристик (род, число, падеж, время,

лицо и пр.) и всех возможных омонимов.

Слайд 9Синтез новых слов: определение всех морфологических характеристик для незнакомых слов.


Слайд 10Автоматический морфологический анализ




Слайд 11Автоматический морфологический анализ
АМА – анализ отдельно взятой словоформы и всех тех

сведений, которые из нее можно извлечь безотносительно к тому, относятся ли эти сведения к морфологии или нет.

АМА определяется двумя факторами:
1) тип ЕЯ, подвергаемого анализу
2) тип алгоритма автоматической обработки текста

Слайд 12Общая схема обработки текста


Слайд 13Анализ отдельных слов
Морфологический и морфемный анализы слов

Входной параметр: текстовое представление исходного

слова

Цель и результат: определение морфологических характеристик слова и его основная словоформа

Слайд 14Существует три основных подхода к проведению морфологического анализа:
1. «четкая» морфология –

для русского языка он основан на словаре Зализняка.

2.«нечеткая» морфология –
основывается на некоторой системе правил, по заданному слову определяющих его морфологические характеристики.

3. вероятностный подход – основан на сочетаемости слов с конкретными морфологическими характеристиками.

Слайд 15«четкая» морфология
Словарь Зализняка содержит основные словоформы слов русского языка, для каждой

из которых указан определенный код.

Известна система правил, с помощью которой можно построить все формы данного слова, отталкиваясь от начальной словоформы и соответствующего ей кода.

Помимо построения каждой словоформы, система правил автоматически ставит в соответствие ей морфологические характеристики.

При проведении четкого морфологического анализа необходимо иметь словарь всех слов и всех словоформ языка.

Этот словарь на входе принимает форму слова, а на выходе выдает его морфологические характеристики.


Слайд 16При таком подходе для проведения морфологического анализа заданного слова необходимо просто

найти его в словаре, где уже хранятся точные, «окончательно известные» значения всех его морфологических характеристик.

Для одного и того же входного слова могут встретиться сразу несколько вариантов значений его морфологических
характеристик.

Слайд 17 Морфологический анализ на основе словаря Зализняка
http://www.aot.ru/docs/rusmorph.html


Слайд 18К сожалению, этот способ применим не всегда: слова, поступающие на вход,

могут не входить в словарь всех словоформ.

Такая ситуация может возникнуть из-за ошибок ввода исходного текста, из-за наличия в тексте имен собственных и т.д.

В случае, когда метод не дает нужного результата, применяется нечеткая морфология.

Слайд 19Морфемный анализ
Цель – разделение слова на приставки, корни, суффиксы и окончания.

В

словаре морфем русского языка указано разделение каждого слова на отдельные части, но не указаны типы каждой из них — какая из них является приставкой, какая корнем и т.д.

Множество всех корней слов русского языка открыто, но множество всех возможных приставок, суффиксов и окончаний ограничено.

Кроме того, известно, что в любом слове сначала идут приставки, затем корни, далее суффиксы и окончания.

Слайд 20Поэтому на основе словаря морфем русского языка можно построить другой словарь,

который будет содержать не только разбиение каждого слова на части, но и тип каждой из них. В таком случае, для проведения морфемного анализа слова необходимо обратиться к этому словарю.

Морфемный анализ не ограничивается обращениями к словарю. В ситуации, когда слово отсутствует в словаре, возможно непосредственное проведение анализа на основе стандартного строения слов русского языка (приставка — корень — суффикс — окончание) и множества всех приставок, суффиксов и окончаний.


Слайд 21Морфемный анализ


Слайд 22«нечеткая» морфология

Наличие тех или иных лексем может определять морфологические характеристики слова:

можно построить систему правил, которая будет опираться на наличие или отсутствие каких-либо частей и выдавать одно или несколько предположений о морфологических параметрах.

Такой набор правил можно построить основываясь на морфемном анализе слов, содержащихся в словаре всех словоформ, и их морфологических характеристик.

Слайд 23Рассмотрим эту задачу формальнее:
Известны пары значений, состоящие из морфемного строения слова

и его морфологических характеристик.

Это есть не что иное, как «вход» и «выход» системы правил, которая по морфемному строению слова будет определять его морфологические характеристики.

Задачу построения такой системы правил можно решить с помощью самообучающейся системы.

Для ее реализации могут быть использованы деревья решений, программирование на основе индуктивной логики (ILP, Inductive Logic Programming) или другие алгоритмы.

Слайд 24Нечеткий морфологический анализ


Слайд 25Данный подход состоит в:
формировании набора правил
вручную.

Его

реализация :
написание экспертной системы диагностирующего типа.

Слайд 26вероятностный подход
Одна и та же словоформа может принадлежать сразу к нескольким

грамматическим классам.

Для каждой словоформы определяются все ее грамматические классы, а также вероятность ее отношения к каждому из этих классов. Это выполняется на основе некоторого набора документов, где каждому слову предварительно поставлен в соответствие грамматический класс.

Затем вычисляются вероятности сочетаний определенных грамматических классов для слов, стоящих рядом — для двоек, троек, четверок и т.д. На основе этих чисел может проводиться анализ слов, но для него необходимо уже не только само слово, но и стоящие рядом с ним слова.


Слайд 27Замечания:
Вероятностный метод применим только для тех языков, у которых четко фиксирован

порядок слов в предложении. Если же порядок слов можно изменять, то все возможные сочетания грамматических классов будут практически равновероятны.

Если первые два способа анализа (четкая и нечеткая морфология) на входе принимают отдельные слова, то вероятностный способ, напротив, на входе принимает либо все предложение, либо, по крайней мере, несколько стоящих рядом слов.



Слайд 28Виды автоматического морфологического анализа




Слайд 29Важен тип входного словаря
Учитывая связь морфологического анализа со словарём можно выделить

следующие виды морфологического анализа:

МА со словарём словоформ
МА со словарём основ
МА методом логического умножения
Независимый МА без словаря словоформ


Слайд 30МА со словарём словоформ:
Каждой словоформе приписывается определённая информация.

Отыскивается нужное слово, извлекается

информация о нем.

Слайд 31

+
простота и высокая скорость анализа;
универсальность по отношению по
2. отношению ко множеству всех возможным словоформ русского языка

Слайд 32

-
Большие затраты труда на создание и поддержание словаря;
Невозможность полного размещения словаря в оперативной памяти при анализе;
Высокая избыточность информации, связанной с постоянными признаками каждой словоформы (морфологическими, синтаксическими, семантическими)




Слайд 33МА со словарём основ:
каждое слово разделяется на основу и аффикс (окончание,

суффикс);

словарь содержит только основы слов вместе с ссылками на соответствующие строки в таблице возможных аффиксов.


Слайд 34МА со словарём основ:
При разбиении слова на основу и аффикс –

основа должна оставаться неизменной во всех возможных словоформах данного слова

Суммарный объем словаря основ и словаря аффиксов < объем полного словаря всех словоформ

Слайд 35Иногда используется комбинированный вариант морфологического анализа (используется как словарь словоформ, так

и словарь основ):

Использование
словаря основ

Использование
словаря
словоформ

+

-

Завершение анализа


Слайд 36

+

время анализа одного слова может быть выше, но объем словарей позволяет загружать словари целиком;
словари значительно легче создавать, т.к. постоянные параметры каждого слова вводятся однократно, вместе с основой.

Слайд 37

-

отсутствие универсальности, существует большое количество слов, которые нельзя представить в виде суммы неизменной основы и аффикса.
Например: сущ. «ГОД» во мн.ч., ед. П – «ЛЕТ» местоимение «Я»



Слайд 38МА методом логического умножения (Варга)

Каждой морфеме сопоставляется информация, полученная в результате

объединения информации о словоформах, в которые входит данная морфема.

Информация о словоформе получается как пересечение или логическая конъюнкция (&) информации о морфемах, входящих в данную словоформу.

Слайд 39МА методом логического умножения (Варга)

Тем самым функция, определенная на множестве словоформ,

заменяется на функцию, определенную на множестве морфем.

Такой анализ производится при наличии словаря основ и применяется к флективным языкам, каждой букве соответствует булевый вектор (есть 1, нет 0).



Слайд 40 Независимый МА без словаря словоформ

Максимальное использование информации о флексиях во

флективных языках.

Выделяются грамматические морфемы: флексии, предлоги, союзы, знаки препинания между словами - все элементы. передающие связи слов во фразе.


Группа флексий, характеризующаяся одинаковым набором грамм. отношений. которые они могут передавать, образует морфему.



Слайд 41Независимый МА без словаря словоформ
Флексии, входящие в одну морфему, называются алломорфами,

т.е. морфемными синонимами.

Задача алгоритма состоит в том, чтобы по взаимному расположению алломорфов отнести каждую флексию к ее морфеме.

С этой целью строятся специальные словари: словари флексий, словари слов, не несущих грамм. информации. (наречий и т.п.).

Способ имеет ограниченной применение.


Слайд 42Ссылки:
Зализняк А.А. Грамматический словарь русского языка. Словоизменение. 3-е изд. М. Русский

язык, 1987.
Гарант-Парк-Интернет. Технологии анализа и поиска текстовой информации. http://research.metric.ru.
Кузнецова А.И., Ефремова Т.Ф. Словарь морфем русского языка. М. Русский язык, 1986.
Тихонов А.Н. Морфемно-орфографический словарь: Русская морфемика. М. Школа-Пресс, 1996 SRILM - The SRI Language Modeling Toolkit. http://www.speech.sri.com/projects/srilm.


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика