Автоматическое выделение структур в тексте презентация

Содержание

* Санкт-Петербург 2007 * Принципы Отсутствие предварительной разметки текста Автоматическая обработка Статистические критерии выделения структур Иерархическое построение Наличие классов свободного варьирования Представление исходного текста

Слайд 1Автоматическое выделение структур в тексте


Слайд 2* Санкт-Петербург 2007 *
Принципы
Отсутствие предварительной разметки текста
Автоматическая обработка

Статистические критерии выделения структур
Иерархическое построение
Наличие классов свободного варьирования
Представление исходного текста в виде графа
Итерационное выявление новых структур на основе уже существующих

Слайд 3* Санкт-Петербург 2007 *

Начальная обработка текста

Построение графа составляющих

Принципы выделения структур

Классы

эквивалентности


Итеративность процесса выделения структур


Тестовые данные



Слайд 4* Санкт-Петербург 2007 *
Деление исходного текста на «морфемы»
формальное и искусственное деление
выбор

самой длинной морфемы

использован список морфем из первого тома Русской Грамматики

деление на ММЕ (минимальные морфологические единицы) или слова


Слайд 5* Санкт-Петербург 2007 *
Примеры деления слова на ММЕ


Слайд 6* Санкт-Петербург 2007 *

Начальная обработка текста

Построение графа составляющих

Принципы выделения структур

Классы

эквивалентности


Итеративность процесса выделения структур


Тестовые данные



Слайд 7* Санкт-Петербург 2007 *
Построение графа составляющих
Предложение
Граф составляющих
ММЕ
Узел графа:

сама морфема
список

предыдущих морфем
список последующих морфем
информация об индексах морфемы
служебная информация (координаты и др.)



Слайд 8* Санкт-Петербург 2007 *
Примеры графа составляющих


Слайд 9* Санкт-Петербург 2007 *
Примеры графа составляющих


Слайд 10* Санкт-Петербург 2007 *
Примеры графа составляющих


Слайд 11* Санкт-Петербург 2007 *

Начальная обработка текста

Построение графа составляющих

Принципы выделения структур

Классы

эквивалентности


Итеративность процесса выделения структур


Тестовые данные



Слайд 12* Санкт-Петербург 2007 *
Шаблоны-кандидаты
Шаблон-кандидат – последовательность узлов графа составляющих, встречающаяся

в достаточном большом числе предложений

Обнаружение шаблона-кандидата


Слайд 13* Санкт-Петербург 2007 *
Нахождение значимых шаблонов
Значимый шаблон – шаблон-кандидат, удовлетворяющий

определенным статистическим критериям


Необходимо построить вероятностные функции для выявления границ значимого шаблона


Слайд 14* Санкт-Петербург 2007 *
Построение вероятностных функций


Слайд 15* Санкт-Петербург 2007 *
Использование вероятностных функций
Формирование матрицы на основе функций Pr

и Pl вдоль пути S графа составляющих:

Слайд 16* Санкт-Петербург 2007 *
Построение вероятностных функций
Представление вероятностных функций


Слайд 17* Санкт-Петербург 2007 *
Построение вероятностных функций
Построение дополнительных функций для определения

скорости падения функций Pr и Pl:

Пороговое значение: η = 0.33


Слайд 18* Санкт-Петербург 2007 *
Итоговая оценка шаблона-кандидата
Критерий оценки шаблона-кандидата:


Слайд 19* Санкт-Петербург 2007 *

Начальная обработка текста

Построение графа составляющих

Принципы выделения структур

Классы

эквивалентности


Итеративность процесса выделения структур


Тестовые данные



Слайд 20* Санкт-Петербург 2007 *
Выявление классов эквивалентности
Класс эквивалентности - набор вершин, которые

являются взаимозаменяемыми в данном контексте (класс свободного варьирования)

определить окно длины L
определить в рамках данного окна слот
получить шаблон, имеющий префикс, суффикс и класс эквивалентности в позиции слота

Алгоритм:


Слайд 21* Санкт-Петербург 2007 *
Пример класса эквивалентности
Отрывок текста корпуса CHILDES:


Слайд 22* Санкт-Петербург 2007 *
Пример класса эквивалентности
that
thinks
Класс эквивалентности


суффикс
префикс


Слайд 23* Санкт-Петербург 2007 *
Пример класса эквивалентности
и
Катерина
жила
получила

Класс эквивалентности


суффикс
префикс


Слайд 24* Санкт-Петербург 2007 *
Пример класса эквивалентности
по
е
интер
к
л
м

Класс эквивалентности


суффикс
префикс
р


Слайд 25* Санкт-Петербург 2007 *

Начальная обработка текста

Построение графа составляющих

Принципы выделения структур

Классы

эквивалентности


Итеративность процесса выделения структур


Тестовые данные



Слайд 26* Санкт-Петербург 2007 *
Образование новых узлов в графе
Образование нового узла P


Слайд 27* Санкт-Петербург 2007 *


Тестовые данные


Слайд 28* Санкт-Петербург 2007 *
Пример структуры узла (текст из CHILDES)
Простой узел


Слайд 29* Санкт-Петербург 2007 *
Пример структуры узла (текст из CHILDES)
Более сложный узел


Слайд 30* Санкт-Петербург 2007 *
Пример структуры узла
Простой узел


Слайд 31* Санкт-Петербург 2007 *
Пример структуры узла
Простой узел


Слайд 32* Санкт-Петербург 2007 *
Пример структуры узла
Более сложный узел


Слайд 33* Санкт-Петербург 2007 *
Тестирование программы на различных текстах
Один из текстов

Национального корпуса русского языка из раздела публицистики (1400 слов – 843 уникальных)
Найдено:

163 класса эквивалентности
45 значимых шаблонов

Фрагмент текста, представляющего собой слова родителей, обращенные к детям (корпус текстов CHILDES)
(2020 слов – 27 уникальных)
Найдено:

13 классов эквивалентности
4 значимых шаблонов


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика