Слайд 1Ефименко И.В.
Irina.Efimenko@avicomp.ru
ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ
КРОСС-ЯЗЫКОВОГО РЕФЕРИРОВАНИЯ:
СИНТЕЗ ТЕКСТОВ
ПОД УПРАВЛЕНИЕМ ПРЕДМЕТНЫХ ОНТОЛОГИЙ
Слайд 2План презентации
Введение
Системы семейства OntosMiner
Shallow-подход
Общие принципы и схема алгоритма кросс-языкового реферирования
Генерация текста:
пример
Заключение
Слайд 3Введение
Анализ под управлением предметных онтологий
Синтез под управлением предметных онтологий
Кросс-языковое реферирование
Автоматическое реферирование
Машинный перевод
Проблема создания универсального семантического языка – «переходной» репрезентации между языком-целью и языком-источником
Когнитивные карты (С-Маps)
Слайд 4Введение
Отсутствие необходимости построения дополнительного (исходного) реферата на языке-источнике.
Онтология в основе системы
- «гарант» релевантности:
С точки зрения предметной области (сфера экстралингвистики)
С точки зрения текста (сфера лингвистики)
в процессе генерации итогового текста используется набор лингвистических шаблонов, аналогичных формальным конструкциям, положенным в основу анализа
Слайд 5Введение
Системы типа Information Extraction.
Извлечение экземпляров объектов и связей между ними
Слайд 6
Модель
типы объектов и
типы отношений
Текст
Структурированные данные
Введение:
80-20
ПЕРСОНА
ОРГАНИЗАЦИЯ
РАБОТАТЬ В ОРГАНИЗАЦИИ
Слайд 7
Введение
Тексты
Отдельные графы
База знаний
Слайд 8Системы OntosMiner:
примеры онтологий
Слайд 10Системы OntosMiner:
примеры онтологий
Слайд 12Системы OntosMiner:
Фрагмент текста в среде GATE
Слайд 13Системы OntosMiner:
Фрагмент когнитивной карты
Слайд 14Системы OntosMiner:
Когнитивная карта множества сводок
Слайд 15Shallow-подход:
Общие принципы
Использование системы шаблонов, ориентированных на извлечение сущностей и
связей между ними, являющихся экземплярами представленных в онтологии типов.
Применение аналогичных принципов при генерации текстов
автоматическое реферирование на основе лингвистических шаблонов под управлением предметных онтологий.
Все промежуточные операции могут выполняться на формальных конструкциях-шаблонах, а не на реальных предложениях. Генерация естественноязыковых фрагментов происходит на самом последнем этапе, когда системой получены все данные, необходимые для порождения гладкого и семантически насыщенного текста.
Слайд 16Shallow-подход:
От NLP к NLP
«Полиция расстреляла демонстрацию чернокожих»
«Во время демонстрации
застрелено двое чернокожих»
«Гибель участников демонстрации»
«Трагический случай»
Данный принцип помогает «исчислить» множество различных структур, используемых в языке для описания той или иной ситуации: (пассив-актив, эллиптические конструкции, синтаксические нули...)
«И.И. Иванов пришел работать в РАО ЕЭС», «И.И. Иванов был принят на работу в РАО ЕЭС», «И.И. Иванов – сотрудник РАО ЕЭС», «После прихода И.И. Иванова в РАО ЕЭС»...
Слайд 17Кросс-языковое реферирование:
Схема алгоритма
6.Лингв. (в т.ч. стилист.) операции на отдельных фрагментах
формальных представлений
Слайд 18Кросс-языковое реферирование:
«Центры кристаллизации»
Система метрик
(оценка релевантности объектов и связей)
RANLP-2005,
[V.Khoroshevsky]
Слайд 19Кросс-языковое реферирование:
Анализ корпуса языка-источника
Отсутствие необходимости работать с фиксированной языковой парой
Слайд 20Кросс-языковое реферирование:
Сопоставление шаблонов языка-источника
и языка-цели
Слайд 21Кросс-языковое реферирование:
Значения атрибутов в шаблоне, специфицирующем фрагмент исходного текста, и варианты
конструкций в языке-цели
Разрешение конфликтов атрибутов
Набор «нейтральных» конструкций
Слайд 22Генерация текста:
исходный текст и C-Map
Sergey Brin, a native of Moscow, received
a bachelor of science degree with honors in mathematics and computer science from the University of Maryland at College Park. Brin is a recipient of a National Science Foundation Graduate Fellowship as well as an honorary MBA from Instituto de Empresa . It was at Stanford where he met Larry Page and worked on the project that became Google. Together they founded Google Inc., and Brin continues to share responsibility for day-to-day operations with Larry Page and Eric Schmidt.
Слайд 23Генерация текста:
Объекты, связи и шаблоны, извлеченные из исходного текста и
представленные в когнитивной карте
Слайд 24Генерация текста:
Исходное представление, (1)
Экземпляр объекта “Лицо”
{Person1, syntactic role =
“subject” (определяет не только синт. роль как таковую, но и ряд других характеристик, например, значение падежа)}
Глагол-ядро экземпляра онтологического предиката “получать научную степень”
{base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”}
Экземпляр объекта “Научная степень” (атрибут отношения “получать научную степень”)
{base = “bachelor of science”, number = “singular”, honors = “yes”, speciality = [“mathematics”, “computer science”], subspeciality = “-”, organization = “Organization1”,
/Вложенный экземпляр онтологического предиката “Располагаться”:
“Organization” object {Organization1}
“Located In” Relation prepositional construction {name = “at”}
“Location” object {Location1}/}
Слайд 25Генерация текста:
Исходное представление, (2)
Экземпляр объекта “Лицо”
{Person1, syntactic role =
“subject”}
Глагол-ядро экземпляра онтологического предиката “получать научную степень”
{base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”}
Экземпляр объекта “Научная степень” (атрибут отношения “получать научную степень”)
{base = “MBA”, honors = “yes”, number = “singular”, speciality = “-”, subspeciality = “-”, organization = “Organization2”}
Слайд 26Генерация текста:
Исходное представление, (3)
Список объектов типа “Лицо”
{[Person1, Person2], syntactic role
= “subject”}
Глагол-ядро экземпляра онтологического предиката “быть основателем”
{base = “found”, tense = “past simple”, gender = any, number = any, voice = “active”}
Экземпляр объекта “Организация”
{Organization3, syntactic role = “object”} – необходима спецификация синтаксической роли, поскольку в рамках рассматриваемой онтологии данный тип объекта может в данном сем. отношении играть различные роли; кроме того, роли определяются грамматическими характеристиками «ядерных» конструкций
Слайд 27Генерация текста:
Предварительные трансформации
Трансформация 1. Объединение связей:
общий узел-источник («первый актант»),
идентичность
шаблонов (с точностью до набора и значений атрибутов).
В случае, если результирующая конструкция недостаточно элегантна, возможна генерация двух текстовых фрагментов, соединенных искусственно созданной «переходной» структурой.
Экземпляр объекта “Лицо”
{Person1, syntactic role = “subject”}
Глагол-ядро экземпляра онтологического предиката “получать научную степень”
{base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”}
Список объектов типа “Научная степень”
{[{base1 = “bachelor of science”, number = “singular”, honors1 = “yes”, speciality1 = [“mathematics”, “computer science”], subspeciality1 = “-”, organization1 = “Organization1”
/ Вложенный экземпляр онтологического предиката “Располагаться”:
“Organization” object {name = “Organization1”}
“Located In” Relation prepositional construction {name = “at”}
“Location” object {name = “Location1”}/} ,
{ base2 = “MBA”, number2 = “singular”, honors2 = “yes”, speciality2 = “-”, subspeciality2 = “-”, organization2 = “Organization2”}]}
Слайд 28Генерация текста:
Предварительные трансформации
Трансформация 2. Формирование списочной структуры и перемещение фокуса
на следующий экземпляр объекта того же типа:
Экземпляр объекта “Лицо”
{pronoun, number = “singular”, gender = “male, syntactic role = “subject”}
Глагол-ядро экземпляра онтологического предиката “быть основателем”
{base = “found”, tense = “past simple”, gender = any, number = any, voice = “active”}
Экземпляр объекта “Организация”
{Organization3, syntactic role = “object”}
Элемент-связка
{name = “together with”}
Экземпляр объекта “Лицо”
{Person2, syntactic role = “indirect object”}
Слайд 29Генерация текста:
Итоговые трансформации, (1)
Экземпляр объекта “Лицо”
{Person1, name = “Сергей Брин”
(первое имя – словарный аналог исходного, значение фамилии - результат транслитерации), синтаксическая роль = “subject”, падеж = “nom” (следствие синт.роли)} → результирующий фрагмент текста: “Сергей Брин”
Глагол-ядро экземпляра онтологического предиката “получать научную степень”
{base = “получить”, tense = “past”, aspect = “perfective” (информация, заданная на подготовительном этапе при формировании шаблонов-аналогов, см. раздел 3), род = “male” (на основе рода субъекта), число = “singular”(на основе числа субъекта), залог = “active”} → результирующий фрагмент текста: “получил”
Слайд 30Генерация текста:
Итоговые трансформации, (2)
Список объектов типа “Научная степень”
1ый элемент списка
{name
= “степень (base {case = “gen”, number = “singular” }) (в области (speciality {case = “gen”}))? (специализация: (subspeciality {case = “nom”)}))? (honors {case = “instr”}) (organization {case = “prep”, number = “singular”}) ” (констукция в целом и атрибуты ее фрагментов заданы в процессе нахождения шаблонов-аналогов, раздел 3), number = “singular”, case = “acc” (задано управлением глагола), base = “бакалавр”, honors = “yes”, speciality = [“математика”, “кибернетика”], subspeciality = “-”, organization = {Organization1, name =“Университет Мэриленда” (здесь может фигурировать словарный аналог и/или результат транслитерации/перевода)},
/ Вложенный экземпляр онтологического предиката “Располагаться”:
“Organization” object {name = null}
“Located In” Relation prepositional construction {name = “расположенный в”, case = “prep” (задано падежом организации в объекте “Научная степеньt), number = “singular”}
“Location” object {Location1, name = “Колледж Парк” (здесь может фигурировать словарный аналог и/или результат транслитерации/перевода), case = “prep” (задано моделью управления предлога)}/ } → результирующий фрагмент текста: “степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке ”
Элемент-связка
{name = “а также”} → результирующий фрагмент текста: “а также ”
2ой элемент списка
{...} → результирующий фрагмент текста: “степень MBA с отличием в Институте Эмпреса ”
Слайд 31Генерация текста:
Текст реферата
Вариант 1. Сергей Брин получил степень бакалавра
в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке, а также степень MBA с отличием в Институте Эмпреса. Он основал корпорацию Гугл вместе с Ларри Пейджем.
Вариант 2. Сергей Брин получил степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке. Кроме того (искусственно сгенерированный фрагмент), он (анафорическая замена) получил степень MBA c отличием в Институте Эмпреса. Он основал корпорацию Гугл вместе с Ларри Пейджем.
Смещение фокуса
Генерация последующих фрагментов
Слайд 32
Генерация Реферата об Объекте в виде текста по коллекции документов
Генерация текста:
Текущее состояние
Слайд 33
Заключение
Постановка задачи синтеза под управлением предметных онтологий.
Использование принципов онтологического подхода
при решении задачи моно- и кросс-языкового реферирования.
Основная задача: расширение спектра порождаемых естественноязыковых конструкций
Слайд 34Спасибо за внимание!
Thank (аналог ключевой лексемы связи) You (генерация эксплицитного представления
актанта) for (информация по модели управления) Your (генерация эксплицитного представления актанта) Attention (аналог ключевой лексемы объекта)