Слайд 1ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ
ДЛЯ АВТОМАТИЧЕСКОГО АНАЛИЗА
НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ
Е. И. Большакова,
Н. Э. Васильева, С.С. Морозов
МГУ им. М.В. Ломоносова
Факультет ВМиК
bolsh@cs.msu.su
Слайд 2Научно-техническая проза:
функции и стилевые особенности
Функции оформления, отбор
сохранения и передачи лингвистических
научной
информации: средств
Средства разных уровней:
лексика и фразеология;
дискурс и композиция;
морфология и синтаксис.
Слайд 3Лексико-фразеологические особенности
Специальная терминология научной области
Общенаучные слова и словосочетания
(по этой причине,
суммируя вышесказанное, далее мы докажем и т.п. )
Стандартизованные конструкции - клише общенаучной речи (обозначить направления дальнейших исследований, всесторонний анализ проблемы показывает и т.п.)
Системный характер;
Взаимосвязь с дискурсивными особенностями
Слайд 4Дискурсивные и композиционные особенности
Научный дискурс (речь) – рассуждение, отражающее последовательность
операций научного мышления (выдвижение гипотезы, введение термина, обобщение и т.п.)
Дискурсивные маркеры
(общенаучные слова и выражения)
- помечают эти операции (предположим, что; далее кратко изложен … и др.),
- упорядочивают и связывают их (во-первых, наконец; благодаря тому, что и др.),
Слайд 5Дискурсивные операции
и маркеры
Исследование текстов (научные статьи, аннотации) из нескольких областей
дало список операций:
Конкретизация и уточнение (в дополнение к);
Актуализация темы (перейдем к);
Выделение информации (особо подчеркнем,);
Предположения и допущения (предположим, что);
Иллюстрация и приведение примеров (к примеру);
Обобщение и резюмирование (в общем);
Сравнение и противопоставление (в отличие от);
И др.
Слайд 6Словарные средства анализа научного текста
Словарь общенаучных слов и словосочетаний: функционально-семантическая
классификация разнородных единиц (классы квазисинонимов).
Лексико-синтаксические шаблоны - отображают характерные конструкции научных текстов
Гипотеза: распознавание дискурсивной структуры текста и примененных в нем дискурсивных операций (т.е. поверхностное понимание) –
на основе частичного синтаксического анализа и лексикона общенаучных слов и выражений
Слайд 7Лексико-синтаксические шаблоны
содержат
конкретные словоформы общенаучных слов
свободные места (слоты), заполняемые согласованными именными
группами
Пример шаблона определения нового термина
NGACC [«мы»] «будем называть» TINS
NGACC – определяющее выражение
TINS – определяемый термин
Слайд 8Методика создания шаблонов
Основная проблема – определение контекстов, сигнализирующих дискурсивный характер слов.
Проведено
исследование контекстов конструкций, определяющих новые термины.
«По результатам генерации форм, слова были разбиты на группы, названные профилями»,
Но - «...устойчивого выражения, названного в
заголовке…».
Фразы – Лексемы – Контексты –
Синтаксические конструкции – Шаблон
Слайд 9Составные элементы шаблонов
Литералы, т.е. конкретные лексемы из словаря («определим», «будем называть»
и др.)
Символьные обозначения слов определенной части речи (например, V – глагол)
Обозначения определенных грамматических конструкций (например, Ng – именная группа)
Условия, уточняющие грамматические характеристики рассмотренных элементов (например: )
Слайд 10Основные шаги процедуры анализа текста
Выделение слов и словосочетаний общенаучной лексики.
Наложение лексико-синтаксических шаблонов, извлечение именных групп (например, определений терминов)
Без полного синтаксического разбора;
проверка согласования и управления слов
Слайд 11Заключение
Разрабатываемые средства нужны для:
извлечения знаний из научных текстов
реферирования и аннотирования текстов
литературно-научного
редактирования
структуризации текстов для быстрого прочтения и внутритекстового поиска.
Спасибо за внимание!