Лекция 2 презентация

Содержание

* Введение. Обработка текста. Этапы и разработка Корпуса: основные понятия Требования к корпусу Стандарты Разметка

Слайд 1*
Корпуса
Лекция 2
Автоматическая обработка текста


Слайд 2*
Введение. Обработка текста. Этапы и разработка
Корпуса: основные понятия
Требования к корпусу
Стандарты
Разметка


Слайд 3Автоматическая обработка текста. Лингвистические платформы
графематический анализ
препроцессинг (очистка текста)
токенизатор,
сплиттер
морфологический анализ
нормализация

(лемматизация, стемминг)
частеречная разметка (POS-tagging)
синтаксический анализ
полный синтаксический анализ,
chunking,
shallow parsing


*


Слайд 4Автоматическая обработка текста. Лингвистический конвейер
??? семантический анализ
распознавание аргументной структуры
semantic role

labeling
разрешение анафоры (anaphora resolution)
дискурсивный анализ (риторические структуры)
распознавание именованных сущностей
извлечение фактов
классификация, кластеризация текстов


*


Слайд 5Разработка модулей
обучение
корпус текстов
обучающий корпус vs. тестовый корпус
специальным образом отобранные тексты
размеченные под

проблему (аннотированные)

*


Слайд 6Разработка: корпуса
Как собирать корпуса?
Как аннотировать корпуса?
специальные технологии сбора корпуса под задачу


vs. использование существующих экспертных (эталонных) корпусов

*


Слайд 7Разработка: корпуса
Золотой стандарт
Примеры:
НКРЯ со снятой омонимией
Penn-Treebank
*


Слайд 808.02.2008
Корпус
Корпус – множество текстов,
отобранных исходя из некоторых принципов,
размеченных (аннотированных)
в

корпусе с помощью специальных программ можно искать необходимые фрагменты текста по заданным параметрам (например, множество текстов одного жанра или автора, множество строчек или предложений, в которых встретилось конкретное слово или словосочетание, множество существительных в родительном падеже и т.п.)

Слайд 908.02.2008
Понятие корпуса
• Лингвистический, или языковой, корпус текстов – большой, представленный в

электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.

Слайд 1008.02.2008
Основные единицы
Основной элемент хранения в корпусе: текст (может быть полное

произведение, фрагмент произведения, одно предложение и т.п.)


- насколько большой объем текстов в данном корпусе, как измерять этот объем, как сравнивать корпуса: в количестве текстов, страниц и т.п.???

Возможный ответ:

В словах


Слайд 11ворону
08.02.2008
Но: что такое слово? Что мы будем считать словом?
Сколько слов

в предложении:

Ворон

ворону

Ворон

к

летит

кричит


Слайд 1208.02.2008
Что такое слово? Что мы будем считать словом?
словоупотребление
Лемма (множество словоформ,

сведенных к одной исходной форме (≈лексема))

Слайд 13*
Основные единицы
Единицы хранения в корпусе – текст или структурный элемент текста

(требование завершенности фрагмента)
Словоупотребление
Лемма (нормализованная форма)


Слайд 1408.02.2008
Лемма
древних
мн,од=(род|вин|пр)|
=род,мн|вин,мн,од|пр,мн
=S,
=A
Является
=V=непрош,ед,изъяв,3л,нсв,
=V=непрош,ед,изъяв,3-л,нсв
страд
для
=V,несов=непрош,деепр
=PR


Слайд 15*
Основные понятия
Требования к корпусу
Стандарты
Разметка
Типы корпусов
Примеры корпусов


Слайд 16*
Требования к корпусу
Репрезентативность
Полнота
Экономичность
Структурированность
Компьютерная поддержка


Слайд 17*
Требования к корпусу: Репрезентативность
– способность корпуса текстов отражать все свойства проблемной

области, релевантные для данного типа лингвистических исследований,
в определенной пропорции, определяемой частотой явления в проблемной области.

Слайд 18*
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса
Размеры и

процентные соотношения:
Жанры
Стили
Периоды
Авторы
Хронологические границы
……………………….

Слайд 19*
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса
Всеобщий корпус,

нацеленный на пропорциональный охват языковой практики, по анализам Д. Байбера, должен был бы содержать приблизительно 90% разговоров (обычной разговорной речи), 3% писем и замечаний и 7% опубликованных и неопубликованных текстов классических стилей и жанров.

Слайд 20*
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса
Обычно художественные

тексты составляют в национальных корпусах 20-40%

Слайд 21*
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса
Если всеобщий

национальный корпус составляется из письменных текстов современного языка, при создании проекта все же необходимо:
с хронологической точки зрения ограничить современный язык
с точки зрения репрезентативности определить, будут ли тексты для корпуса подбираться на основе принципа адекватного представления всех стилей и жанров (типов текстов)
или на основе адекватного размещения языковых явлений в соответствующих текстах / целом корпусе

Слайд 22*
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса
Культурно-репрезентативный корпус

От

лингвистической работы часто требуется не языковой пример, а хороший языковой пример, “освященный” авторитетом сочинителя
собрание культурно значимых текстов
на данном языке
В практическом преломлении “культурная значимость”
потенциальным источником расхожих цитат текст
признаётся принадлежащим данному слою, если он вносит какой-то вклад в историю русского языка (в том числе и интересен языковыми экспериментами).

Слайд 23*
Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса
культурная значимость

не гарантирует “стандартности” авторского языка.
От корпуса языка требуется соответствие узусу и языковой компетенции его образованного носителя. Между тем тексты таких авторов, как Зощенко, Платонов или даже Гоголь изобилуют “авторскими особенностями”
Отсюда задача: “стандартный”, “эталонный” корпус русского языка; языка лишённого по возможности сознательных стилевых и лексических экспериментов, тем не менее “гладкого” и “профессионального”.

Слайд 24*
Требования к корпусу: Репрезентативность Требование репрезентативности при создании исследовательского корпуса
Например,
проблема

– корпус текстов по дискурсивным словам русского языка
Ср. частота частицы же vs. типа

Слайд 25*
Полнота
В корпусе исследуемое явление должно быть представлено во всей его

полноте, включая редкие случаи и отклонения от нормы
NB: Полнота требует учета релевантных явлений, даже если они очень редкие и не попадают в корпус в соответствии с требованием репрезентативности

Требования к корпусу: Полнота


Слайд 26*
“Корпус должен экономить усилия исследователя при изучении проблемной области.
В частности,

он должен быть не просто строгим подмножеством проблемной области, но, по возможности, существенно отличаться от нее (меньше) по объему”

А.Н.Баранов. Введение в прикладную лингвистику. С.119.

Требования к корпусу: ?? Экономичность


Слайд 27*

А.Н.Баранов. Введение в прикладную лингвистику. С.119.
Требования к корпусу: Структуризация


Слайд 28*
необходимы специальные программы по обработке данных
Необходима предварительная подготовка текста для того,

чтобы его можно было обрабатывать компьютером


Требования к корпусу: Компьютерная поддержка


Слайд 29*
Сбалансированный корпус
в корпусе должны быть представлены в соответствующих пропорциях тексты разных

функциональных стилей, жанров, авторов и т.п. (например, как художественная литература, так и газетные и журнальные статьи, учебники, научно-популяпная литература и т.д.). Пример: Брауновский корпус Фрэнсис – Кучера. 1млн словоупотреблений. 500 текстов по 2000 словоупотреблений.
Мониторный корпус


Слайд 30*
Основные понятия (лекция 1)
Требования к корпусу
Стандарты
Разметка


Слайд 31*
Требование унификации:
многократное использование;
много пользователей;
совместимость с другими корпусами;
совместимость с другими лингвопроцессорами;
совместимость

с общепринятыми научными теориями;
совместимость с общепринятыми классификациями;
возможность применения стандартных программных средств.

Слайд 32*
Объекты стандартизации
Структура формата
Наполнение формата
Метаданные
Классификаторы
Лингвистическая разметка
Кодировки


Слайд 33*
Стандарты
Пример:
In passing the door of that sanctum some time after, I

caught the words --
'She'll happen do better for him nor ony o' f grand ladies.' And again, 'If she ben't one o' th' handsomest, she's noan faa''l, and varry good-natured; and i' his een she's fair beauti-
ful, onybody may see that.‘
474
JANE EYRE 475

Слайд 34Пример:
In passing the door of that sanctum some time after, I

caught the words --
'She'll happen do better for him nor ony o' f grand ladies.' And again, 'If she ben't one o' th' handsomest, she's noan faa''l, and varry good-natured; and i' his een she's fair beauti-
ful, onybody may see that.‘
474
JANE EYRE 475

*

Пример:
In passing the door of that sanctum some time after, I caught the words --
'She'll happen do better for him nor ony o' f grand ladies.' And again, 'If she ben't one o' th' handsomest, she's noan faa''l, and varry good-natured; and i' his een she's fair beauti-
ful, onybody may see that.‘
474
JANE EYRE 475

Стандарты


Слайд 35*
Стандарты
В этой записи имеется ряд недостатков:
номера страниц и колонтитулы идут прямо

в тексте (программам обработки трудно различать их);
нет разницы между одинарными кавычками и апострофами (проблемы с выделением прямой речи);
сохранение переносов, которые были в исходном тексте, (сложности для автоматического поиска);
буква с ударением в слове faál и длинное тире представлены специальными группами символов, которые не соответствуют стандарту (дополнительные проблемы с обработкой);
абзацы выделены только отступом, а знак возврата каретки, жестко задающий формат, имеется в конце каждой строки (если изменить размер шрифта, которым печатается текст, то переформатирование текста будет непростой задачей).

Слайд 36*
Стандарты
In passing the door of that sanctum some time after, I

caught the words ‐

She'll happen do better for him nor ony o' t' grand ladies. And again, If she ben't one o' th' handsomest, she's noan faàl, and varry good-natured; and i' his een she's fair beautiful, onybody may see that.


Слайд 37*
Стандарты разметки
TEI – text encoding initiative
EAGLES -Expert Advisory Group on

Language Engineering Standards
SGML - Standard Generalised Markup Language
XML (Extensible Markup Language) - язык разметки документов

Слайд 38*
Другие международные проекты и стандарты
стандарт CES (Corpus Encoding Standard);
стандарт XCES

(Corpus Encoding Standard for XML);
проект ISLE (International Standards for Language Engineering);
стандарт CDIF (Corpus Document Interchange Format, BNC).

Слайд 39*
Группа стандартов TEI для корпусов (TEI P4, TEI P5)
Схема описания документа:

библиографическое

описание текста,
собственно метаописание текста и
"технологическое" описание:
кодировка текста, история создания электронной версии и т.п.

Слайд 40*
Стандарт Text Encoding Initiative (TEI)
формальное описание текста
Название
Автор
Год
Размер
………
содержательное описание текста
Жанр
Стиль
Целевая

аудитория
Время создания
………


Слайд 41*
TEI
TEI – универсальное множество, из которого создатель корпуса может выбрать любое

подмножество, релевантное для своей конкретной задачи.

Слайд 42*
Примеры стандартных тегов TEI


Слайд 44*
Кодирование метаданных в TEI
Предусмотрены следующие тэги:

1. — информация о времени

и месте создания текста;
2. — классификация текста;
3. — описание текста;
4. — описание автора или участников акта коммуникации;
5. — условия, в которых происходил акт коммуникации.

Внутри каждого тэга – большое количество вложенных уточняющих тэгов.

Слайд 45*
Классификаторы: пример тематической классификации EAGLES (1)
natsci естественные науки
mathematics математика
physics физика
chemistry химия

appsci прикладные науки
medicine медицина
engineering техника и технология
computing вычислительная техника
military военное дело
marine мореплавание

socsci общественные

науки
anthropology антропология
language лингвистика, филология



Слайд 46*
Формальные языки разметки
SGML (Standard Generalized Mark-up Language),
XML (Extensible Mark-up Language)


Слайд 47*
Пример описания на языке XML
описание слова 'лошади' будет записано следующим образом:

lemma="лошадь" number="singular" gender=“feminine" case="genitive">
лошади

лошади лошади,
где NSM2 обозначает the noun (N), Singular (S), masculine (M), Genitive (2)

Слайд 48*
Разметка
➢ метатекстовая разметка
➢ разбиение текста на фрагменты
➢ лемматизация
➢ морфологическая разметка
➢ синтаксическая

разметка
➢ семантическая разметка
➢ фонетическая разметка
другие типы разметки:
➢ анафорическая
➢ структура дискурса
DRT (http://www.coli.uni-sb.de/~bos/doris/ )

Слайд 49*
Метаразметка
Факторы:
1)      факторы, относящиеся к созданию текста автором;
2)      факторы, относящиеся

к внешним признакам текста;
3)      факторы, относящиеся к целям создания текста и его влиянию на аудиторию.
4)      предметная область текста;
5)      стилистические особенности текста.


Слайд 50*
Пример метаразметки:
Author's name
Sub-period
Date of original
Date of

manuscript
Contemporaneity of original and manuscript
Dialect
Verse or prose
Text type
Language of foreign original
Relationship to spoken language
Sex of author
Interactive/non-interactive
Formal/informal

Слайд 51*
Например, Трифонов, "Дом на набережной":



Дом на

набережнойЮрий Трифонов
45238
4
4132


МошковЭлектронная библиотека
http://www.lib.ru/PROZA/TRIFONOW/dom.txt




Слайд 52*
This example is from the Spoken English Corpus and used the

C7 tagset: Perdita&NN1-NP0; ,&PUN; covering&VVG; the&AT0; bottom&NN1; of&PRF; the&AT0; lorries&NN2; with&PRP; straw&NN1; to&TO0; protect&VVI; the&AT0; ponies&NN2; '&POS; feet&NN2; ,&PUN; suddenly&AV0; heard&VVD-VVN; Alejandro&NN1-NP0; shouting&VVG; that&CJT;

AJ0: general adjective AT0: article, neutral for number AV0: general adverb AVP: prepositional adverb CJC: co-ordinating conjunction CJS: subordinating conjunction CJT: that conjunction DPS: possessive determiner DT0: singular determiner NN0: common noun, neutral for number NN1: singular common noun NN2: plural common noun

NP0: proper noun POS: genitive marker PNP: pronoun PRF: of PRP: prepostition PUN: punctuation TO0: infintive to VBI: be VM0: modal auxiliary VVB: base form of lexical verb VVD: past tense form of lexical verb VVG: -ing form of lexical verb VVI: infinitive form of lexical verb VVN: past participle form of lexical verb

Морфологическая разметка


Слайд 53*
EXAMPLE OF PART-OF-SPEECH TAGGING, LOB CORPUS:

hospitality_NNhospitality_NN is_BEZhospitality_NN is_BEZ an_AThospitality_NN is_BEZ an_AT

excellent_JJhospitality_NN is_BEZ an_AT excellent_JJ virtue_NNhospitality_NN is_BEZ an_AT excellent_JJ virtue_NN ,_,hospitality_NN is_BEZ an_AT excellent_JJ virtue_NN ,_, but_CC

not_XNOTnot_XNOT when_WRBnot_XNOT when_WRB the_ATInot_XNOT when_WRB the_ATI guests_NNSnot_XNOT when_WRB the_ATI guests_NNS have_HVnot_XNOT when_WRB the_ATI guests_NNS have_HV to_TOnot_XNOT when_WRB the_ATI guests_NNS have_HV to_TO sleep_VB

in_INin_IN rows_NNSin_IN rows_NNS in_INin_IN rows_NNS in_IN the_ATIin_IN rows_NNS in_IN the_ATI cellar_NNin_IN rows_NNS in_IN the_ATI cellar_NN !_!

 

the_ATIthe_ATI lovers_NNSthe_ATI lovers_NNS ,_,the_ATI lovers_NNS ,_, whose_WP$the_ATI lovers_NNS ,_, whose_WP$ chief_JJBthe_ATI lovers_NNS ,_, whose_WP$ chief_JJB scene_NNthe_ATI lovers_NNS ,_, whose_WP$ chief_JJB scene_NN was_BEDZ

cut_VBNcut_VBN at_INcut_VBN at_IN the_ATIcut_VBN at_IN the_ATI last_APcut_VBN at_IN the_ATI last_AP moment_NNcut_VBN at_IN the_ATI last_AP moment_NN ,_,cut_VBN at_IN the_ATI last_AP moment_NN ,_, had_HVD

comparatively_RBcomparatively_RB little_APcomparatively_RB little_AP to_TOcomparatively_RB little_AP to_TO sing_VB

 

'_' he_PP3A'_' he_PP3A stole_VBD'_' he_PP3A stole_VBD my_PP$'_' he_PP3A stole_VBD my_PP$ wallet_NN'_' he_PP3A stole_VBD my_PP$ wallet_NN !_!'_' he_PP3A stole_VBD my_PP$ wallet_NN !_! '_' roared_VBD

Rollinson_NPRollinson_NP ._.


Слайд 54*
Пример морфологической разметки Национального корпуса русского языка:
Я{я=S,ед,од=им} сидел{сидеть=V,несов=изъяв,прош,ед,муж} на{на=PR}
барском{барский=A=ед,сред,пр} сиденье{сиденье=S,сред,неод=ед,пр}, дышал{дышать=V,несов=изъяв,прош,ед,муж}

горячим{горячий=A=ед,муж,твор} ветром{ветер=S,муж,неод=ед,твор}, бившим{бить=V,несов=прич,прош,ед,муж,твор} в{в=PR} лицо{лицо=S,сред,неод=ед,вин}, ощущая{ощущать=V=несов,деепр,непрош} в{в=PR} то{тот=A=ед,сред,вин} же{же=PART} время{время=S,сред,неод=ед,вин} не{не=PART}

Слайд 55*
Лемматизация
N12:0510g - PPHS1m He he
N12:0510h - VVDv studied study
N12:0510i

- AT the the
N12:0510j - NN1c problem problem ...
VVDv thought think
N12:0520c - IO of of
N12:0520d - AT1 a a

N12:0520e - NNc means means
N12:0520f - IIb by by
N12:0520g - DDQr which which
N12:0520h - PPH1 it it
N12:0520i - VMd might may
N12:0520j - VB0 be be
N12:0520k - VVNt solved solve N12:0520m - YF +. -

SUSANNE corpus :


Слайд 56*
Синтаксическая разметка
Treebanks

Parsing
(S=sentence, NP=noun phrase, VP=verb phrase, PP=prepositional phrase, N=noun, V=verb, AT=article,

P=preposition.)

Слайд 57*
[S[NP Claudia_NP1 NP][VP sat_VVD [PP on_II [NP a_AT1 stool_NN1 NP]

PP] VP] S]

 

[S

[NP Claudia NP]

[VP sat

[PP on

[NP a stool NP]

PP]

VP]

S]


Слайд 58*
Full parsing: [S[Ncs another_DT new_JJ style_NN feature_NN Ncs] [Vzb is_BEZ Vzb] [Ns

the_AT1 [NN/JJ& wine-glass_NN [JJ+ or_CC flared_JJ HH+]NN/JJ&] heel_NN ,_, [Fr[Nq which_WDT Nq] [Vzp was_BEDZ shown_VBN Vzp] [Tn[Vn teamed_VBN Vn] [R up_RP R] [P with_INW [NP[JJ/JJ/NN& pointed_JJ ,_, [JJ- squared_JJ JJ-] ,_, [NN+ and_CC chisel_NN NN+]JJ/JJ/NN&] toes_NNS Np]P]Tn]Fr]Ns] ._. S]

& whole coordination + subordinate conjunct, introduced - subordinate conjunct, not introduced Fr relative phrase JJ adjective phrase Ncs noun phrase, count noun singular Np noun phrase, plural Nq noun phrase, wh-word Ns noun phrase, singular

P prepositional phrase R adverbial phrase S sentence singular
Tn past participal phrase Vn verb phrase, past participle Vzb verb phrase, third person singular to be Vzp verb phrase, passive third person


Слайд 59*
Skeleton Parsing

[S& [P For_IF [N the_AT members_NN2 [P of_IO [N this_DD1

university_NNL1 N]P]N]P] [N this_DD1 charter_NN1 N] [V enshrines_VVZ [N a_AT1 victorious_JJ principle_NN1 N]V]S&] ;_; and_CC [S+[N the_AT fruits_NN2 [P of_IO [N that_DD1 victory_NN1 N]P]N] [V can_VM immediately_RR be_VB0 seen_VVN [P in_II [N the_AT international_JJ community_NNJ [P of_IO [N scholars_NN2 N]P] [Fr that_CST [V has_VHZ graduated_VVN here_RL today_RT V]Fr]N]P]V]S+]

Слайд 60*
Семантическая разметка
Разрешение семантической неоднозначности
Выделение значений лексем в данном контексте
Разметка в соответствии

с тезаурусом Роже
Разметка семантических ролей
Разметка в соответсвии с выделяемыми в словаре подзначениями
Разметка в соответствии с классами, выделяемыми в WORDNET

Слайд 61*
Пример семантической разметки: По тезаурусу Роже
And 00000000
the 00000000
soldiers 23241000
platted 21072000
a 00000000
crown 21110400
of 00000000
thorns 13010000
00000000 Low content word (and, the, a, of,

on, his, they etc)
13010000 Plant life in general
21030000 Body and body parts
21072000 Object-oriented physical activity (e.g. put)
21110321 Men's clothing: outer clothing
21110400 Headgear
23231000 War and conflict: general

Слайд 62*
При{при=ПРЕД} мощном{мощный=П=ср,ед,пр} сложении{сложение=С,ср,но=ед,пр}, крупной{крупный=П=жр,ед,пр} голове{голова=С,жр,но=ед,пр}, крупных{крупный=П=мн,пр} чертах{черта=С,жр,но=мн,пр [Ex="Провести черту." R="непр"

Cl="форма" | Ex="Пограничная ч." R="непр" C3="характеристика" Ap="оценка:max" | Ex="Черты характера." R="непр" C3="характеристика" | Ex="Пограничная ч" R="предм" Cl="пр&м" ]} лица{лицо=С,ср,но=ед,рд} он{он=М-С,мр,ед,3л=им}, когда{когда=СОЮЗ} сидел{сидеть=Г,нс,нп,дст=мр,ед,прш}, производил{производить=Г,нс,пе=мр,ед,дст,прш [Mo="преф" | Ex="Завод производит станки." Cl="существование" Ca="каузация существования" Mo="преф" | Ex="П. свое имя от древнего рода." Mo="преф" ]} впечатление{впечатление=С,ср,но=ед,вн [R="непр" Cl="восприятие" C4="возд" | R="непр" Do="ментальная сфера" ]} рослого{рослый=П=мр,ед,рд} человека{человек=С,мр,од=ед,рд}.

Пример семантической разметки в НКРЯ


Слайд 63*
The rock moved down the hill rolling FIGURE MOTION PATH GROUND

MANNER The rock rolled down the hill FIGURE MOTION + MANNER PATH GROUND La botella entró a la cueva flotando (the bottle) (moved-in) (to) (the cave) (floating) FIGURE MOTION + PATH PATH GROUND MANNER She powdered her nose MOTION + PATH + FIGURE GROUND I shelved the books MOTION + PATH + GROUND FIGURE

Пример семантической разметки:


Слайд 64*
1.2.6. Фонетическая разметка
1 8 14 1470 1 1 A 11 ^what

a_bout a cigar\ette# . /1 8 15 1480 1 1 A 20 *((4 sylls))* /1 8 14 1490 1 1 B 11 *I ^w\on't have one th/anks#* - - - /1 8 14 1500 1 1 A 11 ^aren't you .going to sit d/own# - /1 8 14 1510 1 1 B 11 ^[/\m]# -
# end of tone group
^ onset
/ rising nuclear tone \ falling nuclear tone /\ rise-fall nuclear tone_ level nuclear tone
[] enclose partial words and phonetic symbols.
normal stress
! booster: higher pitch than preceding prominent syllable
= booster: continuance
(( )) unclear
* * simultaneous speech
- pause of one stress unit

Слайд 65*
1.2.7. Разметка анафоры
A039 1 v (1 [N Local_JJ atheists_NN2 N] 1)

[V want_VV0 (2 [N the_AT (9 Charlotte_N1 9) Police_NN2 Department_NNJ N] 2) [Ti to_TO get_VV0 rid_VVN of_IO [N 3

Слайд 66*
Другие виды разметки
структура дискурса
"apologies" e.g. sorry, excuse me
"greetings" e.g. hello


"hedges" e.g. kind of, sort of thing
"politeness" e.g. please
"responses" e.g. really, that's right

DRT (http://www.coli.uni-sb.de/~bos/doris/ )

Слайд 67*
Принципы разметки Leech's Maxims of Annotation
Теоретическая база – максимально независимая, но не

может быть таковой
Тэги – мнемоничные, теоретически прозрачные
По возможности однозначные
Минимальный набор необходимых тэгов
Тэги поддающиеся инструктажу – 2 любых человека с улицы оттэгировали одинаково
Недорогие общедоступные решения


Слайд 68Максимы Лича Требование удаления/восстановления разметки
Из-под

sg gen" sem="r:concr t:stuff t:food:fodder pt:aggr sc:part(plant) " sem2="r:concr t:stuff t:food:fodder pt:aggr sc:part(plant) "/>сена ,
на
котором
лежал ,
Платон
Спиридоныч
вытянул
свёрток ,
протянул
Павлу












Из-под сена , на котором лежал , Платон Спиридоныч вытянул свёрток , протянул Павлу

*

Из-под сена , на котором лежал , Платон Спиридоныч вытянул свёрток , протянул Павлу


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика