Обработка текстов размеченной коллекции МФ РЯ средствами WordTabulator презентация

Содержание

1.1. Данные: тексты тематически индексированного Корпуса газетных текстов (КГТ) из коллекции Машинного фонда русского языка (МФ РЯ) (http://cfrl.ru/newspap.shtm )

Слайд 1Обработка текстов размеченной коллекции МФ РЯ средствами WordTabulator


Слайд 2
1.1. Данные:
тексты тематически индексированного
Корпуса газетных текстов (КГТ) из коллекции Машинного

фонда русского языка (МФ РЯ) (http://cfrl.ru/newspap.shtm )

Слайд 3Ex: разметка МФ (начало текста)

"ISOlat1.ent">
%iso88591;



]>




Izvestiya, August 1997

CFRL
Parole encoding




Computer Fund of Russian Language

Ex: разметка МФ
(разметка абзаца)

Мы не отдадим им Караджича, - поклялся премьер-министр сербской
республики Гойко Кличкович, выступая перед своими сторонниками
на митинге в Брчко.



Слайд 4/Особенности тегирования в КГТ; информативность тегов для лингв.анализа: тег
Прежде

чем рассказать о деятельности госпожи Хьюстон, давайте
познакомимся с ней самой поближе. Эффектная, модно одетая
дама бальзаковского возраста по хабаровскому телефону непременно
говорящая хэллоу вместо привычного алло, вообще-то не должна была основательно подзабыть родной язык. Ведь совсем
недавно она была Надей Зайковой из деревни Зайково, что на
Курганщине. Потом выучилась на зубного техника, несколько
лет обитала в Хабаровске, была замужем за неким Элисом, разошлась.
В Москве получила паспорт на фамилию Ноздрина. Шесть лет назад
вышла замуж за американского юриста Мэлколма Хьюстона. Естественно,
сменила место жительства, фамилию, гражданство. В Хабаровске
вновь уже госпожа Хьюстон появилась почти два года назад,
занялась бизнесом по усыновлению детей.


q

- тег TEI,
должен содержать цитату
или кажущуюся цитату

Одна из фирм, которую официально представляет Надежда Хьюстон
- Кэролайн Эдопшен Сервисез, - вполне откровенно через сеть Интернет обозначила цену только своих услуг по усыновлению каждого ребенка - от одиннадцати до двадцати тысяч долларов. За увечных и больных, как за товар с изъяном, цены снижаются, о чем беззастенчиво сообщается все в той же рекламе.


Sic! Тегом

в КГТ тегируется любой закавыченный текст ?
МАЛОИНФОРМАТИВНО
ДЛЯ ОБРАБОТКИ

СР.:


Слайд 5/Особенности тегирования в КГТ; информативность тегов для лингв.анализа: тег и код_текста
izh30polf
ИНФОРМАТИВНОCТЬ
ДЛЯ

ОБРАБОТКИ
? EX.

номер газеты

имя газеты

AAA – обязательный индекс темы
а – факультативный индекс темы

POL – политика;
f- западный

месяц


Слайд 6Обязательные индексы тем, выделяемых экспертами Машинного фонда {{1..10},{61..71}} из 71
! Sic!

Группировка тем при анализе (М.Метелица, 14 тем, связанных с ген.темой ИСКУССТВО)

Слайд 7Факультативные индексы тем, выделяемых экспертами Машинного фонда (16 индексов)
! Sic! ВОЗМОЖНА

рруппировка тем при анализе (М.Метелица, 14 тем, связанных с ген.темой ИСКУССТВО)

? WT как инструмент тематического анализа индексированных текстов



Слайд 81.2. ПО: Word Tabulator
Разработчик: С.В.Логичев
Сайт: www.rvb.ru
Назначение программы:
Главное окно программы


Слайд 9Опции проекта WT, заданные по умолчанию:


Слайд 10Необходимые изменения опций для распознавания индекса с символами {,0,1,2,3,4,5,6,7,8,9} :

*izh01spag*
Удалено из разделителей::

{/,<,>}
Добавлено в доп.символы: …

COMMENT: …

Слайд 11Поисковый шаблон для сочетаний факультативной темы с основной: формат: *head>?????????

т.е. 9 знаков между разделителями

Ср. далее:
Сужение поиска: поиск в газете "Известия"|IZ
за 8 месяц | H

C. Спецсимволы шаблона:
?
*



Слайд 12Пример выдачи по шаблону РАСШИФРОВКА *head>izh??????

head>izh07prey пресса+история (!именно в номере 7)
2. 6 head>izh12spof спорт+западный
3. 5 head>izh26spof спорт+западный
4. 4 head>izh05spog спорт+отечественный
5. 3 head>izh09ecng экономика+отечественный
6. 3 head>izh12polf политика+западный
7. 3 head>izh15polf политика+западный
8. 3 head>izh19spog спорт+отечественный
9. 3 head>izh20polf политика+западный
10. 3 head>izh22crif криминал+западный
… … … …
340. 1 head>izh30spof спорт+западный
341. 1 head>izh30towi город+интервью
342. 1 head>izh30turx туризм+реклама
416

???

1_ИзвестияАвгуст_сочетанияТем.txt


Слайд 13
Сложный поисковый шаблон:
Извлекаются как коды с индексами основных тем, так и

коды с сочетанием основная+факультативная тема

# част. элемент
1. 8 head>izh02con
2. 8 head>izh07prey
… … …
576. 1 head>izh30turx
730

? ПРИМЕР ВЫДАЧИ


Слайд 14
Пример выдачи по шаблону РАСШИФРОВКА *head>izh??????

head>izh07prey пресса+история (!именно в номере 7)
2. 6 head>izh12spof спорт+иностранный
3. 5 head>izh26spof спорт+иностранный
4. 4 head>izh05spog спорт+отечественный
5. 3 head>izh09ecng экономика+отечественный
… … … …
340. 1 head>izh30spof спорт+иностранный
341. 1 head>izh30towi город+интервью
342. 1 head>izh30turx туризм+реклама
416

!Sic
Получение частотного списка сочетаний тем безразлично к номеру и месяцу выхода газеты: MS ACCESS

? ? ?


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика