Слайд 1Тезаурус РуТез:
структура и приложения
Лукашевич Н.В.
ведущий научный сотрудник НИВЦ МГУ
louk_nat @mail.ru
Слайд 2Знания о мире в обработке текстов на естественном языке
В настоящее время:
широкие предметные области для приложений автоматической обработки текстов
В различных приложениях полезно использовать знания о мире
Знания о мире сложным образом связаны с лексическими и терминологическими знаниями
Как построить понятийную модель широкой предметной области для приложений автоматической обработки текстов?
Слайд 3Лингвистические ресурсы для автоматической обработки текстов
Наш опыт: развитие ресурсов для задач
информационного поиска с 1994 года
Большой объем: тысячи слов и словосочетаний
Модель описания знаний о языке и мире должна быть:
«легкая»,
полезная в широком круге приложений
тестирование ресурса в приложениях
Созданные ресурсы:
Тезаурус РуТез,
Общественно-политический тезаурус
Онтология по естественным наукам и технологиями (ОЕНТ) и др.
Слайд 4Коллектив
1994 – н/в АНО Центр информационных
исследований
(АНО ЦИИ)
1994 – 1997 Институт США и Канады РАН
1997 – н/в Научно-исследовательский
вычислительный центр
МГУ им.М.В.Ломоносова
Университетская информационная система РОССИЯ (УИС РОССИЯ): три миллиона документов (нормативные акты, пресса, экономическая статистика)
Слайд 5Участие в организации
научных конференций
«Электронные библиотеки: перспективные методы и технологии, электронные
коллекции» (RCDL) -- ПК
Российский семинар по оценке методов информационного поиска (РОМИП) -- ОК
Международная конференция «Компьютерная лингвистика и интеллектуальные технологии» (ДИАЛОГ) -- ОК
Cross Language Evаluation Forum (CLEF)(2003-2009) -- НК
European Conference on Research and Advanced Technology for Digital Libraries (ECDL) – ПК
Text-Speech-Dialog conference (TSD) - ПК
SIGIR (2008) – ПК и др.
Слайд 6Проекты
Рамблер (2007– н/в)
Аппарат Государственной Думы ФС РФ (1999 -- н/в)
НИИ Восход
для ЦИК РФ (1997 -- н/в)
НПП Гарант-Сервис (2002 – н/в)
ИК «Кодекс» для УОПИ ФСО РФ (2007 – 2008)
в/ч 43753 (2000 – 2007)
Банк России (2006 – н/в)
Счетная палата (2003)
Министерство образования; ГУМЦ «Базис» (2003, 04)
«Аплана» (2006, 2008)
ИППИ РАН для Управления спецпрограмм (1996)
«Гранит-Центр» (2006), НИЦ «Квант» (2003),
НТЦ «Атлас» (2001)
Слайд 7Приложения автоматической обработки текстов
Информационный поиск
Корпоративные или предметно-ориентированные системы
Автоматическое расширение запроса
Визуализация выдачи
Автоматическая
рубрикация текстов
Несколько десятков рубрикаторов
Автоматическая кластеризация текстов
Автоматическое реферирование текстов
Одного документа, многих документов, составление аналитических отчетов
Системы мониторинга
Слайд 8План презентации
Тезаурус РуТез
Общая структура
Единицы Тезауруса
Понятия тезауруса
Текстовые входы (синонимы, многозначность, словосочетания)
Отношения
Тезауруса
Принципы установления
Используемые типы отношений
Приложения автоматической обработки текстов
Слайд 9Тезаурус РуТез –
иерархическая сеть понятий
Понятие:
Имя понятия
Набор текстовых выражений
Отношения между понятиями
53 тыс. понятий,
156 тыс. текстовых выражений,
210 тыс. отношений (более 2 млн. с иерархией)
Переведен на английский язык:
130 тысяч слов и выражений
Слайд 11Общая структура тезауруса РуТез
Две составные части
Общий лексикон
Абстрактные действия, процессы
Оценки, эмоции и
т.д.
Общественно-политический тезаурус
Общественно-политическая область – жизнь современного общества
Состав: экономика, финансы, оборона, законодательство, научная политика, спорт, искусство, военные конфликты и др
Слайд 12Тезаурус по
общественно-политической жизни
Структурированная энциклопедия жизни современного общества
36 тысяч понятий
100
тысяч терминов
140 тысяч прямых отношений (1,1 млн. наследуемых)
предметная область – проблемы современного общества
типы обрабатываемых текстов – официальные документы, международные договора, законы, газетные статьи, новостные сообщения
Состав: термины и тематическая лексика
Слайд 13
Общая
лексика
Специальная
лексика
Специальная
лексика
Тезаурус РуТез и специальная лексика
Промежуточная
зона
Культурное наследие
Онтология
по естественным наукам и технологиям
Слайд 14
Специальные области vs. общественно-политическая область
Слайд 15Тезаурус РуТез: учет трех традиций
Информационно-поисковые тезаурусы
Название понятия
Включение многословных единиц
Небольшой набор отношений
Ресурсы
типа WordNet
Подробное включение отдельных лексических единиц
Аккуратное описание многозначности
Формальные онтологии
Отличимость понятий
Формальные свойства отношений
Слайд 17Понятия тезауруса РуТез
Понятие происходит от значения отдельных слов или словосочетаний
Проблемы ввода
понятий
Квазисинонимы
Близкие значения многозначных слов
Понятие должно быть отличимо от близких понятий
Однозначно понимаемое имя
Набор текстовых входов
Набор отношений
Название понятия
Единое представление для:
нетематической лексики,
тематической лексики, терминологии
Слайд 18Имя понятия
Однозначное слово:
КАБЕЛЬ
Однозначное словосочетание, являющееся одним из текстовых входов понятия:
ГОНОЧНЫЙ
БОЛИД, КОСМИЧЕСКИЙ БОЛИД
Неоднозначное словосочетание с пометой:
КАБАЧОК (РАСТЕНИЕ), КАБАЧОК (ПЛОД)
Пара синонимов – текстовых входов понятия через запятую:
ИРРАЦИОНАЛЬНЫЙ, ЛОГИЧЕСКИ НЕОБЪЯСНИМЫЙ
Имя должно быть однозначно, понятно, отражать особенности понятия.
Слайд 20 Многословные языковые выражения
Словосочетаний может встретиться очень много
Мы вносим словосочетание, если
это необходимо для отражения новой информации
синонимы:
приватизировать – передать в частные руки;
многозначное становится однозначным:
положение дел, состояние дел
дополнительная структуризация сети
сельский дом: вилла, дача;
автомобиль
автомобильные гонки
автогонщик (пилот)
Слайд 21Синонимы в тезаурусе РуТез
Синонимы – языковые выражения,
являющиеся текстовыми входами к одному и
тому же понятию тезауруса
Разные части речи – дериваты могут быть
текстовыми входами одного и того же понятия
Назовем совокупность текстовых входов к
одному и тому же понятию – онтологическими
синонимами
Специальные усилия на поиск многословных
вариантов – снижение многозначности
Формирование обширных синонимических
рядов – стабильность распознавания понятия
в текста
Слайд 22Пример синонимического ряда
ЗАЩИТА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ
ЗАЩИТА ПРИРОДНОЙ
СРЕДЫ
ЗАЩИТА ПРИРОДЫ
ОХРАНА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ
ОХРАНА ПРИРОДНОЙ СРЕДЫ
ОХРАНА ПРИРОДЫ
ОХРАНЯТЬ ПРИРОДУ
ПРИРОДОЗАЩИТА
ПРИРОДОЗАЩИТНЫЙ
ПРИРОДООХРАНА
ПРИРОДООХРАНИТЕЛЬНЫЙ
ПРИРОДООХРАННЫЙ
Слайд 23Близкие значения разных слов: монумент и памятник
Словарь синонимов (НОСС) – 5
различий:
1) в память о конкретном человеке обычно ставится памятник, о группе людей – и памятник, и монумент, о событии – монумент; идеи воплощаются в монументах;
2) у монументов есть способность увековечивать подвиг живых людей
3) по форме сооружения памятник часто представляет собой изображение увековечиваемого объекта,
4) монумент обычно больше по размерам и т.п..
Достаточны ли эти различия, чтобы ставить в соответствие этим словам отдельные понятия?
Слайд 24Монумент и памятник - 2
Проблема разделения:
каковы отношения между собой
каковы
отношения с другими близкими понятиями онтологии
Проверка примеров показывает, что нет разделяющего свойства для сущностей монумент и памятник:
Маргарет Тэтчер, которой в Британии при жизни поставили памятник, узнала…
Авторы словаря: различия нейтрализуются при повторной, сокращенной номинации того же сооружения
Монумент, памятник –> одно понятие онтологии
Слайд 25Близкие значения разных слов: водитель и шофер
Синонимы во многих словарях синонимов
НОСС:
шофер управляет только автомобилем или автобусом, водитель и другими транспортными средствами
Следовательно, вагоновожатый – водитель, но не шофер (в любом контексте)
Должно быть два понятия в онтологии:
ВОДИТЕЛЬ ТРАНСПОРТНОГО СРЕДСТВА (водитель)
ВОДИТЕЛЬ АВТОМОБИЛЯ (водитель, шофер)
Дополнение: шофер – обычно профессиональный работник!
Слайд 26Водитель транспортного средства
(водитель)
Транспортный
работник
Судоводитель
Вагоновожатый
(водитель трамвая)
Водитель автомобиля
(водитель)
Профессиональный водитель
(шофер)
Таксист
Личный водитель
(личный шофер)
Слайд 27Многозначность в тезаурусе
М-многозначность
– одно и то же слово (словосочетание)
соответствует
двум понятиям:
пилот – ЛЕТЧИК, АВТОГОНЩИК
Нужно выбрать значение
А-многозначность – в тезаурусе описано одно значение, но известно, что могут быть другие значения (пометка):
Львов – ЛЬВОВ (ГОРОД)
Нужно подтвердить/отвергнуть употребление значения
Число многозначных единиц в Тезаурусе РуТез
- 16 тысяч многозначных слов и выражений
Слайд 30Пополнение тезауруса РуТез
Новые реалии и пропущенная конкретика (пополнение Общ.-политического тезауруса):
Автодом, дача
на колесах, инсоляция, национал-сепаратизм, тайский бокс, автолестница, единый госэкзамен, пожарный спринклер
Пропущенные отдельные слова общей лексики
Скривить, петься, минование, миролюбивость, неравнодушие, небезразличие, зыбкий
Словосочетания, уточняющие значения слов
Пойти под откос, остаться в стороне, замыть пятно, не обидеть способностями, тяжело даваться
Слайд 32Подходы к представлению отношений
Информационно-поисковые тезаурусы, ворднеты: небольшие наборы отношений
vs.
Наборы семантических отношений,
произвольные набор предикатов
Но:
Большие затраты труда для широкой ПО
Непонятно, какой набор оптимален
Контекстная зависимость
Слайд 33Надежные отношения
Цель: необходимо использовать отношения, не имея возможности подробно проанализировать контекст
упоминания понятия в тексте
Возможности систем автоматической обработки текста для анализа релевантности контекста ограничены
Необходимо найти и описать для понятия те отношения, которые выполняются для понятия практически всегда:
для всех или большинства примеров понятия
в течение всего (или почти всего) времени существования примера
Нужно описывать надежные отношения
Слайд 34Отношения в тезаурусе РуТез
отношение ВЫШЕ-НИЖЕ – таксономическое
отношение
Должно быть действительно для всех примеров
понятий и все время их существования
=> Транзитивность, наследование
отношение ЧАСТЬ-ЦЕЛОЕ – традиционные части,
участники ситуации, свойства
НО!!
Должно быть действительно для всех примеров
понятий-частей и все время их существования
=> Транзитивность
внешняя онтологическая зависимость - несимметричная ассоциация – асц2
Симметричная ассоциация – для очень похожих понятий
Слайд 35Отношение ЦЕЛОЕ-ЧАСТЬ
Отношение ЦЕЛОЕ-ЧАСТЬ обозначает включенность по месту, времени, ситуации, сфере деятельности
Х
– это часть Y
Изменение Х (или совокупности Х)
влечет изменение Y
Отношение действует на протяжении большей части нормального существования примера X
или это основная альтернатива
Для нас:
колесо – не есть ЧАСТЬ автомобиля: автомобильное колесо – ЧАСТЬ автомобиля
инвестор – это ЧАСТЬ для инвестирование
Слайд 36Примеры отношения часть-целое
Автопилот - летательный аппарат
Горбушка - хлеб
Член партии - политическая партия
Балкон зала - зрительный
зал
Грузоподъемность – транспортное средство
Калорийность - пища
Водоизмещение- судно
Инвестор - инвестирование
Очиститель - очистка
Дубильщик - дубление
Слайд 37Транзитивность отношения
ЧАСТЬ-ЦЕЛОЕ
Обвиняемый – обвинение в суде –
судебный процесс – судопроизводство –
судебная система
Аптекарь – аптека – лекарственное
обеспечение – медицинская помощь –
медицина – здравоохранение
Слайд 38Отношение внешней зависимости
(dependence relation)
Концептуальная зависимость:
- понятие Х не возникло
бы без существования понятия Y
Внешняя зависимость:
- понятие X зависит от понятия Y,
- экземпляры Y не являются всегда частями или свойствами экземпляров X
Примеры:
понятие гараж зависит от понятия автомобиль
Понятие автостроение зависит от понятия автомобиль
Обозначаем направленной ассоциацией: АСЦ1, АСЦ2
Слайд 39Пример отношения
Дерево - Лес
Многие ресурсы указывают:
Дерево – часть Леса
Но: дерево не всегда в лесу, а лес всегда состоит из деревьев
Понятие ЛЕС – зависит от понятия ДЕРЕВО
Слайд 40Отношения концептуальной зависимости и семантические имена отношений
ГАРАЖ
зависит_от АВТОМОБИЛЬ (назначение?)
РЕКА зависит_от ПРЕСНАЯ ВОДА (часть?)
ГИДРО-
ЭЛЕКТРОСТАНЦИЯ зависит_от РЕКА (источник?)
ЛЕС зависит_от ДЕРЕВО (часть?)
ЛЕСНИЧЕСТВО зависит_от ЛЕС (место?)
КИПЕНИЕ зависит_от ЖИДКОСТЬ (пациенс?)
Семантические названия отношениям концептуальной зависимости придумать непросто, и они были бы достаточно разнообразны
Слайд 41=ЛЕС= : части
БУРЕЛОМ (ВЕТРОВАЛ; БУРЕЛОМНЫЙ)
ГРУППА ЛЕСА
ЛЕСНАЯ КУЛЬТУРА (ЛЕСНАЯ
ПОРОДА; ЛЕСОХОЗЯЙСТВЕННАЯ
КУЛЬТУРА)
ЛЕСНАЯ ПОЧВА (ЛЕСНАЯ ПОДСТИЛКА)
ЛЕСНЫЕ ЗЕМЛИ (ЛЕСНЫЕ УГОДЬЯ; ЛЕСНАЯ ТЕРРИТОРИЯ;
ЛЕСОРАСТИТЕЛЬНЫЙ РАЙОН; ЛЕСОРАСТИТЕЛЬНАЯ ЗОНА;
ЛЕСОПОКРЫТЫЕ ПЛОЩАДИ; ЛЕСОПОКРЫТЫЕ ЗЕМЛИ;
ЗЕМЛИ ЛЕСНОГО ФОНДА; ЗЕМЛИ, ПОКРЫТЫЕ ЛЕСОМ;
ПОКРЫТЫЕ ЛЕСОМ ПЛОЩАДИ)
ОПУШКА (ОПУШЕЧНЫЙ)
ПОДЛЕСОК (ПОДЛЕСОЧНЫЙ)
ПОДРОСТ (МОЛОДНЯК)
ПРОДУКТИВНОСТЬ ЛЕСА (БОНИТЕТ ЛЕСА)
СУХОСТОЙ (СУХОСТОЙНЫЙ)
Слайд 42=ЛЕС= : зависимые понятия
ЛЕСНОЙ ПОЖАР (ЛЕСОПОЖАРНЫЙ; ПОЖАР В ЛЕСУ)
ЛЕСНАЯ НАУКА
(НАУКА О ЛЕСЕ)
ЛЕСОВЛАДЕНИЕ
ЛЕСОПОЛЬЗОВАНИЕ (ЛЕСНОЕ ПОЛЬЗОВАНИЕ;
ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА)
Слайд 43Автоматическая обработка текстов на основе тезауруса
Слайд 44Обработка текстов с использованием тезауруса
Морфологический анализ
Индекс лемм
Терминологический анализ
Сопоставление с тезаурусом
Разрешение многозначности
(Общественно-политический тезаурус точность > 75% - грант Яндекса 2005)
Тематический анализ
Выделение основной темы текста
Учет близких по смыслу понятий для вычисления веса понятия
Концептуальный индекс с весами
Слайд 45Лексическая связность: пример
О порядке оказания безвозмездной финансовой
помощи
на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений
военнослужащим и гражданам, уволенным с военной службы
Во исполнение Закона Российской Федерации "О статусе военнослужащих" и в целях обеспечения прав на жилище военнослужащих и граждан, уволенных с военной службы, Правительство Российской
Федерации п о с т а н о в л я е т :
1. Утвердить прилагаемое Положение о порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений
военнослужащим и гражданам, уволенным с военной службы.
2. Министерству обороны Российской Федерации и иным федеральным органам исполнительной власти, в которых предусмотрена военная служба:
в месячный срок разработать и утвердить формы и перечень документов, необходимых для принятия решения об оказании военнослужащим безвозмездной финансовой помощи на строительство (покупку) жилья и о выплате денежной компенсации за наем (поднаем)жилых помещений;
Слайд 46Тезаурусные отношения для документа
Слайд 47Вес понятия в тексте:
тематическое представления
Главные темы
Локальные темы
Слайд 48Тематическая аннотация
(Постановление Правительства РФ от 26 июня 1995 г. N 604)
----+----------------------------------------------------------------------+
| ВОЕННАЯ СЛУЖБА; ВОЕННОСЛУЖАЩИЙ; ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ |
****| |
| |
| +------------------------------------------------------------------+
| | ЖИЛОЕ ПОМЕЩЕНИЕ; НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ; ОБЕСПЕЧЕННОСТЬ ЖИЛЬЕМ; |
****| X | КВАРТИРА; ЖИЛИЩНАЯ НОРМА; КОМНАТА (ПОМЕЩЕНИЕ); ЗДАНИЕ; |
| | ЖИЛОЕ ЗДАНИЕ; ЖИЛАЯ ПЛОЩАДЬ |
| | +--------------------------------------------------------------+
| | | ФИНАНСОВАЯ ПОМОЩЬ; |
****| z | z | |
| | | +----------------------------------------------------------+
| | | | ГРАЖДАНИН |
****| X | z | . | |
| | | | +------------------------------------------------------+
| | | | | УВОЛЬНЕНИЕ; |
****| X | z | . | X | |
| | | | | +--------------------------------------------------+
| | | | | | СТРОИТЕЛЬСТВО; ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО; |
****| . | X | z | . | . | ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ; |
| | | | | | +----------------------------------------------+
| | | | | | | ФЕДЕРАЛЬНЫЙ ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; |
****| X | . | z | . | . | . | ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; ПРАВИТЕЛЬСТВО; |
| | | | | | | ПРАВИТЕЛЬСТВО РОССИИ; МИНИСТЕРСТВО ОБОРОНЫ; |
| | | | | | | +------------------------------------------+
| | | | | | | | ПОКУПКА; ДЕНЬГИ; ПЛАТИТЬ; |
****| z | X | z | . | . | z | z | |
Слайд 49Тезаурус РуТез:
основные приложения
Информационный поиск:
Поисковый инструмент УИС Россия (www.cir.ru)
расширение запросов
вопросно-ответные системы
Автоматическая
рубрикация текстов
Более 20 рубрикаторов
Автоматическое аннотирование
Аннотирование одного документа,
Обзорный реферат
Обработка потоков новостей, информационный мониторинг
Кластеризация документов
Слайд 50Представление смысла рубрики
опорными понятиями
Слайд 51Расширенное представление рубрики понятиями тезауруса
Слайд 53Классификация документов и кластеров
Слайд 54Обзорный (сводный) реферат
(Multi-document summarization)
Слайд 55Преимущества от онтологий и тезаурусов в разных приложениях
Слайд 56Заключение
В течение более чем 15 лет мы разрабатываем тезаурусы и исследуем
технологии их применения для решения различных задач автоматической обработки текстов и информационного поиска
Наши выводы:
Структура тезауруса, онтологии должна быть специально адаптирована к задачам автоматической обработки текстов
Тезаурусные технологии не должны противопоставляться современным технологиям пословной обработки текстов, а органично учитывать последние достижения в этой сфере
При учете таких условий применение тезаурусов дает значимое улучшение качества решения задачи по сравнению с лучшими пословными методами