Слайд 1Б.В.Добров, Н.В.Лукашевич
Разрешение лексической многозначности на основе
тезауруса предметной области
АНО
Центр
информационных
исследований
МГУ им. М.В.Ломоносова
Научно-исследовательский
вычислительный центр
Слайд 2Проблема разрешения
лексической многозначности
Применение лексических ресурсов в системах автоматической обработки текстов
=> лексическая многозначность
Тестирование качества методов разрешения лексической многозначности. Конференция Senseval
Разрешение многозначности всех слов текста
Разрешение многозначности некоторой заданной совокупности слов (несколько десятков)
Возможна еще одна постановка задачи:
Разрешение многозначности относительно тезауруса (онтологии) предметной области
Слайд 3Разрешение многозначности относительно тезауруса (онтологии) предметной области
Особенности задачи:
Многозначность внутри тезауруса
Многозначность: термин
– нетермин (образование)
Число многозначных терминов в зависимости от величины тезауруса
Несколько сотен-тысяч единиц
Хорошо бы для разрешения многозначности использовать:
знания, описанные в тезаурусе,
структуру тезауруса
Слайд 4Общественно-политический тезаурус
подтезаурус Тезауруса русского языка РуТез
широкая предметная область современной общественной
жизни: политика, экономика, военные вопросы, социальные вопросы, культура, спорт и т.п.
иерархическая сеть понятий
33 тысячи понятий, 87 тысяч терминов
Общественно-политический тезаурус соответствует объединению тематических областей WordNet, за исключением области factotum – области понятий, которые могут встретиться в любой области
лексическая многозначность:
информационный поиск, многоязычный информационный поиск, рубрикация, поиск ответов на вопросы
Слайд 5Многозначность в
Общественно-политическом тезаурусе
М-многозначность
– одно и то же слово
(словосочетание) соответствует
двум понятиям:
пилот – ЛЕТЧИК, АВТОГОНЩИК
Нужно выбрать значение
А-многозначность – в тезаурусе описано одно значение, но известно, что могут быть другие значения (пометка):
история (М) – ИСТОРИЧЕСКИЕ НАУКИ,
Львов – ЛЬВОВ (ГОРОД)
Нужно подтвердить/отвергнуть употребление значения
В тезаурусе:
2204 термина – два и более значений (М-многозначность),
4259 – терминов с пометкой (А-многозначность)
Слайд 6Виды лексической многозначности в Тезаурусе
· омонимия:
брак –
СУПРУЖЕСТВО и
ПРОИЗВОДСТВЕННЫЙ БРАК
· термины из разных предметных областей:
прокат –
ПРОКАТНОЕ ПРОИЗВОДСТВО (металлургия), КИНОПРОКАТ (кинематография),
ПРОКАТ ИМУЩЕСТВА (аренда)
· метонимия:
балет –
БАЛЕТНОЕ ИСКУССТВО (развитие балета),
БАЛЕТНЫЙ СПЕКТАКЛЬ (смотреть балет),
БАЛЕТНАЯ ТРУППА (приезд балета)
· метафора:
сотовый –
СОТОВАЯ СВЯЗЬ (сотовый телефон),
ПЧЕЛИНЫЕ СОТЫ (сотовый мед)
Слайд 7Использование структуры тезауруса для разрешения многозначности
Каждому значению слова соответствует некоторая окрестность
соответствующего понятия в тезаурусе, которая подтверждает это значение
Тезаурус – сеть, по отношениям можно пройти от одного любого понятия к другому
Транзитивные иерархические отношения: родовидовые, часть-целое
Иерархическое дерево: путь отношений между понятиями на основе свойств транзитивности и наследования может быть преобразован к одному отношению
Вхождение многозначного слова:
Локальный контекст – окрестность некоторой длины
Глобальный контекст – некоторый образ понятий документа
Слайд 8Пример текста
Три медали завоевали боксеры Тюменской области на чемпионате Европы
Первый чемпионат Европы международного студенческого союза по
боксу состоялся в Риме 9-16 ноября. Как сообщил корреспонденту интернет-
издания "NewsProm.Ru" президент тюменского спортивного фонда
"Медведь" Алексей Плотников, боксеры Тюменской области завоевали три
медали.
чемпионат – однозначный вход
боксер - многозначный вход, который имеет более одного значения
Европы - многозначный вход, который имеет одно значение
Слайд 9Пример: сеть отношений
вид
спорта
Слайд 10Конкретные цели исследования
2 алгоритма разрешения многозначности по тезаурусу: старый и новый
Протестировать
старый алгоритм
Собрать тестовую коллекцию из нескольких источников
Разметить эталонные значения
Вычислить точность работы алгоритма
Разработать новый алгоритм
Сравнить новый алгоритм на эталонной коллекции
Слайд 11Существующий алгоритм разрешения многозначности
Окрестность –
это дерево вниз и дерево вверх
от понятия, соответствующего многозначному термину
Глобальный контекст:
- в документе употреблялся однозначный синоним
- в документе имеется однозначное вхождение понятия
из окрестности одного из значений
Локальный контекст:
- если не удалось выбрать из глобального контекста
- пошаговое движение от вхождения: подтверждает
первое встретившееся понятие из окрестности
Проблемы:
ложные сопоставления в глобальном контексте,
недостаточность окрестности, отсутствие взвешивания
факторов
Слайд 12Подтверждающая окрестность
вид
спорта
бокс
спортивное
соревнование
чемпионат
спортсмен
боксер
спорт
человек
состязание
ЦЕЛОЕ А
ВЫШЕ
ВЫШЕ
ВЫШЕ
ВЫШЕ
ЦЕЛОЕ
ЦЕЛОЕ А
ЦЕЛОЕ
ВЫШЕ
Слайд 13Точность разрешения многозначности существующего метода
Эталонная коллекция
Выпуск газет за 1 день:
«Ведомости»,
«Комсомольская правда», «Независимая газета», «Известия», новостные сообщения из коллекции Яндекс.Новости
Типы соответствия ручной разметки и автоматических результатов
1) Значение было выбрано правильно;
2) Значение не было выбрано, и это было правильно;
3) Значение было выбрано неправильно;
4) Значение не было выбрано, и это было неправильно;
5) Система выбрала один из правильных вариантов
Слайд 14Оценка точности метода
Число правильных решений
Точность = ---------------------------------------------
Число всех решений
Всего документов: 227
Всего неоднозначных вхождений: 10688
Слайд 15Новый метод разрешения многозначности: изменение структуры окрестности
путь от понятия может содержать
перегиб:
видовые понятия одного и того же родового понятия:
живопись и графика
части одного и того же целого:
отдел, сектор (организации)
общее видовое понятие:
взрыв, террористический акт -> террористический взрыв
Слайд 16Проход с переломом
вид
спорта
бокс
спортивное
соревнование
чемпионат
спортсмен
боксер
спорт
человек
состязание
ЦЕЛОЕ А
ВЫШЕ
ВЫШЕ
ВЫШЕ
ВЫШЕ
ЦЕЛОЕ
ЦЕЛОЕ А
ЦЕЛОЕ
ВЫШЕ
Слайд 17Новый метод разрешения многозначности:
рассмотрение разных факторов
Чем длиннее путь между понятиями, тем
слабее подтверждение
Наличие перегиба на пути ослабляет подтверждение
Перегиб на высоком уровне иерархии хуже, чем на низких уровнях
Разные типы перегибов могут по-разному влиять на подтверждение: ср. виды и части
Слайд 18Новый метод разрешения многозначности:
оценка значимости факторов
Параметры и веса:
Длина окрестности
Высота шагов иерархии
– высота дерева
Длина пути
Порог отсечения
Цена перегиба в зависимости от типа перегиба
Цена многозначности, если подтверждает многозначный элемент
Формула:
подтверждение (c1,c2) = максимальный_балл –
- длина_пути –
- цена_многозначности –
- цена_перегиба
Слайд 19Новый метод разрешения многозначности:
локальный и глобальный этапы
Предполагалось: основной источник разрешения многозначности
– локальный контекст
Первые эксперименты: результаты хуже,чем существующий простой метод
Необходимость: отражения глобального контекста
Моделирование глобального контекста:
Те же параметры и формула
Подтверждение только на однозначных вхождениях
Использование коротких иерархий – длина 2
Цена глобального уровня
Баллы глобального и локального уровня складываются
Слайд 21Результаты тестирования нового метода
Самый большой рост на более коротких
новостных сообщениях – 7 пунктов (более 10%)
Слайд 22Особенности лучшего набора параметров
Разные пороги для типов многозначности А (одно с
пометкой) и М (выбор из нескольких значений)
Подтверждение от многозначного термина в локальном контексте значимо так же как и от однозначного термина
На локальном уровне наилучшими оказались очень небольшие деревья высотой 2 (тестирование начиналось с деревьев высотой 7)
Перегиб между двумя видами действительно хуже – его прохождение оценивается большим количеством баллов
Динамическая окрестность: 3+3
Слайд 23Дополнительные результаты
В тезаурусе много словосочетаний:
министр обороны, уголовное дело, дополнительный отпуск
и др.
Какой вклад в разрешение многозначности?
Если считать с учетом словосочетаний, то точность разрешения многозначности больше на 5%
Зависимость точности разрешения многозначности от частотности употребления слова
на всех коллекциях слова с частотностью 1 имеют меньшую точность разрешения, чем средняя по этой коллекции
Слайд 24Эксперимент с запросами в области права
Длинные запросы :
компенсация подоходного налога
при приобретении недвижимости (источник РОМИП)
40 запросов
Старый алгоритм: точность - 48.31
Новый алгоритм: точность - 82.02
Особенности лучшего набора параметров:
Длинные деревья –7
Минимальные пороги
Минимальные цены перегибов
Создание адаптивного алгоритма, подбирающего параметры в зависимости от длины документа…?!
Слайд 25Заключение
Рассмотрена задача автоматического разрешения многозначности относительно многозначных терминов тезауруса предметной области
Особенности
задачи:
Несколько тысяч многозначных терминов,
Не нужно различать значения сверхчастотной общеупотребительной лексики
Алгоритм показал необходимость рассмотрения как локального контекста, так и глобального контекста для вхождения многозначного термина
Подбором параметров алгоритма удалось повысить точность разрешения многозначности на 4.6 пункта
Для коротких текстов алгоритм позволяет добиться улучшения качества разрешения многозначности на десятки процентов