Слайд 1Логико-статистические методы представления языковых структур в машинном переводе
Елена Борисовна Козеренко
Институт
проблем информатики РАН
kozerenko@mail.ru
Слайд 2Лингвистические знания в системах машинного перевода
Моделирование внутренних логико-семантических закономерностей языкового
строя и функционирования языка на основе эвристических правил различной степени детализации
Методы разрешения неоднозначности языковых структур на основе условных правил
Слайд 3Машинное обучение
Истоки метода: алгоритмы распознавания речи и символов, коррекция орфографии
Цель: автоматический
вывод модели для некоторой области на основании выборки данных из этой области
Системе, обучаемой правилам синтаксиса, должен быть предъявлен набор правил (фразовых структур) для обучения
Слайд 4Стохастические методы и модели
N-граммы, N-граммы переменной длины
Правило Байеса
Вероятностные контекстно-свободные грамматики
Вероятностные грамматики
подстановки деревьев
Вероятностные грамматики подстановки функциональных деревьев
Слайд 5Системы машинного перевода: современное состояние
Рынок систем МП достиг зрелости в 2002-2004
годах
Появление больших корпусов параллельных текстов стимулировало развитие статистических методов обработки естественного языка
Вероятностные расширения основных подходов к разработке систем МП, таких как
Прямой перевод
Трансфер (перенос)
Интерлингва (семантический субстрат)
Современные вычислительные ресурсы позволяют использовать
ПЕРЕВОДЧЕСКУЮ ПАМЯТЬ (прецедентные переводы)
Слайд 6Основные классы систем МП
Системы с доминированием статистического подхода и автоматическим формированием
правил
SDLX (SDL International) использует переводческую память и поддерживает все языки на основе латинского и арабского алфавитов, а также иврита
DIPLOMAT: осуществляет перевод на основе прецедентов (example-based translation), разрешение неоднозначности на основе статистики
Слайд 7
2. Системы с доминированием логико-лингвистических эвристик, использующие глубинную семантику и развитые
лексико-семантические модели
KANT Center for Machine Translation (CMT), Carnegie Mellon University
Слайд 8
3. Системы, исходно базирующиеся на гибридной логико-статистической модели
Matador:
испанско-английский МП
4. Системы – рабочие места переводчиков
Наш подход относится к 3-й группе
Используется механизм сегментации языковых структур на основе функционально-семантического переноса и ряда приемов синхронного перевода
Разрешение неоднозначности языковых структур на основе весов, задаваемых для деревьев разбора
Включение механизмов обучения для формирования новых лингвистических знаний
Слайд 9
Вероятностная контекстно-свободная грамматика, ее определение - G = (N,T,P,S,D), где N
– это множество нетерминальных символов, T – множество терминальных символов, P – множество продукций вида A -> b, где A – это нетерминальный символ, b – это цепочка символов, S – специальный исходный симвло, D – это функция, приписывающая значения вероятности каждому правилу из множества P.
Вероятностная грамматика замещения деревьев: ее определение то же, что и для вероятностной контекстно-свободной грамматики, но здесь мы имеем дело c фрагментами деревьев произвольной глубины, при этом значения вероятности приписываются этим фрагментам.
Слайд 10Новый синтетический подход к формированию грамматики системы МП
семантическое выравнивание структур для
ряда европейских языков
разрешение неоднозначности с использованием стохастических методов
усвоение системой новых структур и шаблонов с помощью методов машинного обучения