Машинный перевод презентация

Содержание

Введенние Машинный перевод – автоматический (без участия человека) перевод с одного языка на другой Сферы применения: большие объемы информации и/или высокие требования к скорости перевода: Документация Новости Военные сводки Интернет-сайты, многоязычный

Слайд 1Машинный перевод
Лидия Михайловна Пивоварова
Системы понимания текста


Слайд 2Введенние
Машинный перевод – автоматический (без участия человека) перевод с одного языка

на другой
Сферы применения: большие объемы информации и/или высокие требования к скорости перевода:
Документация
Новости
Военные сводки
Интернет-сайты, многоязычный поиск
Справочная информация (рецепты, объявления, адреса)
Основная цель: быстро понять основное содержание сообщения на иностранном языке
Не замена ручному переводу; можно даже сказать – другая задача


Слайд 3Сожержание
Основные подходы
Перевод, основанный на правилах
Перевод, основанный на машинном обучении
Оценка машинного перевода


Слайд 4Правила vs. статистика
Информационное сообщение:
Документ:


Слайд 5Перевод по правилам
Морфологический анализ
Синтез групп (именные, глагольные и др.)
Синтаксический анализ
Синтез предложений
Недостатки:


Принципиальная сложность используемых алгоритмов
Для достижения удовлетворительного качества перевода необходимо огромное количество правил, выводимых вручную

Представляет собой «классический» подход к МП,
реализован в большинстве современных систем автоматического или
автоматизированного перевода, в т.ч. в ПРОМТ, SYSTRAN, Linguatec.

Достоинства:
При наличии необходимых для перевода правил – высокое качество
перевода. Правила должны быть отлично выверены.
Возможность настройки словарей с учетом предметной области


Слайд 6Статистический МП
Использует большие параллельные двуязычные корпуса N-грамм
Поиск наиболее подходящего перевода реализован

специальной вероятностной моделью

Недостатки:
Отсутствие каких-либо механизмов анализа грамматических правил
Требует больших вычислительных мощностей
Для удовлетворительной работы необходимы огромные объемы
данных (сотни миллионов N-грамм)

На данный момент статистический МП реализован только в
некоммерческой системе on-line перевода Google translate

Достоинства: для улучшения качества перевода достаточно добавлять
массивы параллельных текстов, дополнительная работа лингвистов
или программистов не требуется


Слайд 7Сожержание
Основные подходы
Перевод, основанный на правилах
прямой перевод
трансфер
интерлингва
Перевод, основанный на машинном обучении
Оценка машинного

перевода

Слайд 8Основные подходы
Direct, transfer, interlingua


Слайд 9Сожержание
Основные подходы
Перевод, основанный на правилах
прямой перевод
трансфер
интерлингва
Перевод, основанный на машинном обучении
Оценка машинного

перевода

Слайд 10Прямой перевод
Текст на исходном языке
Морфологический анализ
Перевод лексики (двуязычный словарь)
Переупорядочивание
Синтез морфологии
Текст на

целевом языке

Пословный перевод (word-by-word)
Никаких промежуточных структур помимо морфологии
После перевода слов – простое переупорядочивание в соответствии со знанием о языке (например, в английском прилагательное идет до существительного, во французском и испанском – после)
Используемое знание: морфологическая структура языка и локальные правила перевода слов


Слайд 11Правила


Слайд 12Прямой перевод
Нет сложных лингвистических теорий и синтаксического анализа
Использование синтаксической и лексической

похожести между двумя языками
«Надежность» - можно переводить даже неполные предложения
Словари – наиболее важный компонент


Слайд 13Слишком простая модель


Слайд 14Содержание
Основные подходы
Перевод, основанный на правилах
прямой перевод
трансфер
интерлингва
Перевод, основанный на машинном обучении
Оценка машинного

перевода

Слайд 15Система типа TRANSFER


Предложение на языке входа
Структура для языка входа
Структура для языка

выхода

Предложение на языке выхода

анализ

TRANSFER

синтез


Слайд 16Основные идеи
Применяются знания о различиях между языками
Этапы:
Синтаксический анализ
Трансфер: синтаксическая структура исходного

языка трансформируется в синтаксическую структуру целевого языка
Синтез текста на целевом языке по синтаксической структуре

Слайд 17Правила


Слайд 18Трансфер лексики
Лексические правила
Двуязычные словари
Т.е. сложность по сравнению с прямым переводом возрастает


Слайд 19Пример: SYSTRAN
SYSTRAN = PROMT
in the world in Russia

Более 90% рынка
Доход в 2007

году ~13 млн евро
Акции торгуются на бирже

Слайд 20SYSTRAN: комбинация прямого перевода и трансфера
Анализ
Морфологический анализ, части речи
Сборка словосочетаний
Поверхностный синтаксис
Трансфер
Перевод

идиом
Снятие неоднозначности (word sense disambiguation)
Выбор предлогов по глаголу
Синтез
Большой двуязычный словарь
Переупорядочивание
Синтез морфологии

Слайд 21Система типа TRANSFER, но вместо последовательного TRANSFER’a – иерархически взаимосвязанные TRANSFER’ы

для разных единиц перевода:
Уровень лексических единиц
Уровень групп
Уровень простых предложений
Уровень сложных предложений

Пример: ПРОМТ


Слайд 22TRANSFER на морфологическом уровне
входная морф. инф. → выходная морф. инф.

TRANSFER

на уровне групп
Основа – формальные сетевые грамматики
При анализе соединение синтаксических единиц в группы → структура в терминах непосредственных составляющих → синтез лексических единиц с наследуемыми значениями морф. признаков

TRANSFER на уровне предложений
Основа – фреймовые предикатные структуры
Глагол – главный элемент
Валентности глагола определяют заполнение фрейма
Каждому типу фреймов соответствует некоторый закон преобразования в выходной фрейм и оформление актантов

+
Анализ сложных предложений – в случае формирования согласования времен и правильного перевода союзов.

Промт: трансфер на разных уронях


Слайд 23Словари
Генеральный словарь
Специализированные словари
Пользовательские словари


Чем уже тематика, тем лучше качество

перевода

Слайд 24Трансфер
Глубокое лингвистическое знание – лучше качество перевода
Компоненты анализа и синтеза могут

использоваться для других языковых пар (теоретически)

Тем не менее, создание систем машинного перевода очень сложно и трудоемко, сами системы громоздкие и сильно завязанные на конкретную пару языков

Слайд 25Содержание
Основные подходы
Перевод, основанный на правилах
прямой перевод
трансфер
интерлингва
Перевод, основанный на машинном обучении
Оценка машинного

перевода

Слайд 26Система типа INTERLINGUA
Предложение на языке входа
Метаструктура для языка входа
==
Метаструктура для

языка выхода

Предложение на языке выхода

анализ

синтез

Пока ни одной подобной системы не создано
Причина: сложность создания семантического представления приемлемого качества


Слайд 27Transfer vs. interlingua


Слайд 28Сожержание
Основные подходы
Перевод, основанный на правилах
Перевод, основанный на машинном обучении
Оценка машинного перевода


Слайд 29Статистический перевод
Основа - параллельный корпус
Вероятности назначаются подсчетом наиболее вероятного варианта перевода
Оценки

вероятности зависят от объема и качества обучающего корпуса
Лингвистическая информация: разбиение на предложения, графематический анализ, морфология
При наличии корпуса простейшая система перевода может быть сделана на 2 недели

Слайд 30Вероятностная модель
Исходная цепочка S преобразуется в такую цепочку T целевого языка,

что:
T = argmaxp(T|S)
Теорема Байеса:
T = argmaxp(S|T)p(T)
Содержательная интерпретация:
хороший перевод – это сочетание точности передачи информации и правильности целевого языка;
нужна модель перевода p(S|T) (вычисляется по пераллельному корпусу) и модель целевого языка p(T) (вычисляется по одноязычному корпусу)


Слайд 31Языковая модель
Правильный порядок слов
Некоторые идеи грамматики
Вычисляется с помощью n-грамм:


Слайд 32Модель перевода
p(f|e) – вероятность перевода строки (в идеале – предложения) f

строкой e.
Выравнивание, т.е. нахождение соответствия между f строкой e – отдельная задача.
a – показатель качества выравнивания (alignment)

Слайд 33Содержание
Основные подходы
Перевод, основанный на правилах
Перевод, основанный на машинном обучении
Оценка машинного перевода


Слайд 34Bilingual Evaluation Understudy (BLEU)
Требуется тестовое множество, переведенное человеком
Оценивается близость между машинным

и человеческим переводом
Взвешенное среднее числа совпадений N-грамм машинного перевода с переводом человека

Слайд 35Источники
D. Jurafsky, J. H. Martin Speech and Language Processing – 2009

– Chapter 25
A. Ittycheriah Statistical Machine Translation // Handbook of natural language processing, Second Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp. 409-422
Dan Jurafsky From Languages to Information. Lecture 16-17: Machine Translation - http://www.stanford.edu/class/cs124/
Дмитрий Кан Введение в машинный перевод - http://www.slideshare.net/dmitrykan/introduction-to-machine-translation-2911038
Денис Столяров Автоматический перевод на основе шаблонов -http://mathlingvo.ru/nlpseminar/archive/s_23
Елена Уфлянд Работа автоматического переводчика ПроМТ - http://mathlingvo.ru/nlpseminar/archive/s_3
Александр Гребеньков Работа автоматического переводчика - http://mathlingvo.ru/nlpseminar/archive/s_10


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика