Слайд 1Машинный перевод
виды
стратегии
классификации
поколения
Слайд 2Перед тем как…
Инженер компании Google Пол Хаахр (Paul Haahr) сделал интересное
заявление на конференции SMX West, которая прошла в калифорнийском Сан-Хосе в начале марта.
В ходе мероприятия Хаахр отвечал на вопросы аудитории, в том числе касающиеся поисковых продуктов Google, так как он сам является одним из топовых разработчиков поискового подразделения компании. Хаахра попросили рассказать о работе системы искусственного интеллекта RankBrain, созданной на базе алгоритмов машинного обучения.
Слайд 3И…цитата:
«В Google понимают, по каким принципам работает RankBrain, но нам не
всегда удается понять, что он делает».
Paul Haahr
https://xakep.ru/2016/03/09/rankbrain/
Слайд 4А теперь МП
Предпосылки к развитию МП
История МП
Самый первый и самый известный
эксперимент в истории МП
С чем был связан «Ренессанс» исследований в области МП…
Слайд 6Проблема искусственного интеллекта
В идеале искусственный интеллект —
это способность машины создавать самостоятельные суждения. Если мы имеем тот или иной текст, то машина должна уметь, во-первых, извлечь из него информацию, а во-вторых, знания. Информация — это факты. А знания — это способность выводить из имеющихся фактов неизвестные до сих пор закономерности.
Делир Лахути
Слайд 7Классификация МП
По степени автоматизации (доле участия человека):
Полностью автоматический
…при участии
человека
Перевод, осуществляемый человеком с использованием компьютера
Слайд 8Классификация МП
По типу лингвистической стратегии:
до середины 60х (СМП первого
поколения): Прямые системы ПМ
до середины 70х (СМП второго поколения)
до середины 80х (СМП третьего поколения?)
С середины 80х…
Иные СМП…
Слайд 9Еще классификации МП
По количеству привлекаемых языковых пар:
двуязычные
многоязычные
универсальные
По
тематической ориентации:
монотематические
политематические
По степени реализованности:
промышленные
развивающиеся
экспериментальные
Слайд 11История машинного перевода.
Часть 1
Слайд 12«I have a text in front of me which is written
in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text.»
Warren Weaver
Слайд 13«У меня перед глазами текст, написанный по-русски, но я собираюсь сделать
вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все, что мне нужно, — это взломать код, чтобы извлечь информацию»
Уоррен Уивер
Слайд 14Лейбниц, Готфрид Вильгельм
- изобрёл первый интегрирующий механизм и уникальную для
того времени счётную машину, вёл термин «модель»
в диссертации Dissertatio de arte combinatoria опубликовал идею о "пазиграфии или искусстве делаться понятным при помощи общих письменных знаков для всех народов на земле, на каких бы разных языках они ни говорили, если только они знакомы с этими общими знаками". Слова должны были не только выражать идеи, но также делать их взаимосвязи, т. е. позволять образовывать их с помощью алгебраических операций и заменять рассуждения формулами.
Слайд 15Рене Декарт
- предложил универсальный язык, в котором один символ выражает эквивалентные
идеи различных языков.
Слайд 16Чарльз Бэббидж
проект цифровой аналитической машины
Идея Ч. Бэббиджа состояла в
том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей.
В 1985 году сотрудники Музея науки в Лондоне начали работы по созданию машины Бэббиджа. В ноябре 1991 года машина заработала, вычисляя логарифмы и другие математические функции.
Слайд 17Петр Петрович Смирнов-Троянский
машина для автоматического производства нуждающихся только в литературной
обработке готовых печатных переводов с одного языка одновременно на ряд других языков
Слайд 18Три стадии механического перевода:
1. человек-редактор, знающий исходный язык, преобразовывал слова предложения
в "основную" форму и расставлял синтаксические функции слов c целью избавить входной текст от неясностей морфологического, синтаксического и семантического характера
2. машина переводила эти формы и функции на заданный язык
3. полученное редактировал человек, доводя переведенный текст до правильно сказанного и благозвучного
Слайд 19«У меня перед глазами текст, написанный по-русски, но я собираюсь сделать
вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все, что мне нужно, — это взломать код, чтобы извлечь информацию»
Уоррен Уивер
Слайд 20«Что касается проблемы механического перевода,то, откровенно говоря, я боюсь, что границы
слов в разных языках слишком расплывчаты, а эмоциональные и интернациональные слова занимают слишком большое место в языке, чтобы какой-нибудь полумеханический способ перевода был многообещающим... В настоящее время механизация языка... представляется весьма преждевременной»
Слайд 21Концепция Interlingva
Два этапа передачи информации:
1. исходное предложение переводится на язык-посредник (созданный
на базе упрощенного английского языка)
2. Результат этого перевода представляется средствами выходного языка
Слайд 22Джорджтаунский эксперимент
Основные даты:
1952 год
7 января 1954 года
3-5 лет
1959 год
1964 год
1966 год
Слайд 23Джорджтаунский эксперимент
«Девушка, которая не понимает ни слова на языке Советов, набрала русские
сообщения на перфокартах. Машинный мозг сделал их английский перевод и выдал его на автоматический принтер с бешеной скоростью — две с половиной строки в секунду»
IBM Press release, January 8, 1954
Слайд 25«John was looking for his toy box. Finally he found it.
The box was in the pen John was very happy»
Яндекс и ABBYY Lingvo
Джон искал его игрушечную коробку. Наконец он нашел его. Коробка была в загоне. Джон был очень счастлив.
PROMT Online
Джон искал свою игрушечную коробку. Наконец он нашел его. Коробка была в ручке. Джон был очень счастлив
Google Translator
Джон искал его игрушечную коробку. Наконец, он нашел его. Коробка была в ручке. Джон был очень счастлив
ETAP-3 MT System
Джон искал свою коробку игрушки. Наконец он нашёл это. Коробка находилась в ручке. Джон был очень счастлив.
Слайд 26Рекомендую:
- 701 Translator. IBM Press release, January 8, 1954
- Weaver memorandum
(March 1949)
- Компьютерра, 2002, № 21. "Ты меня понимаешь?" Проблемы машинного перевода.
Слайд 27История машинного перевода.
Часть 2
Слайд 28«серебряный век» советской структурной лингвистики
1960 - постановление Президиума АН СССР «О
развитии структурных и математических методов исследования языка»
Отделы, занимающиеся структурной лингвистикой, появляются в Москве, Ленинграде, Новосибирске
Советские лингвисты Игорь Мельчук, Юрий Апресян и Александр Жолковский создают модель «Смысл — Текст»
Слайд 29«Смысл-Текст» ЭТАП
ЛАБОРАТОРИЯ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ ИППИ ИМ. А.А.ХАРКЕВИЧА РАН
http://proling.iitp.ru/
ЛИНГВИСТИЧЕСКИЙ ПРОЦЕССОР ЭТАП-3
Слайд 30Судьба ученого
Марчук
Игорь Александрович
Советский лингвист, создатель системы ЭТАП
С 1977 г. профессор
Монреальского университета
Обсерватория лингвистики «Смысл ⇔ Текст» http://olst.ling.umontreal.ca/
Слайд 31В ТО ЖЕ ВРЕМЯ НА ЗАПАДЕ…
1968 – Питер Тома основывает LATSEC,
одну из первых фирм разработчиков систем МП
1969 – в Миддлтауне (штат Нью-Йорк) Чарльз Бирн и Бернард Скотт, фирма Logos
Brigham Young University (штат Юта, США) – WEIDNER и ALPS
Группа TAUM в Монреале, система METEO
Группа GENA в Гренобле и группа SUSY в Саарбрюкен, проект EUROTRA
Слайд 32НОВЫЙ ЭТАП В ИСТОРИИ
1970–80
«Ренессанс» машинного перевода, связанный с развитием компьютерной техники.
Ученые ставят более реалистичные задачи и делают акцент на участии человека в процессе автоматической обработки текста. Затраты на разработку систем машинного перевода в США, Европе и Японии исчисляются десятками миллионов долларов.
Слайд 33КОММЕРЧЕСКИЙ УСПЕХ
Комиссия Европейских общин (CEC) покупает:
англо-французскую версию Systran
- систему
перевода с русского на английский
- заказывает разработку франко-английской и итальяно-английской версий.
В Японии разрабатываются системы, основанные на Interlingva.
Панамериканская организация здравоохранения (PAHO) заказывает разработку испано-английского направления – система SPANAM
Слайд 34КОММЕРЧЕСКИЙ УСПЕХ
ВВС США финансируют разработки в Лингвистическом исследовательстком центре при Техасском
университете в Остине.
Группа TAUM в Канаде достигает заметных успехов в разработке своей системы METEO.
В период с 1978 по 1993 г.
США – 20 000 000
Европа – 70 000 000
Япония – 200 000 000
Слайд 35УСПЕШНЫЕ КОММЕРЧЕСКИЕ ПРОЕКТЫ 90х
Systran
IBM
L&H (Lernout & Hauspie)
Language Engineering Corporation
Transparent Language
Nova Incorporated
Trident
Software
Atril
LingoWare
Ata Software
Lingvistica b.v.
Слайд 36ПЕРВЫЕ СИСТЕМЫ ОН-ЛАЙН ПЕРЕВОДА
www.alphaworks.ibm.com/aw.nsf/html/mt
http://www.freetranslation.com/
http://www.transtlate.ru/
www.logomedia.net/text.asp
www.foreignword.com/Tools/transnow.htm
babelfish.altavista.com/translate.dyn
http://www.t-mail.com/
Слайд 37ПРОМТ
Июль 1990 - на выставке PC Forum в Москве проедставлена система
PROMT (PROgrammer’s Machine Translation)
1991 - создано ЗАО "ПРОект МТ"
1992 - компания "ПРОМТ" выиграла конкурс NASA на поставку систем МП
1992 - "ПРОМТ" выпускает целое семейство систем STYLUS