Слайд 1Количественная оценка качества письменного перевода
практический опыт
Демид Тишин,
бюро переводов «Окей»
www.allcorrect.ru
www.tmetric.ru
Сентябрь 2009 г.
Слайд 2Что такое TQ-Metric
Система количественной оценки качества перевода (Translaton Quality Metric =
TQ-Metric)
методика, которая позволяет «разобрать по косточкам» текст перевода и присвоить ему некоторый численный индекс качества
(Translation Quality Index = TQI).
Слайд 3TQ-Metric: какой от неё прок?
качество обслуживания
= качество исполнителей
качество тех.процесса
☺
Довольный
клиент
Качественная
услуга
?
"You cannot manage
what you cannot measure"
William Hewlett
Слайд 4TQ-Metric: какой от неё прок?
!
!
Слайд 5TQ-Metric: какой от неё прок?
Основные функции TQ-Metric:
1. Оценка квалификации исполнителей при
подборе команды на проект;
2. Выходной контроль качества;
3. Предоставление числовых статистических данных для управления качеством;
4. Предоставление числовых статистических данных для управленческого учета (balanced scorecard, KPI и т.д.)
Слайд 6TQ-Metric
TQ-Metric используют:
Lionbridge, Aliquantum, Palex…
Существующие системы:
Публичные
SAE J2450
ATA Framework for Standard Error
Marking
LISA QA Model 3.1
Внутренние разработки переводческих компаний
Lionbridge TQI
БП «Окей» и др.
Обзор TQ-Metric с рекомендациями по созданию:
http://www.aliquantum.biz/downloads.htm
Слайд 7TQ-Metric
Основополагающие принципы:
1) Перевод поддается формализованной оценке
2) Чем меньше ошибок и чем
они «легче»,
тем лучше перевод!
Необходимые компоненты системы:
Классификатор ошибок с указанием относительного «веса» каждой ошибки
Процедура проверки, дающая повторяемые и воспроизводимые результаты
Проверяющий (компетентный и беспристрастный).
Форма оценки
Слайд 8Пример классификатора ошибок
Слайд 9Пример текста после проверки
Слайд 11Подсчет результатов оценки
TQI (Translation Quality Index) – это практический результат количественной
оценки проверки качества перевода.
ATA: TQI = EP*(250/W) - BP
SAE J2450: TQI = EP/W
LISA, Lionbridge, БП Окей: TQI = (1 - EP/W) * 100
где EP = Error Points, суммарное количество баллов ошибок
W = количество слов в образце
BP = Bonus Points, бонусные очки за отличный перевод (в системе ATA – максимум 3 балла)
Слайд 12TQ-Metric: альтернативы?
Автоматическое сравнение текста перевода с «образцовым» переводом или набором образцов
(на предмет совпадения последовательностей слов по различным алгоритмам):
BLEU, ROUGE и др.
NB! Низкая кореляция с субъективной человеческой оценкой
Слайд 13TQ-Metric: альтернативы?
Сравнение текста перевода с текстом оригинала по набору критериев, например:
формальная структура
тема-рематическая и образная структура
функциональный стиль
прагматическая функция
NB! Сложность выставления
интегральной оценки
NB! Высокая субъективность оценки
Слайд 14Translation Quality Metric
Преимущества:
Максимальная объективность оценки за счет формализованной процедуры и использования
классификатора ошибок;
Удобство предоставления обратной связи исполнителям;
Возможность подстройки под конкретные условия (специфику проекта) – гибкий подход к принятию решения;
Слайд 15Translation Quality Metric
Преимущества:
Удобство сохранения и использования результатов, наглядное представление о сильных
и слабых сторонах переводчика;
Объективные данные для улучшения технологического процесса
Слайд 16Translation Quality Metric
Недостатки и открытые вопросы:
Общедоступные системы рассматривают текст как линейную
структуру. Как оценивать повторяющиеся однотипные ошибки?
В общедоступных системах недостаточно четко прописана процедура присваивания веса ошибки (особенно в LISA QA Model 3.1).
Должна ли оцениваться передача не-текстовых элементов? (изображения и схемы, программный код и т.п.)
Слайд 17Translation Quality Metric
Недостатки и открытые вопросы:
Как оценивать недочеты перевода, обусловленные неустранимыми
недочетами оригинала 1) при тестировании переводчиков 2) при выходном контроле качества?
Как совместить понятие клиента о качестве и понятие об «объективном» качестве в рамках одной системы?
Слайд 18Translation Quality Metric
Недостатки и открытые вопросы:
Сколько должно быть проверяющих?
В общедоступных системах
не прописаны требования к проверяющим
Проверяющего сложно подобрать
(должен обладать редким сочетанием компетенций и навыков)
Проверяющего необходимо обучить
Заполнение формы оценки требует времени
Слайд 19Translation Quality Metric
Недостатки и открытые вопросы:
Какие критерии учитывать в классификаторе?
Структурно-лингвистический критерий
Критерий
коммуникативного эффекта
Критерий источника ошибки
Слайд 20Системы TQ-Metric
в сравнении
ATA Framework
for Standard Error Marking
SAE J2450
LISA QA
Model 3.1.2
БП Окей
Слайд 21Системы TQ-Metric в сравнении:
охватываемые типы текстов
*возможность применения в учебном процессе,
при
сертификации переводчиков, в издательствах, переводческих компаниях и т.д.
Слайд 22Системы TQ-Metric в сравнении:
требования к образцам
*высокая надежность результатов
Слайд 23Системы TQ-Metric в сравнении:
Количество классов ошибок
*Увеличивает время на идентификацию типа ошибки.
Слайд 24Системы TQ-Metric в сравнении:
Полнота классификатора
** дизайн, графику, гиперссылки, совместимость ПО,
дружественность и функциональность интерфейса, ошибки программного кода
Слайд 25Системы TQ-Metric в сравнении:
Критерии классификации ошибок
Слайд 26Системы TQ-Metric в сравнении:
Строгость построения классификатора
* классификатор построен на непоследовательном
сочетании разных принципов;
** на практике упрощает определение типа ошибки
Слайд 27Системы TQ-Metric в сравнении:
Количество градаций веса ошибки
* В описании системы не
указано четких критериев для определения веса ошибки. По-видимому, для определения веса следует использовать критерии FMEA, но они общие и требуют конкретизации применительно к локализации.
**Гибкость (максимальный учет контекста)
Слайд 28Системы TQ-Metric в сравнении:
Ограничения на максимальный вес ошибки в зависимости от
класса
*Гибкость (максимальный учет контекста)
Слайд 29Ограничения на максимальный вес ошибки
в зависимости от класса
Балл один и
тот же (5), а серьёзность ошибок различная:
в первом примере ошибка может привести к неверным действиям персонала , а во втором случае – нет
Слайд 30Системы TQ-Metric в сравнении:
количество действий
для оценки ошибки
*Чем более формален классификатор,
тем меньше действий требуется для оценки ошибки
(экономия времени)
Слайд 31Подсчет результатов оценки
Пороговые значения TQI:
NB! TQI из разных систем не
подлежат прямому сравнению!
Слайд 32Системы TQ-Metric в сравнении:
Зачитываются ли ошибки, вызванные неустранимыми недостатками оригинала
(отсутствие контекста, невразумительное и неграмотное изложение)?
*Системы хорошо приспособлены ко входному тестированию квалификации исполнителей
Слайд 33Системы TQ-Metric в сравнении:
Если проверяющий сталкивается
с аналогичной ошибкой
Слайд 34Сравнение систем в действии
Исходные данные
3 тест-задания в разных тематиках:
Энергетика (описание
газовой турбины)
Нефтепереработка (звукоизоляция оборудования)
Юриспруденция (генеральное соглашение оказания услуг)
5 кандидатов в каждой тематике
4 системы проверки
2 проверяющих
РЕЗУЛЬТАТ: 120 заполненных форм оценки.
Слайд 35Субъективность оценки
Отношение между средним удельным баллом ошибок
(по всем тематикам) после проверки
разными людьми:
EP(средн.)1-й чел.
EP(средн.)2-й чел.
Kсубъектив. =
Слайд 36Субъективность оценки
Средний коэффициент по всем тематикам 1,0
у систем SAE J2450
и БП Окей, а также коэффициент 1,1 у LISA QA Model 3.1 говорит о том, что субъективность оценки минимальна. Следовательно, перевод может проверять один человек, и затраты на проверку низкие.
Средний коэффициент по всем тематикам 1,5
у системы ATA (а по тематике «газовые турбины» даже 2,0) говорит о высокой субъективности оценки. Следовательно, для получения достоверных результатов минимальное количество проверяющих равняется двум, что удваивает затраты на оценку качества.
Слайд 37Распределение балла ошибок между тематиками
(среднее по 2-м проверяющим)
Слайд 38Системы SAE J2450, LISA QA Model 3.1
и БП Окей дают
сходные результаты при различных принципах построения классификатора.
Рисунок распределения баллов по тематикам в системе АТА значительно отличается.
Вероятная причина – нелинейная зависимость между ступенью ошибки и её весом в баллах
Распределение среднего балла ошибок
в разных системах
Слайд 39Зависимость между
ступенью ошибки и её весом в баллах
Ступень ошибки
Вес ошибки
Слайд 40Средняя скорость оценки
1 тест-задания
при условии предварительного тщательного изучения текста оригинала
*
За счет большого количества стадий проверки
** С использованием специального ПО
Слайд 42Выводы
* При условии привлечения к оценке двух проверяющих
Слайд 43Бюро переводов «Окей»
оказывает услуги консалтинга:
Управление качеством
Автоматизированный контроль качества (QA Tools)
Оптимизация
бизнес-процессов
Управление персоналом
IT-инфраструктура
Программы памяти переводов
Translation Management Systems