Слайд 2Речевые технологии во ВНИИЭФ-СТЛ
Работа по контракту с Intel
1999-2001 – пакет программ
SDT (Speech Developer Toolkit)
Oсновное назначение – построение систем распознавания непрерывной речи, сравнимых с коммерческими продуктами
Акцент на китайский и английский языки
Слайд 3Принципы реализации
Язык С++, объектно-ориентированная реализация
Поддержка платформ Windows, Linux, IA-32, IA-64
Оптимизация для
процессоров Pentium® III, Pentium® 4, Itanium™
Вычислительно емкий код – библиотека IPPSR (Speech Recognition IPP )
Слайд 4Основные возможности SDT
Подготовка данных
Построение акустических моделей, использующих НММ
Би- и триграмные языковые
модели
Декодирование речи с использованием стохастической и конечной грамматик
Адаптация к диктору
Поддержка распределенных вычислений
Слайд 5Декодер SDT
Синхронный декодер, комбинация лучевого и n-best поиска
Статическое трифонное дерево словаря
Предвычисление
биграмной модели
Построение списка лучших гипотез и графа слов
Декодирование по графу (конечной грамматике)
Слайд 6Производительность SDT
Тестовые задачи:
Английский язык – Wall Street Journal (NIST 1992)
Китайский язык
– на базе корпуса “863”
Слайд 7Распознавание русской речи
Слишком много словоформ 2 М русских слов ~ 50
К английских
Произвольный порядок слов в предложении низкая эффективность n-грамных моделей
Недостаток языковых ресурсов
Только системы распознавания голосовых команд или системы с конечной грамматикой
Слайд 8Русские языковые ресурсы
В 2001-2003 сделано широкополосный аудио корпус (80 часов) телефонный аудио корпус
(36 часов) фонетический словарь (4.7 М словоформ) текстовый корпус (1 В слов) инструментарий для обработки русских текстов
Много ручной обработки
Достаточно для построения системы диктовки хорошего качества и языковой модели
Слайд 9Демо русского распознавателя
70 часов речи для акустической модели
Tapescript аудио корпусов +
статья для языковой модели
Словарь 20000 слов
2.6% ошибок на тестовой части корпуса RuSpeech
Распределенная система сервер/клиент/обработчик результата