Распознавание текста на изображениях. Tesseract презентация

Содержание

Использованные статьи Документация Tesseract:https://github.com/tesseract-ocr/docs Вейвлет-преобразование: http://www2.isye.gatech.edu/~brani/wp/kidsA.pdf Приложение вейвлет-преобразования: http://www.sciencedirect.com/science/article/pii/S0262885605000107 http://link.springer.com/article/10.1007/s13042-011-0049-5

Слайд 1 Распознавание текста на изображениях. Tesseract.


Слайд 2Использованные статьи
Документация Tesseract:https://github.com/tesseract-ocr/docs
Вейвлет-преобразование: http://www2.isye.gatech.edu/~brani/wp/kidsA.pdf
Приложение вейвлет-преобразования:
http://www.sciencedirect.com/science/article/pii/S0262885605000107
http://link.springer.com/article/10.1007/s13042-011-0049-5


Слайд 31985 – Hewlett-Packard, C, проприетарность
1996 – порт на Windows
1998 – переход

от C к C++
2005 – открытый исходный код
2006 – Google

Слайд 4Pipeline
Анализ макета
страницы
Поиск блобов
Сборка строк и слов
Распознавание слов
(первый проход)
Распознавание слов
(второй проход)
Бинарное

изображение

Текст


Слайд 5Анализ макета страницы


Слайд 11Поиск блобов


Слайд 12Поиск строк


Слайд 13Поиск слов: случай моноширинного шрифта


Слайд 14Поиск слов: случай пропорционального шрифта


Слайд 15Поиск слов: случай пропорционального шрифта
Нет пробела
Лишний
пробел


Слайд 16Поиск слов: случай пропорционального шрифта
“Fuzzy”
space


Слайд 17Разрезание и объединение символов


Слайд 18Статическая классификация символов
Features of prototype
Features of unknown


Слайд 19И что, это работает?


Слайд 22Как сделать, чтобы заработало?
Текст упорядочен в один или несколько столбцов
Нет посторонних

изображений
Нет сильных искажений и шума
Высота символов >= 20 пикселей
Бинарное изображение на входе
(иначе тессеракт сам его бинаризует)

Слайд 23Использованные пакеты
Tesseract для Python: pytesseract
Обработка изображений: scikit-image
Вейвлеты: PyWavelets
Нейронные сети: PyBrain


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика