Обнаружение текста на изображениях презентация

Содержание

1. Обнаружение текста на изображениях
3. Зачем? Необходимо для дальнейшего распознавания текста
4. Компоненты системы извлечения текста Fig. credit: J. Gllavata + Text Enhancement
5. Приложения Оцифровка документов Индексирование и извлечение информации
9. Обнаружение текста – газеты, журналы, книги
10. Обнаружение текста – произвольные изображения Исходное
11. Обнаружение текста – чертежи и графики Обнаружение
12. План лекции Зачем нужны алгоритмы обнаружения
13. Представление цифровых изображений Растровое изображение
14. Представление цифровых изображений RGB – распространенная модель
15. Обнаружение границ
16. Градиент изображения Градиент направлен в сторону
17. Вычисление градиента изображения Roberts: Prewitt: Sobel: Дискретный случай:
18. Выделение границ: примеры Sobel Canny Исходное
19. Компоненты связности
20. Компоненты связности
21. Пороговая бинаризация Светлый объект на темном фоне
22. Бинаризация
23. Преобразование Хафа (Hough transform) x y m
24. Преобразование Хафа (Hough transform) x y m
25. План лекции Зачем нужны алгоритмы обнаружения
26. Основные задачи Печатные документы Анализ структуры страницы
27. Основные задачи Печатные документы Анализ структуры страницы
28. Projection profiles and XY-cuts Вертикальная проекция Горизонтальная проекция Fig. credit: Y.Y. Tang et al.
29. Результат алгоритма Docstrum Методы «снизу-вверх» Fig. credit: A. Namboodiri et al.
30. Использование диаграмм Вороного Методы «снизу-вверх» Fig. credit: A. Namboodiri et al.
31. Основные задачи Печатные документы Определение поворота текста
32. План лекции Зачем нужны алгоритмы обнаружения
33. Почему не работают традиционные методы? Фотографии Большое
34. Классификация подходов Фотографии Text detection and localization Texture-based Region-based CC-based Edge-based K. Jung et al.
35. Методы, основанные на анализе текстуры Фотографии Построение
36. Методы, основанные на анализе текстуры Фотографии Сложный
37. Region-based methods (bottom-up) Фотографии Выделение компонент связности
38. Region-based methods Фотографии Произвольный размер шрифта Произвольная
39. Stroke Width Transform (SWT) B. Epshtein et
40. Обнаружение текста при помощи SWT B. Epshtein et al.
41. Вычисление SWT Фрагмент штриха p –
42. Обнаружение текста с помощью SWT Границы для
43. Комбинированные методы Y.-F. Pan et al.
44. Шаг 1 – анализ текстуры Комбинированные методы Y.-F. Pan et al.
45. Шаг 2 – анализ компонент связности Комбинированные методы Y.-F. Pan et al.
46. Шаг 3 – выделение текстовых строк и
47. Robust Reading Competitions ICDAR (2003, 2005, 2009,
48. План лекции Зачем нужны алгоритмы обнаружения
49. Графики и диаграммы Анализ компонент связности по цвету
50. Экспериментальная оценка LocationRecognitionRate = NLoc/NG
51. Screenshots (+) Быстрая бинаризация Время обработки изображения1600x1008
52. Заключение Зачем нужны алгоритмы обнаружения текста? Распознавание

Главная
Разное
Обнаружение текста на изображениях

Слайд 1Обнаружение текста на изображениях
Наталья Васильева
nvassilieva@hp.com
HP Labs Russia
8 апреля 2012,

Computer Science клуб

Слайд 3
Зачем?
Необходимо для дальнейшего распознавания текста (OCR)
Документы – page layout analysis
Фотографии, чертежи,

графики – text detection and localization
Самостоятельные приложения
Автоматическое построение коллажей
Автоматическое изменение размера изображений

Слайд 4
Компоненты системы извлечения текста
Fig. credit: J. Gllavata

+ Text Enhancement

Слайд 5Приложения
Оцифровка документов
Индексирование и извлечение информации из графиков и чертежей
Индексирование и поиск

изображений, автоматическое построение аннотаций
Переводчик в кармане пример: Word Lens (http://questvisual.com/)
Помощь слабовидящим
Навигация роботов в помещениях, в городских условиях

Слайд 9Обнаружение текста – газеты, журналы, книги

обнаружение текстовых областей
определение угла поворота текста

(skew detection)
определение порядка чтения

Слайд 10Обнаружение текста – произвольные изображения
Исходное изображение

Возможные результаты работы алгоритмов обнаружения

текста

Слайд 11Обнаружение текста – чертежи и графики
Обнаружение текстовых областей
Определение угла поворота текстовых

строк
Короткие фрагменты текста
Разнообразие шрифтов, текст под разными углами
Однородный фон
Высокая контрастность

фотографии

печатные документы

Слайд 12
План лекции
Зачем нужны алгоритмы обнаружения текста?
Что такое цифровое изображение?
Представление цифровых изображений
Границы,

компоненты связности, бинаризация, преобразование Хафа
Печатные документы (document images)
Фотографии (natural scenes)
Чертежи, графики, обложки

Слайд 13Представление цифровых изображений
Растровое изображение

Слайд 14Представление цифровых изображений
RGB – распространенная модель цвета
Каждый пиксель задается тремя значениями:

red, green, blue

Цветное растровое изображение:

Слайд 15Обнаружение границ

Слайд 16Градиент изображения

Градиент направлен в сторону наибольшего изменения интенсивности

Направление градиента:

Величина градиента:

Слайд 17Вычисление градиента изображения
Roberts:
Prewitt:
Sobel:

Дискретный случай:

Слайд 18Выделение границ: примеры
Sobel
Canny
Исходное

Слайд 19Компоненты связности

Слайд 20Компоненты связности

Слайд 21Пороговая бинаризация
Светлый объект на темном фоне
Два светлых объекта на темном фоне
Глобальная

– порог единый для всех точек изображения
Локальная или Динамическая – когда порог зависит от координат точки (x,y)
Адаптивная – когда порог зависит от значения яркости в точке I(x,y)

Слайд 22Бинаризация

Слайд 23Преобразование Хафа (Hough transform)
x
y
m
b

m0
b0
image space
Hough space
Для данного набора точек (x,

y) найти все точки (m, b), такие что y = mx+b

Слайд 24Преобразование Хафа (Hough transform)
x
y
m
b

image space
Hough space
x0
y0
Для данного набора точек (x,

y) найти все точки (m, b), такие что y = mx+b

Слайд 25
План лекции
Зачем нужны алгоритмы обнаружения текста?
Что такое цифровое изображение?
Представление цифровых изображений
Границы,

компоненты связности, бинаризация, преобразование Хафа
Печатные документы (document images)
Фотографии (natural scenes)
Графики, диаграммы, обложки

Слайд 26Основные задачи
Печатные документы
Анализ структуры страницы (layout analysis, geometric structure analysis, page

segmentation, region classification)

Fig. credit: Y.Y. Tang et al.

Слайд 27Основные задачи
Печатные документы
Анализ структуры страницы (layout analysis, geometric structure analysis, page

segmentation, region classification)

Fig. credit: Y.Y. Tang et al.

Методы
«Сверху-вниз» (top-down)
XY-cuts, whitespace segmentation
«Снизу-вверх» (bottom-up)
группировка ближайших соседей, диаграммы Вороного

Слайд 28Projection profiles and XY-cuts
Вертикальная проекция
Горизонтальная проекция
Fig. credit: Y.Y. Tang et al.

Слайд 29Результат алгоритма Docstrum
Методы «снизу-вверх»
Fig. credit: A. Namboodiri et al.

Слайд 30Использование диаграмм Вороного
Методы «снизу-вверх»
Fig. credit: A. Namboodiri et al.

Слайд 31Основные задачи
Печатные документы
Определение поворота текста (page rotation, skew detection)
Обнаружение текстовых строк

(text line finding, baseline finding)

Projection profiles (для исходного изображения или компонент связности)
Использование преобразования Хафа
Определение угла наклона тектовых строк

Слайд 32
План лекции
Зачем нужны алгоритмы обнаружения текста?
Что такое цифровое изображение?
Представление цифровых изображений
Границы,

Слайд 33Почему не работают традиционные методы?
Фотографии
Большое разнообразие шрифтов
Разнообразие расположений и направлений текстовых

строк
Короткие текстовые строки
Разнообразие условий съемки (освещение, фокусное расстояние)
Сложный фон
Нет определенной структуры страницы
Наложение объектов (occlusions)

Слайд 34Классификация подходов
Фотографии
Text detection and localization
Texture-based
Region-based
CC-based
Edge-based
K. Jung et al.

Слайд 35Методы, основанные на анализе текстуры
Фотографии
Построение пирамиды изображений

Извлечение текстурных признаков (Gabor, Wevelets, DCT)

Слайд 36Методы, основанные на анализе текстуры
Фотографии
Сложный фон
Вычислительно сложные (обработка нескольких масштабов, операции

свертки)
Произвольная направленность текста (негоризонтальный текст)
Произвольный размер шрифта

–

Слайд 37Region-based methods (bottom-up)
Фотографии
Выделение компонент связности на основе локальных признаков (близкий цвет

или принадлежность границе)
Объединение выделенных компонент связности в группы по признакам близкого расположения и схожих локальных признаков (размер, цвет)

Слайд 38Region-based methods
Фотографии
Произвольный размер шрифта
Произвольная направленность текста
Просты в реализации

Сложный фон
Шум и нерезкость

изображения
Используют большое количество эвристик

–

Слайд 39Stroke Width Transform (SWT)
B. Epshtein et al.
Исходное изображение
Результат SWT
После фильтрации
по признаку

постоянства ширины штриха

Найденный текст

Слайд 40Обнаружение текста при помощи SWT
B. Epshtein et al.

Слайд 41Вычисление SWT
Фрагмент штриха
p – пиксель на границе штриха, q – пиксель

на противоположной стороне штриха (градиенты в p и q направлены друг на друга)
Всем пикселям вдоль луча pq присваивается значение ширины штриха

B. Epshtein et al.

Слайд 42Обнаружение текста с помощью SWT
Границы для нерезких изображений, низкого разрешения –

☹
Погрешность SWT на стыках штрихов – ☹
Эвристики для фильтрации компонент – ☹
Двойной проход и интеграция результатов – ☹

Слайд 43
Комбинированные методы
Y.-F. Pan et al.

Слайд 44Шаг 1 – анализ текстуры
Комбинированные методы
Y.-F. Pan et al.

Слайд 45Шаг 2 – анализ компонент связности
Комбинированные методы
Y.-F. Pan et al.

Слайд 46Шаг 3 – выделение текстовых строк и слов
Комбинированные методы
Y.-F. Pan et

al.

построение минимального остовного дерева
решение оптимизационной задачи

Слайд 47Robust Reading Competitions
ICDAR (2003, 2005, 2009, 2011)
Распознавание символов
Распознавание слов
Локализация текста
Распознавание текста

Слайд 48
План лекции
Зачем нужны алгоритмы обнаружения текста?
Что такое цифровое изображение?
Представление цифровых изображений
Границы,

Слайд 49Графики и диаграммы
Анализ компонент связности по цвету

Слайд 50Экспериментальная оценка
LocationRecognitionRate = NLoc/NG
LocationPrecisionRate = NLoc/NF
TextPrecisionRate

= NTxt/NF

TextRecognitionRate = NTxt/NG

NLoc – the number of correctly localized text blocks

NTxt – the number of correctly recognized text blocks

NG – the total number of text blocks

NF – the total number of detected text blocks

Тестовое множество: 1000 диаграмм, сгенерированных SWF/XML tool

Слайд 51Screenshots
(+) Быстрая бинаризация
Время обработки изображения1600x1008
Tesseract OCR: ~6.56 секунд
Данный алгоритм: ~0.45 seconds
(–)

Требует фильтрации компонент
Naïve Bayes

Выделение границ и пороговая бинаризация
Удаление длинных горизонтальных и вертикальных границ
Выделение компонент связности
Классификация компонент связности и адаптивная бинаризация

Слайд 52Заключение
Зачем нужны алгоритмы обнаружения текста?
Распознавание текста: оцифровка, индексирование, извлечение информации, автоматический

перевод, text to speech, навигация
Печатные документы (document images)
Анализ структуры документа, определение поворота, выделение текстовых строк
Фотографии (natural scenes)
Texture-based & region-based
Stroke Width Transform, Hybrid approach
Графики, диаграммы, обложки

Скачать презентацию

Обнаружение текста на изображениях презентация

Содержание

Слайд 1Обнаружение текста на изображенияхНаталья Васильева nvassilieva@hp.com HP Labs Russia8 апреля 2012,

Слайд 2

Слайд 3Зачем?Необходимо для дальнейшего распознавания текста (OCR)Документы – page layout analysisФотографии, чертежи,

Слайд 4Компоненты системы извлечения текстаFig. credit: J. Gllavata+ Text Enhancement

Слайд 5ПриложенияОцифровка документовИндексирование и извлечение информации из графиков и чертежейИндексирование и поиск

Слайд 6

Слайд 7

Слайд 8

Слайд 9Обнаружение текста – газеты, журналы, книгиобнаружение текстовых областейопределение угла поворота текста

Слайд 10Обнаружение текста – произвольные изображения Исходное изображениеВозможные результаты работы алгоритмов обнаружения

Слайд 11Обнаружение текста – чертежи и графикиОбнаружение текстовых областейОпределение угла поворота текстовых

Слайд 12План лекцииЗачем нужны алгоритмы обнаружения текста?Что такое цифровое изображение?Представление цифровых изображенийГраницы,

Слайд 13Представление цифровых изображенийРастровое изображение

Слайд 14Представление цифровых изображенийRGB – распространенная модель цветаКаждый пиксель задается тремя значениями:

Слайд 15Обнаружение границ

Слайд 16Градиент изображенияГрадиент направлен в сторону наибольшего изменения интенсивностиНаправление градиента:Величина градиента:

Слайд 17Вычисление градиента изображенияRoberts:Prewitt:Sobel:Дискретный случай:

Слайд 18Выделение границ: примерыSobelCannyИсходное

Слайд 19Компоненты связности

Слайд 20Компоненты связности

Слайд 21Пороговая бинаризацияСветлый объект на темном фонеДва светлых объекта на темном фонеГлобальная

Слайд 22Бинаризация

Слайд 23Преобразование Хафа (Hough transform)xymbm0b0image spaceHough space Для данного набора точек (x,

Слайд 24Преобразование Хафа (Hough transform)xymbimage spaceHough spacex0y0 Для данного набора точек (x,

Слайд 25План лекцииЗачем нужны алгоритмы обнаружения текста?Что такое цифровое изображение?Представление цифровых изображенийГраницы,

Слайд 26Основные задачиПечатные документыАнализ структуры страницы (layout analysis, geometric structure analysis, page

Слайд 27Основные задачиПечатные документыАнализ структуры страницы (layout analysis, geometric structure analysis, page

Слайд 28Projection profiles and XY-cutsВертикальная проекцияГоризонтальная проекцияFig. credit: Y.Y. Tang et al.

Слайд 29Результат алгоритма DocstrumМетоды «снизу-вверх»Fig. credit: A. Namboodiri et al.

Слайд 30Использование диаграмм ВороногоМетоды «снизу-вверх»Fig. credit: A. Namboodiri et al.

Слайд 31Основные задачиПечатные документыОпределение поворота текста (page rotation, skew detection)Обнаружение текстовых строк

Слайд 32План лекцииЗачем нужны алгоритмы обнаружения текста?Что такое цифровое изображение?Представление цифровых изображенийГраницы,

Слайд 33Почему не работают традиционные методы?ФотографииБольшое разнообразие шрифтовРазнообразие расположений и направлений текстовых

Слайд 34Классификация подходовФотографииText detection and localizationTexture-basedRegion-basedCC-basedEdge-basedK. Jung et al.

Слайд 35Методы, основанные на анализе текстурыФотографииПостроение пирамиды изображенийИзвлечение текстурных признаков (Gabor, Wevelets, DCT)

Слайд 36Методы, основанные на анализе текстурыФотографииСложный фонВычислительно сложные (обработка нескольких масштабов, операции

Слайд 37Region-based methods (bottom-up)ФотографииВыделение компонент связности на основе локальных признаков (близкий цвет

Слайд 38Region-based methodsФотографииПроизвольный размер шрифтаПроизвольная направленность текстаПросты в реализацииСложный фонШум и нерезкость

Слайд 39Stroke Width Transform (SWT)B. Epshtein et al.Исходное изображениеРезультат SWTПосле фильтрациипо признаку

Слайд 40Обнаружение текста при помощи SWTB. Epshtein et al.

Слайд 41Вычисление SWTФрагмент штриха p – пиксель на границе штриха, q – пиксель

Слайд 42Обнаружение текста с помощью SWTГраницы для нерезких изображений, низкого разрешения –

Слайд 43Комбинированные методыY.-F. Pan et al.

Слайд 44Шаг 1 – анализ текстурыКомбинированные методыY.-F. Pan et al.

Слайд 45Шаг 2 – анализ компонент связностиКомбинированные методыY.-F. Pan et al.

Слайд 46Шаг 3 – выделение текстовых строк и словКомбинированные методыY.-F. Pan et

Слайд 47Robust Reading CompetitionsICDAR (2003, 2005, 2009, 2011)Распознавание символовРаспознавание словЛокализация текстаРаспознавание текста

Слайд 48План лекцииЗачем нужны алгоритмы обнаружения текста?Что такое цифровое изображение?Представление цифровых изображенийГраницы,

Слайд 49Графики и диаграммыАнализ компонент связности по цвету

Слайд 50Экспериментальная оценка LocationRecognitionRate = NLoc/NG LocationPrecisionRate = NLoc/NF TextPrecisionRate

Слайд 51Screenshots(+) Быстрая бинаризацияВремя обработки изображения1600x1008Tesseract OCR: ~6.56 секундДанный алгоритм: ~0.45 seconds(–)

Слайд 52ЗаключениеЗачем нужны алгоритмы обнаружения текста?Распознавание текста: оцифровка, индексирование, извлечение информации, автоматический

Похожие презентации

Обратная связь

Что такое ThePresentation.ru?