История подходов к распознаванию презентация

Содержание

Глобальные дескрипторы сцены The “gist” of a scene: Oliva & Torralba (2001) * суть http://people.csail.mit.edu/torralba/code/spatialenvelope/

Слайд 1История подходов к распознаванию
1960-е – ранние 1990-е: геометрическая эра
1990-е: модели, основанные

на внешнем виде
Середина 1990-х: скользящее окно
Поздние 1990-е: локальные признаки
Ранние 2000-е: модели частей и формы
Середина 2000-х: мешки признаков
Наше время: комбинация локальных и глобальных методов, методы, управляемые данными, контекст

Svetlana Lazebnik


Слайд 2Глобальные дескрипторы сцены
The “gist” of a scene: Oliva & Torralba (2001)
*

суть

http://people.csail.mit.edu/torralba/code/spatialenvelope/


Слайд 3Методы, управляемые данными
J. Hays and A. Efros, Scene Completion using Millions

of Photographs, SIGGRAPH 2007

Слайд 4Методы, управляемые данными
J. Tighe and S. Lazebnik, ECCV 2010


Слайд 5D. Hoiem, A. Efros, and M. Herbert. Putting Objects in Perspective.

CVPR 2006.

Геометрический контекст


Слайд 6Что важно в распознавании?
Методы машинного обучения
Например, выбор классификатора
Представление
Низкий уровень: SIFT, HoG,

gist, контуры
Средний уровень: Bag of words, скользящее окно, деформируемая модель
Верхний уровень: Контекстная зависимость
Данные
Больше – лучше
Самое трудоемкое – разметка

Слайд 7What Matters in Scene Recognition?
Learning Techniques
?
Representation
?
Data
?


Слайд 8Базовый процесс распознавания объектов
Выбор модели объекта
Генерация гипотез
Оценка гипотез
Принятие решения




Слайд 9Базовый процесс распознавания объектов
Пример: Распознавание на основе особых точек


A1
A2
A3

Выбор модели объекта
Генерация

гипотез

Оценка гипотез

Принятие решения





Слайд 10Вспоминаем как сопоставить точки
K. Grauman, B. Leibe



1. Find a set of

distinctive key- points

3. Extract and normalize the region content

2. Define a region around each keypoint

4. Compute a local descriptor from the normalized region

5. Match local descriptors


Слайд 11Базовый процесс распознавания объектов
Пример: Распознавание на основе особых точек


A1
A2
A3
Аффинное преобразование
Выбрать гипотезу

с самой большой оценкой выше порога

# Inliers




Affine-variant point locations


Выбор модели объекта

Генерация гипотез

Оценка гипотез

Принятие решения





Слайд 12Поиск объектов (обзор)
Сопоставить особые точки между входным изображением и базовым
Сопоставленные точки

голосуют за грубое положение/ориентацию/масштаб объекта
Найти тройки положение/ориентацию/масштаб с хотя бы тремя голосами
Вычислить аффинное преобразование с использованием итеративных наименьших квадратов с проверкой вылетов
Сообщить об объекте, если есть хотя бы T сопоставленные точки

Слайд 13Сопоставление особых точек

Хотим сопоставить точки между:
Входным кадром (запросом)
Сохраненным изображением с объектом

Дан

дескриптор x0, найти два ближайших соседа x1, x2 с расстояниями d1, d2

x1 соответствует x0 если d1/d2 < 0.8
Это убирает 90% ложных сопоставлений и 5% истинных (Lowe)

Слайд 14Affine Object Model
Accounts for 3D rotation of a surface under orthographic

projection








Слайд 15Affine Object Model
Accounts for 3D rotation of a surface under orthographic

projection


Scaling/skew

Translation

What is the minimum number of matched points that we need?


Слайд 16Применение
Sony Aibo (Evolution Robotics)

SIFT
Распознавание док-станции
Общение с визуальными карточками

Другое применение
Распознавание места
Замыкание кругов в SLAM
K. Grauman, B. Leibe
Slide

credit: David Lowe

Слайд 17Location Recognition

Slide credit: David Lowe
Training
[Lowe04]


Слайд 18Многоракурсное сопоставление
vs

?
Matching two given views for depth
Search for a matching

view for recognition

Kristen Grauman


Слайд 19Как быстро найти изображения в большой базе, которые соответствуют данному кадру?


Слайд 20Video Google System
Собрать все слова в пределах области запроса
Инвертированный файловый индекс

для поиска соответствующих кадров
Сравнение счетчика слов
Пространственная проверка
Sivic & Zisserman, ICCV 2003
Demo online at : http://www.robots.ox.ac.uk/~vgg/research/vgoogle/index.html

Область запроса


Найденные кадры

Kristen Grauman


Слайд 21B. Leibe
Пример применения
Мобильный гид
Самолокализация
Распознавание объектов/зданий
Дополнение фото/видео
[Quack, Leibe, Van

Gool, CIVR’08]

Слайд 22Применение: Крупномасштабный поиск
[Philbin CVPR’07]
Запрос
Результаты по 5000 изображениям Flickr (есть демо для

100 000)

Слайд 23Web Demo: Movie Poster Recognition
50’000 movie posters indexed
Query-by-image from mobile phone available in Switzer- land


Слайд 24Применение: Автоматическая аннотация изображений

K. Grauman, B. Leibe
Слева: Wikipedia Справа: ближайшее из

Flickr

[Quack CIVR’08]

Moulin Rouge

Tour Montparnasse

Colosseum

Viktualienmarkt Maypole

Old Town Square (Prague)


Слайд 26Простая идея
Сколько ключевых точек близки к ключевым точкам в каждом кадре

из базы данных

Много похожих

Мало или нет совсем

Но это очень, ОЧЕНЬ МЕДЛЕННО!


Слайд 27Индексация локальных признаков
Каждый патч/регион имеет дескриптор, являющийся точкой в некотором многомерном

пространстве (например, SIFT)














Пространство точек дескриптора











Kristen Grauman


Слайд 28Индексация локальных признаков

Если точки близки в пространстве признаков, то это –

похожие дескрипторы, что означает похожее содержание кадра


















Пространство признаков











Изображения базы данных


Входной кадр








Easily can have millions of features to search!

Kristen Grauman


Слайд 29Индексация локальных признаков: обратный индекс
Для текстов есть эффективный способ найти все

страницы на которых встречается слово – использовать индекс…
Мы хотим найти все изображения на которых встречается признак.
Нам нужно превратить наши признаки в “визуальные слова”.

Kristen Grauman


Слайд 30Визуальные слова

Отображение многомерных дескрипторов в токены/слова путем квантования пространства признаков



















Пространство признаков

дескриптора

Квантование путем кластеризации – пусть центры кластеров будут прототипами “слов”

Определим, какое слово сопоставить новой области кадра, находя центр ближайшего кластера

Слово #2

Kristen Grauman


Слайд 31Визуальные слова
Пример: каждая группа патчей принадлежит одному визуальному слову
Figure from Sivic

& Zisserman, ICCV 2003




Kristen Grauman


Слайд 32Создание словаря
Вопросы:
Размер словаря, число слов
Стратегия выборки: где извлекать признаки?
Алгоритм кластеризации/квантизации


Kristen Grauman


Слайд 33Обратный индекс
По изображениям базы построим индекс, сопоставляющий слова с номерами кадров
Kristen

Grauman

Слайд 34Новое изображение сопоставляется с индексами изображений с общими словами
Инвертированный индекс
Kristen Grauman


Слайд 35Распознавание мест: оставшиеся вопросы
Как сделать выводы по всему изображению? И оценить общее

сходство?
Насколько большим должен быть словарь? Как осуществить квантизацию эффективно?
Достаточно ли иметь один набор визуальных слов, чтобы идентифицировать сцену/объект? Как проверить пространственную схожесть?
Как оценить результаты запроса?

Kristen Grauman


Слайд 36Аналогия с документами

Of all the sensory impressions proceeding to the brain,

the visual experiences are the dominant ones. Our perception of the world around us is based essentially on the messages that reach the brain from our eyes. For a long time it was thought that the retinal image was transmitted point by point to visual centers in the brain; the cerebral cortex was a movie screen, so to speak, upon which the image in the eye was projected. Through the discoveries of Hubel and Wiesel we now know that behind the origin of the visual perception in the brain there is a considerably more complicated course of events. By following the visual impulses along their path to the various cell layers of the optical cortex, Hubel and Wiesel have been able to demonstrate that the message about the image falling on the retina undergoes a step-wise analysis in a system of nerve cells stored in columns. In this system each cell has its specific function and is responsible for a specific detail in the pattern of the retinal image.

ICCV 2005 short course, L. Fei-Fei


Слайд 38Мешки визуальных слов
Описать всё изображение распределением (гистограммой) встречающихся слов
Аналогично «мешку слов»,

часто используемому для документов

Слайд 39Сравнение мешков слов
Упорядочить кадры по нормализованному скалярному произведению между их гистограммами

(возможно взвешенными) – метод ближайших соседей

[5 1 1 0]

[1 8 1 4]

 

 

для словаря из V слов

Kristen Grauman


Слайд 40Обратный индекс

Найти слова в запросе
Обратный индекс для поиска соответствующих кадров
Сравнить счетчики

слов

Kristen Grauman


Слайд 41Распознавание мест: оставшиеся вопросы
Как сделать выводы по всему изображению? И оценить общее

сходство?
Насколько большим должен быть словарь? Как осуществить квантизацию эффективно?
Достаточно ли иметь один набор визуальных слов, чтобы идентифицировать сцену/объект? Как проверить пространственную схожесть?
Как оценить результаты запроса?

Kristen Grauman


Слайд 42Распознавание по К-дереву



Following slides by David Nister (CVPR 2006)


Слайд 66Slide
110,000,000 кадров за 5.8 с
Slide Credit: Nister


Слайд 67
Slide
Slide Credit: Nister


Слайд 68Slide
Slide Credit: Nister


Слайд 69Slide Credit: Nister
Slide


Слайд 70Словарные деревья: сложность
Число слов определяется параметрами дерева:
коэффициент ветвления и количество

уровней



Слайд 71Размер словаря
Результаты по 6347 кадрам
Nister & Stewenius, CVPR 2006
Influence on performance,

sparsity

К-т ветвления

Kristen Grauman


Слайд 72

Производительность


Слайд 73
Больший коэффициент ветвления работает лучше (но медленней)


Слайд 74Стратегии выборки
K. Grauman, B. Leibe
Image credits: F-F. Li, E. Nowak, J.

Sivic

Плотно, равномерно

Разреженно, в особых точках

Случайно

Множественные операторы

Для поиска конкретных текстурированных объектов надежнее работают разреженные выборки.
Много дополняющих друг друга детекторов дают лучшее покрытие изображения.
Для категоризации объектов лучшее покрытие даёт плотная выборка.

[See Nowak, Jurie & Triggs, ECCV 2006]


Слайд 75Распознавание мест: оставшиеся вопросы
Как сделать выводы по всему изображению? И оценить общее

сходство?
Насколько большим должен быть словарь? Как осуществить квантизацию эффективно?
Достаточно ли иметь только набор визуальных слов, чтобы идентифицировать сцену/объект? Как проверить пространственную схожесть?
Как оценить результаты запроса?

Kristen Grauman


Слайд 76Как повысить точность?
Итак, мы научились представлять изображение как “мешок слов”, без

пространственной информации


a

f

e

e



h

h



Какое сопоставление лучше?


Слайд 77Как повысить точность?
Итак, мы научились представлять изображение как “мешок слов”, без

пространственной информации

Настоящие объекты имеют консистентную геометрию


Слайд 78Пространственная верификация
Обе пары кадров имеют много общих визуальных слов
Slide credit: Ondrej

Chum

Запрос

Запрос

Кадр с высокой BoW - похожестью

Кадр с высокой BoW - похожестью


Слайд 79Лишь некоторые сопоставления взаимосогласованными
Slide credit: Ondrej Chum
Пространственная верификация
Запрос
Запрос
Кадр с высокой BoW

- похожестью

Кадр с высокой BoW - похожестью


Слайд 80Распознавание мест: оставшиеся вопросы
Как сделать выводы по всему изображению? И оценить общее

сходство?
Насколько большим должен быть словарь? Как осуществить квантизацию эффективно?
Достаточно ли иметь один набор визуальных слов, чтобы идентифицировать сцену/объект? Как проверить пространственную схожесть?
Как оценить результаты запроса?

Kristen Grauman


Слайд 81




Оценка качества запроса














0
0.2
0.4
0.6
0.8
1
0
0.2
0.4
0.6
0.8
1

recall
precision











Запрос
Размер базы: 10 кадров
Соответствуют (всего): 5 кадров
Results (ordered):
precision =

#relevant / #returned
recall = #relevant / #total relevant

Slide credit: Ondrej Chum


Слайд 82Что ещё можно позаимствовать у текстов?


Слайд 83tf-idf взвешивание
Term frequency – inverse document frequency
Описать кадр частотой каждого слова,

снижая веса слов, которые часто встречаются в базе данных
(Стандартное взвешивание при поиске слов)


Число документов в базе данных

Число документов, в которых встречается слово i

Количество слова i в документе d

Число слов в документе d

Kristen Grauman


Слайд 84Расширение запроса
Запрос: golf green

Результаты:

- How can the grass on the greens

at a golf course be so perfect?
For example, a skilled golfer expects to reach the green on a par-four hole in ... - Manufactures and sells synthetic golf putting greens and mats.


Нерелевантные результаты могут привести к `смещению темы’:

Volkswagen Golf, 1999, Green, 2000cc, petrol, manual, , hatchback, 94000miles, 2.0 GTi, 2 Registered Keepers, HPI Checked, Air-Conditioning, Front and Rear Parking Sensors, ABS, Alarm, Alloy

Slide credit: Ondrej Chum


Слайд 85Расширение запроса
Запрос
Результаты
Новые запросы
Пространственная верификация
Новые результаты

Chum, Philbin, Sivic, Isard, Zisserman: Total Recall…,

ICCV 2007

Slide credit: Ondrej Chum


Слайд 86Что запомнить
Распознавание экземпляров объектов
Найти особые точки, вычислить дескрипторы
Сопоставить дескрипторы
Голосовать за аффинные

параметры
Вернуть объект, если # inliers > T

Ключи к эффективности
Визуальные слова
Много разных применений
Обратный индекс
Для поиска масштаба Интернета


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика