ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ презентация

Содержание

1. ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ
2. Структура и функции «нервной системы» Автономного Адаптивного управления (ААУ)
3. Соотношение методов ААУ и обучения с
4. Аппроксимация vs. Дискретизация Набор входных параметров: p1
5. Проблема дискретизации пространства признаков - При малом
6. Предлагаемое решение
7. Основные подзадачи Производить ли разделение очередного состояния
8. Свойства разработанного метода Итоговое разбиение пространства признаков
9. Экспериментальное исследование Экспериментальное исследование разработанного метода проводилось
10. Результаты экспериментального исследования Пример графика изменения качества
11. Спасибо за внимание! А. Е. Лебедев,

Главная
Разное
ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ

Слайд 1ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ

ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ

А. Е. Лебедев, А. А. Жданов

Институт точной механики и вычислительной техники имени С.А. Лебедева, Москва
Autonomous Adaptive Control Lab (AAC Lab)
http://www.ipmce.ru
http://www.aac-lab.com

Слайд 2Структура и функции «нервной системы» Автономного Адаптивного управления (ААУ)

Слайд 3Соотношение методов ААУ и обучения с подкреплением
Образы - условия

Эмоциональная оценка

результата действия

ААУ

Reinforcement
Learning

Состояния

Подкрепление
(вознаграждение)

Слайд 4Аппроксимация vs. Дискретизация
Набор входных параметров: p1 … pn
Множество состояний {si}
Набор доступных

действий a1 …. ak
Оценка ожидаемого подкрепления Q(si, ai)

Аппроксимация
Est(p1 … pn, ai): {(p1 … pn)} x ai → R

Дискретизация
{(p1 … pn)} -> {si},
Est(s,a): {si} x {ai} → R

Слайд 5Проблема дискретизации пространства признаков
- При малом числе состояний низкая точность, при

большом – долгое обучение.
- Кроме того, при любом фиксированном числе градаций для каждого из параметров число состояний растет экспоненциально при линейном росте числа параметров. («комбинаторный взрыв»)

параметр2

параметр1

Мало состояний

Много состояний

параметр N

Слайд 6Предлагаемое решение
последовательная сегментация пространства признаков

в процессе обучения систем

В результате образуется дерево вложенных состояний

обучение

Слайд 7Основные подзадачи
Производить ли разделение очередного состояния на более мелкие и когда?
Dev(Est(sold,

ab0) >= min( Dev( Est(snew1, ab1) , Dev( Est(snew2, ab2) )
Sold – исходное состояние, snew1, snew2 – дочерние состояния
ab0, ab1, ab2 – лучшие действия для соответсвующих состояний

Если да, то какой вариант разбиения выбрать? (как определить направление и пропорции?)
max( Est(snew1, ab1) , Est(snew2, ab2) ) → max

Слайд 8Свойства разработанного метода
Итоговое разбиение пространства признаков на состояния неравномерно и отвечает

специфике конкретной задачи.
Определенное улучшение качества работы возможно в самом начале обучения без накопления большой статистики
Накопление статистики для различных состояний происходит независимо (отсутствует «катастрофическое забывание»)
Получившийся в результате обучения закон управления может быть представлен в виде дерева решений и проанализирован человеком

Слайд 9Экспериментальное исследование
Экспериментальное исследование разработанного метода проводилось на компьютерной и на физической

модели наноспутника с адаптивной системой управления

Слайд 10Результаты экспериментального исследования
Пример графика изменения качества управления при обучении с фиксированным

набором состояний…

И с использованием алгоритма динамической сегментации состояний

Слайд 11Спасибо за внимание! А. Е. Лебедев, А. А. Жданов ИТМиВТ им. С.А. Лебедева,

Москва AAC Lab http://www.ipmce.ru http://www.aac-lab.com aazhdanov@ipmce.ru

Скачать презентацию

ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ презентация

Содержание

Слайд 1ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ

Слайд 2Структура и функции «нервной системы» Автономного Адаптивного управления (ААУ)

Слайд 3Соотношение методов ААУ и обучения с подкреплением
Образы - условия

Эмоциональная оценка

Слайд 4Аппроксимация vs. Дискретизация
Набор входных параметров: p1 … pn
Множество состояний {si}
Набор доступных

Слайд 5Проблема дискретизации пространства признаков
- При малом числе состояний низкая точность, при

Слайд 6Предлагаемое решение
последовательная сегментация пространства признаков

Слайд 7Основные подзадачи
Производить ли разделение очередного состояния на более мелкие и когда?
Dev(Est(sold,

Слайд 8Свойства разработанного метода
Итоговое разбиение пространства признаков на состояния неравномерно и отвечает

Слайд 9Экспериментальное исследование
Экспериментальное исследование разработанного метода проводилось на компьютерной и на физической

Слайд 10Результаты экспериментального исследования
Пример графика изменения качества управления при обучении с фиксированным

Слайд 11Спасибо за внимание! А. Е. Лебедев, А. А. Жданов ИТМиВТ им. С.А. Лебедева,

Обратная связь

Что такое ThePresentation.ru?

ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ презентация

Содержание

Слайд 1ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ

Слайд 2Структура и функции «нервной системы» Автономного Адаптивного управления (ААУ)

Слайд 3Соотношение методов ААУ и обучения с подкреплениемОбразы - условия Эмоциональная оценка

Слайд 4Аппроксимация vs. ДискретизацияНабор входных параметров: p1 … pn Множество состояний {si}Набор доступных

Слайд 5Проблема дискретизации пространства признаков- При малом числе состояний низкая точность, при

Слайд 6Предлагаемое решение последовательная сегментация пространства признаков

Слайд 7Основные подзадачиПроизводить ли разделение очередного состояния на более мелкие и когда?Dev(Est(sold,

Слайд 8Свойства разработанного методаИтоговое разбиение пространства признаков на состояния неравномерно и отвечает

Слайд 9Экспериментальное исследованиеЭкспериментальное исследование разработанного метода проводилось на компьютерной и на физической

Слайд 10Результаты экспериментального исследованияПример графика изменения качества управления при обучении с фиксированным

Слайд 11Спасибо за внимание! А. Е. Лебедев, А. А. Жданов ИТМиВТ им. С.А. Лебедева,

Похожие презентации

Обратная связь

Что такое ThePresentation.ru?

Слайд 3Соотношение методов ААУ и обучения с подкреплением
Образы - условия

Эмоциональная оценка

Слайд 4Аппроксимация vs. Дискретизация
Набор входных параметров: p1 … pn
Множество состояний {si}
Набор доступных

Слайд 5Проблема дискретизации пространства признаков
- При малом числе состояний низкая точность, при

Слайд 6Предлагаемое решение
последовательная сегментация пространства признаков

Слайд 7Основные подзадачи
Производить ли разделение очередного состояния на более мелкие и когда?
Dev(Est(sold,

Слайд 8Свойства разработанного метода
Итоговое разбиение пространства признаков на состояния неравномерно и отвечает

Слайд 9Экспериментальное исследование
Экспериментальное исследование разработанного метода проводилось на компьютерной и на физической

Слайд 10Результаты экспериментального исследования
Пример графика изменения качества управления при обучении с фиксированным