МОДЕЛИ И КОНЦЕПЦИИ ЭВОЛЮЦИОННОЙ КИБЕРНЕТИКИ презентация

Содержание

1. МОДЕЛИ И КОНЦЕПЦИИ ЭВОЛЮЦИОННОЙ КИБЕРНЕТИКИ
2. План Кибернетический подход к эволюции
3. Кибернетический подход к эволюции В.Ф. Турчина В.Ф. Турчин ввел термин «Эволюционная кибернетика»
4. Феномен науки В.Ф. Турчин. Феномен науки: Кибернетический
5. Теория метасистемных переходов В.Ф.Турчина Схема метасистемного перехода.
6. Теория метасистемных переходов В.Ф.Турчина Метасистемный переход:
7. Теория метасистемных переходов В.Ф.Турчина В.Ф. Турчин характеризует
8. ЗАДАЧА ИССЛЕДОВАНИЯ КОГНИТИВНОЙ ЭВОЛЮЦИИ
9. Гносеологическая проблема Почему логический
10. Надо разобраться, как наша логика возникла в процессе когнитивной эволюции
11. Можем ли мы исследовать эволюционные корни нашей
12. Методология исследований Использовать «метод последовательных приближений».
13. НАПРАВЛЕНИЕ ИССЛЕДОВАНИЙ «АДАПТИВНОЕ ПОВЕДЕНИЕ»
14. Адаптивное Поведение From Animal to Animat
15. Адаптивное Поведение International Society for Adaptive
16. Исследователи адаптивного поведения AnimatLab (Paris) (Париж,
17. Исследователи адаптивного поведения Лаборатория искусственного интеллекта в
18. Исследователи адаптивного поведения Институт нейронаук Дж. Эдельмана
19. NOMAD
20. Исследователи адаптивного поведения В.А. Непомнящих. Моделирование поискового
21. ОТ МОДЕЛЕЙ ПОВЕДЕНИЯ К ИСКУССТВЕННОМУ ИНТЕЛЛЕКТУ (коллективная
22. Наши модели Модель эволюционного формирования целенаправленного
23. МОДЕЛЬ ЭВОЛЮЦИИ ПОПУЛЯЦИИ АДАПТИВНЫХ АГЕНТОВ (О.П. Мосалов, Д.В. Прохоров, В.Г. Редько, 2005)
24. Обучение с подкреплением Цель анимата – максимизировать
25. Обучение с подкреплением (Richard Sutton, Andrew Barto)
26. Robot Weightlifting Modeled as a three-link pendulum
27. Проект "Мозг Анимата". Архитектура системы управления
28. Функциональная система по П.К. Анохину
29. Архитектура системы управления анимата ФС1, ФС2, …
30. Схема адаптивного критика (V-критика) S(t) - ситуация
31. Описание модели: Обучение + эволюция
32. Агенты-брокеры Рассматриваются агенты-брокеры. Капитал агента C(t) состоит
33. Система управления агента (обучение) Система управления
34. Алгоритм работы V-критика 1. Модель делает прогноз
35. Нейронные сети V-критика Нейронная сеть Критика Нейронная сеть Модели
36. Обучение V-критика Обучение проводится путем подстройки весов
37. Алгоритм работы V-критика Блок Критик xC =
38. Эволюция популяции агентов Эволюционирующая популяция состоит из
39. Результаты моделирования
40. Схема моделирования Рассматривается два вида временного ряда:
41. Что эффективней: обучение или эволюция? L -
42. Обучение в наших экспериментах несовершенно Политика агента
43. Тем не менее, обучение помогает эволюции находить
44. Особенности предсказания Модели Форма предсказанной кривой правильная.
45. Практика не есть критерий истины Предсказываемые
46. Обучение в нашем моделировании эволюционно неустойчиво. Почему?
47. Эволюционным путем находится поведение, подобное поведению простых
48. Поведение ручейников (эксперименты В.А. Непомнящих)
49. Следующая версия «Мозга анимата» Есть первичный и
50. Задача моделирования когнитивной эволюции Исследовать происхождение логики, мышления, интеллекта
51. Контуры плана будущих исследований Разработка схем и
52. Литература Непомнящих В.А. Поиск общих принципов
53. Вопросы для обсуждения Проблема происхождения интеллекта человека

План Кибернетический подход к эволюции В.Ф. Турчина Задача моделирования когнитивной эволюции Направление исследований «Адаптивное поведение» Модель эволюции популяции адаптивных агентов Проект

Главная
Государство
МОДЕЛИ И КОНЦЕПЦИИ ЭВОЛЮЦИОННОЙ КИБЕРНЕТИКИ

Слайд 1 Институт оптико-нейронных технологий РАН
www.iont.ru

Ассоциация нейроинформатики
www.ni.iont.ru

Редько Владимир Георгиевич
vgredko@gmail.com
МОДЕЛИ И КОНЦЕПЦИИ

ЭВОЛЮЦИОННОЙ КИБЕРНЕТИКИ

Слайд 2План

Кибернетический подход к эволюции В.Ф. Турчина
Задача моделирования когнитивной эволюции

Направление исследований «Адаптивное поведение»
Модель эволюции популяции адаптивных агентов
Проект программы будущих исследований (в порядке обсуждения)

Данная презентация: www.ni.iont.ru/r.zip

Слайд 3Кибернетический подход к эволюции В.Ф. Турчина В.Ф. Турчин ввел термин «Эволюционная кибернетика»

Слайд 4Феномен науки
В.Ф. Турчин. Феномен науки: Кибернетический подход к эволюции – М.:

Наука, 1993 (1-е изд.). М.: ЭТС, 2000 (2-е изд.).

Слайд 5Теория метасистемных переходов В.Ф.Турчина
Схема метасистемного перехода. Si - системы нижнего уровня,

C - управление объединенными подсистемами, S' - система нового уровня иерархии

Слайд 6Теория метасистемных переходов В.Ф.Турчина
Метасистемный переход: объединение ряда подсистем Si нижнего

уровня и появление дополнительного механизма управления C объединенными подсистемами.
В результате метасистемного перехода формируется система S' нового уровня (S' = C + S1 + S2 +…+ Sn), которая может быть включена как подсистема в следующий метасистемный переход.
Перед метасистемным переходом -- количественное накопление "потенциала развития" в подсистемах Si
После метасистемного перехода -- размножения и развития подсистем предпоследнего уровня иерархии.
Метасистемный переход -- кибернетический аналог физического фазового перехода.

Слайд 7Теория метасистемных переходов В.Ф.Турчина
В.Ф. Турчин характеризует биологическую эволюцию следующими метасистемными переходами:
-

управление положением = движение
- управление движением = раздражимость (простой рефлекс)
- управление раздражимостью = (сложный) рефлекс
- управление рефлексами = ассоциации (условный рефлекс)
- управление ассоциациями = человеческое мышление
- управление человеческим мышлением = культура

Слайд 8ЗАДАЧА ИССЛЕДОВАНИЯ КОГНИТИВНОЙ ЭВОЛЮЦИИ

Слайд 9Гносеологическая проблема

Почему логический вывод, сделанный человеком, применим к реальному объекту

в природе?

Слайд 10Надо разобраться, как наша логика возникла в процессе когнитивной эволюции

Слайд 11Можем ли мы исследовать эволюционные корни нашей логики?
Математик при доказательстве теорем

использует правило modus ponens: «если имеет место А, и из А следует В, то имеет место В», или
{А, A --> B} => B

После выработки условного рефлекса у собаки И.П. Павлова в памяти формируется связь «за УС должен последовать БС» (УС – условный стимул, БС – безусловный стимул), или
УС --> БС.
Когда собаке предъявляют УС, то она делает «логический вывод»:

{УС, УС --> БС} => БС

Слайд 12Методология исследований

Использовать «метод последовательных приближений».

Первое приближение -- исследовать принципы работы «интеллектуальных

изобретений» эволюции, на функциональном уровне, не акцентируя особое внимание на биологической элементной базе (молекулы, нейроны,…).

Должен быть набор моделей «интеллекта» разного эволюционного уровня.

Использовать задел направления «Адаптивное поведение»

Слайд 13НАПРАВЛЕНИЕ ИССЛЕДОВАНИЙ «АДАПТИВНОЕ ПОВЕДЕНИЕ»

Слайд 14Адаптивное Поведение From Animal to Animat – модели адаптивного поведения животного

и робота

Первая конференция: Париж, 1990 г. (Ж.-А. Мейер, С. Вильсон)
Основной подход – конструирование и исследование искусственных (в виде компьютерной программы или робота) "организмов" (аниматов, агентов), способных приспосабливаться к внешней среде.
ANIMAL + ROBOT = ANIMAT
Программа-минимум – исследовать архитектуры и принципы функционирования, которые позволяют животным или роботам жить и действовать в переменной внешней среде
Программа-максимум – попытаться проанализировать эволюцию когнитивных способностей животных и эволюционное происхождение интеллекта человека
Предшественники: М.Л. Цетлин, М.М. Бонгард, Д.А. Поспелов Гаазе-Рапопорт М.Г., Поспелов Д.А. От амебы до робота: модели поведения. М.: Наука, 1987, УРСС, 2004.

Слайд 15Адаптивное Поведение
International Society for Adaptive Behavior http://www.isab.org/
Журнал Adaptive Behavior
Конференции
SIMULATION

OF ADAPTIVE BEHAVIOR (SAB'06)
25-30 September 2006, Roma, Italy

Слайд 16Исследователи адаптивного поведения
AnimatLab (Paris)
(Париж, руководитель – один из инициаторов анимат-подхода

Ж.-А. Мейер)
Широкий спектр исследований адаптивных роботов и адаптивного поведения животных.
Подход AnimatLab предполагает, что система управления анимата может формироваться и модифицироваться посредством
1) обучения,
2) индивидуального развития (онтогенеза) и
3) эволюции.
http://animatlab.lip6.fr/index.en.html

Слайд 17Исследователи адаптивного поведения
Лаборатория искусственного интеллекта в университете Цюриха (руководитель Рольф Пфейфер)

Основной подход – познание природы интеллекта путем его создания ("understanding by building").
Подход включает в себя
1) построение моделей биологических систем,
2) исследование общих принципов естественного интеллекта животных и человека,
3) использование этих принципов при конструировании роботов и других искусственных интеллектуальных систем.
Pfeifer R., Scheier C., Understanding Intelligence. MIT Press, 1999.
http://www.ifi.unizh.ch/groups/ailab/

Слайд 18Исследователи адаптивного поведения
Институт нейронаук Дж. Эдельмана (Калифорния)

http://www.nsi.edu/

Разработки поколений моделей работы

мозга (Darwin I, Darwin II, …)

Исследования поведения искусственного организма NOMAD (Neurally Organized Mobile Adaptive Device), построенного на базе этих моделей

http://vesicle.nsi.edu/nomad/

Слайд 19NOMAD

Слайд 20Исследователи адаптивного поведения
В.А. Непомнящих. Моделирование поискового поведения животных на основе анимат-подхода
А.А.

Жданов. Схемы и модели автономного адаптивного управления на базе аппарата эмоций. Накопление знаний - одна главных компонент адаптивного управления
А.И. Самарин. Самообучающиеся роботы (с 1970-х годов)
Л.А. Станкевич. Первые в России антропоморфные роботы. Нейрологические архитектуры систем управления гуманоидных роботов на базе когнитивных агентов
В.Г. Редько, М.С. Бурцев, О.П. Мосалов. Модели адаптивного поведения на базе эволюционных и нейросетевых подходов

Слайд 21ОТ МОДЕЛЕЙ ПОВЕДЕНИЯ К ИСКУССТВЕННОМУ ИНТЕЛЛЕКТУ
(коллективная монография, под редакцией В.Г. Редько,

УРСС, 2006)
Часть I. Ретроспектива
П.К. Анохин. Принципиальные вопросы общей теории функциональных систем
М.М. Бонгард и сотр. Проект модели организации поведения - «Животное»
М.Н. Вайцвайг, М.Н. Полякова. Об одном подходе к проблеме создания искусственного интеллекта
А.И. Самарин. Мобильные роботы и самоорганизация в нейронных структурах - ретроспективный взгляд

Часть II. Современные исследования
В.Г. Редько. From Animal to Animat - направление исследований адаптивное поведение
В.А. Непомнящих. Модели автономного поискового поведения
В.Ю. Рощин, А.А. Фролов. Нейросетевая модель выработки пространственной координации на основе сенсомоторного опыта
Д. В. Прохоров. Адаптивные критики и нейронные сети
М.Н. Вайцвайг, М.Н. Полякова. О моделировании мышления
С.В. Корниенко, О.А. Корниенко. Искусственная самоорганизация и коллективный искусственный интеллект: на пути от индивидуума к социуму
А.А. Жданов. Бионический метод автономного адаптивного управления
Л.А. Станкевич. Когнитивный подход к управлению гуманоидными роботами

Слайд 22Наши модели
Модель эволюционного формирования целенаправленного адаптивного поведения («Кузнечик») (М.С.

Бурцев, Р.В. Гусарев, В.Г.Редько, 2000)
Модель эволюционного возникновения иерархии целей (развитие модели «Кузнечик»). (М.С. Бурцев, 2002)
Проект "Мозг Анимата". Разработка архитектур систем управления целенаправленным адаптивным поведением на базе теории функциональных систем П.К. Анохина и проекта «Животное» М.М. Бонгарда (В.Г. Редько, Д.В. Прохоров, К.В. Анохин, М.С. Бурцев, 2004)
Модель эволюции автономных адаптивных агентов (О.П. Мосалов, Д.В. Прохоров, В.Г. Редько, 2005)
Модель возникновения кооперации в популяциях адаптивных агентов (М.С. Бурцев, П.В. Турчин, 2005)

Слайд 23МОДЕЛЬ ЭВОЛЮЦИИ ПОПУЛЯЦИИ АДАПТИВНЫХ АГЕНТОВ
(О.П. Мосалов, Д.В. Прохоров, В.Г. Редько, 2005)

Слайд 24Обучение с подкреплением
Цель анимата – максимизировать суммарную награду
Σk r(t+k) ,

получаемую за длительный период времени.
В процессе обучения анимат формирует политику (policy). Политика определяет выбор (детерминированный или вероятностный) действия в зависимости от ситуации.
Обучение с подкреплением может рассматриваться как развитие автоматной теории адаптации (М.Л. Цетлин и др.)

t = 1,2,…
S(t) – текущая ситуация,
a(t) – действие анимата,
r(t) – подкрепление
(положительное или отрицательное)

Слайд 25Обучение с подкреплением (Richard Sutton, Andrew Barto)
Цель анимата – максимизировать суммарную награду

Σ r(t), получаемую за длительный период времени.
Оценка награды:
U(t) = Σk γk r(t+k) , γ – дисконтный фактор, фактор забывания,
0 < γ < 1, k = 0,1,…

Теоретическая основа обучения с подкреплением (Reinforcement Learning):
➢ Динамическое программирование
➢ Марковские процессы

Обучение с подкреплением – самообучение, без учителя, на основе только наград и наказаний

Слайд 26Robot Weightlifting
Modeled as a three-link pendulum with
Joint constraints
Contact constraints
Torque constraints
start configuration
goal

configuration

Michael Rosenstein, Univ of Mass

Слайд 27Проект "Мозг Анимата".
Архитектура системы управления аниматом на базе теории ФС

П.К. Анохина

(В.Г. Редько, Д.В. Прохоров, К.В. Анохин, М.С. Бурцев, 2004)

Слайд 28Функциональная система по П.К. Анохину

Слайд 29Архитектура системы управления анимата
ФС1, ФС2, … соответствуют ведущим потребностям: питание, размножение,

безопасность, накопление знаний
ФС - на основе нейросетевых адаптивных критиков

Слайд 30Схема адаптивного критика (V-критика)
S(t) - ситуация
Spri(t+1) - прогноз
ai(t) - i-е действие
V(S)

- оценка качества ситуации S
Критик и Модель - многослойные нейронные сети, Критик показан для двух последователь-ных тактов времени

Роль Модели -- прогноз будущих ситуаций
Роль Критика -- оценка качества ситуаций

Слайд 31Описание модели:
Обучение + эволюция

Слайд 32Агенты-брокеры
Рассматриваются агенты-брокеры. Капитал агента C(t) состоит из денег и акций. Доля

капитала в акциях есть u(t). Динамика капитала описывается уравнением:

С(t+1) = С(t) [1 + u(t+1) ΔX(t+1) / X(t)], (1)

где ΔX(t+1) = X(t+1) – X(t), X(t) – временной ряд курса акций, t = 1,2,…

R(t) = log C(t).

Текущее подкрепление агента r(t) есть: r(t) = R(t+1) – R(t),

r(t) = log [1 + u(t+1) ΔX(t+1) / X(t)] (2)

Предполагается, что величина u(t) принимает только два значения: u(t) = 0 (весь капитал в деньгах) или u(t) = 1 (весь капитал в акциях)

Слайд 33Система управления агента (обучение)
Система управления – адаптивный критик, состоящий из

двух нейросетей: Модель и Критик.

Модель предсказывает изменения временного ряда, Критик оценивает качество ситуаций V(S).
Ситуация S(t) = {ΔX(t), u(t)}

Действия выбираются с помощью ε-жадного правила. Действия есть:
u(t+1) = 0 – перевести весь капитал в деньги
u(t+1) = 1 – перевести весь капитал в акции

V (S(t)) - оценка ожидаемого суммарного подкрепления U(t) = Σ γk r(t+k) для ситуации S(t), k = 0,1,…

Слайд 34Алгоритм работы V-критика
1. Модель делает прогноз Spri(t+1)
2. Критик оценивает V

(S(t)), V (Spri(t+1))
3. Применяется ε - жадное правило и выбирается действие ak:
k = arg maxi{ V(Spri(t+1))} с вероятностью 1- ε ,
k выбирается произвольно с вероятностью ε.
4. Действие ak выполняется

5. Оценивается подкрепление r(t). Происходит переход к следующему такту времени t+1. Критик оценивает V (S(t+1)).
6. Оценивается ошибка временной разности
δ(t) = r(t) + γV (S(t+1)) - V (S(t)) .
7. Обучаются Модель и Критик
V (S(t)) есть оценка ожидаемого суммарного подкрепления U(t) = Σ γk r(t+k), (k = 0,1,…) для ситуации S(t), V (S(t)) – качество ситуации S(t)

Слайд 35Нейронные сети V-критика

Нейронная сеть Критика
Нейронная сеть Модели

Слайд 36Обучение V-критика
Обучение проводится путем подстройки весов синапсов Модели и Критика градиентным

методом

Обучение Модели (уточнение прогноза):

ΔWM = αM gradWM(Sprk(t+τ))T(S(t+τ)-Sprk(t+τ)).

Обучение Критика (уточнение оценок качества ситуации):

ΔWC = αC δ(t) gradWС(V (t)) ,

WM , и WC - набор весов нейронных сетей Модели и Критика, αM , αC - параметры скоростей обучения.

Слайд 37Алгоритм работы V-критика
Блок Критик
xC = S(t) = {ΔX(t), u(t)}, yCj =

th (Σ i WCij xCi), V(t) = Σ jVCj yCj .
V(t) = V(S(t)) – оценка качества ситуации S(t) .
δ(t) = r(t) + γ V(t) - V(t-1)
ΔVCi(t+1) = αC δ(t) yCj , ΔWCij(t+1) = αC δ(t) VCj (1 – (yCj)2) xCi .

Блок Модель
xM = {ΔX(t-m+1),…, ΔX(t)}, yMj = th (Σ i WMij xMi), ΔXpr(t+1) = Σ j VMj yMj .
ΔXpr(t+1) – прогноз изменения цены акций
ΔVMi(t+1) = - αM (ΔXpr(t+1) – ΔX(t+1)) yMj ,
ΔWMij(t+1) = - αM (ΔXpr(t+1) – ΔX(t+1)) VMj (1 – (yMj)2) xi .

Слайд 38Эволюция популяции агентов
Эволюционирующая популяция состоит из n агентов.

Каждый агент имеет

ресурс R(t), который меняется в соответствии с получаемыми наградами r(t): R(t+1) = R(t) + r(t),

r(t) = log [1 + u(t+1) ΔX(t+1) / X(t)]. (2)

Длительность каждого поколения ng равна T тактов времени. Начальный ресурс рождающего агента равен нулю, R(T(ng-1)+1) = 0.

Начальные веса синапсов нейронных сетей агента составляют его геном G. Текущие веса W изменяются в процессе обучения.

Для вновь рождающегося агента W = G.

В конце каждого поколения находится агент, который имеет максимальный ресурс Rmax (ng). Этот наилучший агент дает n потомков, которые составляют следующее поколение. Геном потомка G отличается от генома родителя малыми мутациями.

Слайд 39Результаты моделирования

Слайд 40Схема моделирования
Рассматривается два вида временного ряда:
1) синусоида : X(t) = 0.5[1

+ sin(2πt/20)] +1 ,
2) стохастический ряд:
X(t) = exp[p(t)/1200], p(t) = p(t-1) + β(t-1) + k λ(t), β(t) = αβ(t-1) + μ(t),
где λ(t) и μ(t) - случайные нормальные процессы N(0,1), α = 0.9, k = 0.3.
Параметры моделирования: число входов нейронной сети Модели m = 10, число нейронов в скрытом слое Модели и Критика NhM = NhC = 10, скорость обучения Модели и Критика αM = αC = 0.01, дисконтный фактор γ = 0.9. Длительность поколения T, численность популяции n, интенсивность мутаций Pmut, параметр ε в ε -жадном правиле варьировались.
Анализировались следующие случаи:
L - только обучение
E - только эволюция
LE - обучение совместно с эволюцией

Слайд 41Что эффективней: обучение или эволюция?
L - обучение
E - эволюция
LE

– обучение совместно с эволюцией
Результаты усреднены по 1000 расчетам. Pmut = 0.1, ε = 0.05, n = 10, T = 200.
ε = 0 после ng =100 (случай LE) и ng =2000 (случай L).

Величина ресурса лучшего агента Rmax, получаемая после 200 временных шагов для синусоиды. ng - номер поколения

В случаях E и LE агенты находят оптимальную политику: покупать/продавать при росте/падении курса

Слайд 42Обучение в наших экспериментах несовершенно
Политика агента u(t) (синяя линия). Случай L.

Расчет для синусоиды X(t) (красная линия) Pmut = 0.1, ε = 0.05, n = 10, T = 200.
Агент явно предпочитает держать капитал в акциях. Политика неплохая, но не оптимальная.

Слайд 43Тем не менее, обучение помогает эволюции находить хорошую политику быстрее
Ресурс лучшего

агента в популяции Rmax, случай LE, синусоида. n = 10, T = 1000, ε = 0.05, Pmut = 0.1 .

В первых поколениях неплохая политика находится путем обучения. В последних поколениях агент имеет хорошую политику с рождения. Эффект Балдвина: приобретаемые навыки становятся наследуемыми.

Слайд 44Особенности предсказания Модели
Форма предсказанной кривой правильная. Однако, предсказанные величины ΔXpr(t+1) отличаются

множителем 25 от действительных ΔX(t+1).

Предсказанные ΔXpr(t+1) (синяя линия) и действительные значения ΔX (t+1) (красная линия). Случай E. Стохастический ряд; n = 10, T = 200, Pmut = 0.1, ε = 0.05.

Слайд 45Практика не есть критерий истины
Предсказываемые значения могут отличаться от действительных

не только величиной, но и знаком. Эти неправильные предсказания используются агентом в оптимальной политике. Практика не есть критерий истины.

Предсказанные ΔXpr(t+1) (синяя линия) и действительные значения ΔX (t+1) (красная линия). Случай LE. Стохастический ряд; n = 10, T = 200, Pmut = 0.1, ε = 0.05.

Слайд 46Обучение в нашем моделировании эволюционно неустойчиво. Почему?
Задача, которую «решает» эволюция

(выбор действия), значительно проще, чем та задача, которую решает обучение (прогноз ситуации S, оценка качества прогнозируемых ситуаций для альтернативных действий, итеративное формирования оценок качества ситуаций V(S) и выбор действия на основе этих оценок), поэтому эволюция «задавливает» сложный механизм обучения.
Обучение в наших адаптивных критиках эволюционно нестабильно.
Эволюция модифицирует нейронные сети Модели и Критика таким образом, чтобы сделать систему управления эволюционно устойчивой.

Слайд 47Эволюционным путем находится поведение, подобное поведению простых животных
(есть инерционность и

игнорирование мелочей)

X(t) - курс акций (красная линия),
u(t) – доля капитала в акциях (синяя линия)

Слайд 48Поведение ручейников
(эксперименты В.А. Непомнящих)

Ручейники строят домик. У ручейников есть две тактики

поведения: 1) собрать частицы и прикреплять их к домику и 2) искать скопление крупных частиц. Переход от одной тактики к другой характеризуется инерционностью и игнорированием мелочей

Слайд 49Следующая версия «Мозга анимата»
Есть первичный и вторичный репертуар действий. Первичный –

формируется в процессе эволюции популяции аниматов, вторичный – в процессе обучения.

Каждая ФС состоит из двух нейронных сетей: Контроллер и Модель. Контроллер предназначен для формирования действий (часть действий – передача управления другим ФС), Модель – для прогноза результатов действий.

Достоинство версии – согласованность эволюционного и индивидуального режимов адаптации. Одна из важных задач моделирования – проверить эффективность одновременного формирования цепочек действий, определяемых Контроллерами, и прогнозов результатов действия, определяемых Моделями.

Слайд 50Задача моделирования когнитивной эволюции Исследовать происхождение логики, мышления, интеллекта

Слайд 51Контуры плана будущих исследований
Разработка схем и моделей адаптивного поведения на базе

проекта «Мозг Анимата»
Исследование перехода от физического уровня обработки информации в нервной системе животных к уровню обобщенных образов, уровню понятий (аналогов слов)
Исследование процессов формирования причинной связи в памяти животных. Например, связи между условным стимулом (УС) и следующим за ним безусловным стимулом (БС). Анализ роли прогнозов в адаптивном поведении
Исследование процессов формирования логических выводов в «сознании» животных. {УС, УС --> БС} => БС – аналог modus ponens
Исследование коммуникаций, процессов возникновения языка

Слайд 52Литература
Непомнящих В.А. Поиск общих принципов адаптивного поведения живых организмов и

аниматов // Новости искусственного интеллекта. 2002. N. 2. С. 48-53.

Редько В.Г. Эволюция, нейронные сети, интеллект. Модели и концепции эволюционной кибернетики. М.: УРСС, 2005.

«От моделей поведения к искусственному интеллекту»
(коллективная монография, под редакцией В.Г. Редько), УРСС, 2006.

Mikhail Burtsev and Peter Turchin. Evolution of cooperative strategies from first principles // Nature, 2006. V. 440, No 7087 (April 20). PP.1041-1044.

Слайд 53Вопросы для обсуждения
Проблема происхождения интеллекта человека -– одна наиболее глубоких проблем

современной науки. Попробуйте назвать более глубокую проблему
Исследования причин происхождения естественного интеллекта могут стать научной базой для искусственного интеллекта
Эти исследования могут поставить эпистемологию на твердую естественнонаучную почву
Здесь возможно повышение престижа науки. Как произошел интеллект -- это интересно и ученому, и просто любознательному человеку
Так почему же здесь почти никто толком не работает?

Скачать презентацию

МОДЕЛИ И КОНЦЕПЦИИ ЭВОЛЮЦИОННОЙ КИБЕРНЕТИКИ презентация

Содержание

Слайд 1 Институт оптико-нейронных технологий РАНwww.iont.ruАссоциация нейроинформатикиwww.ni.iont.ruРедько Владимир Георгиевич vgredko@gmail.com МОДЕЛИ И КОНЦЕПЦИИ

Слайд 2План Кибернетический подход к эволюции В.Ф. Турчина Задача моделирования когнитивной эволюции

Слайд 3Кибернетический подход к эволюции В.Ф. Турчина В.Ф. Турчин ввел термин «Эволюционная кибернетика»

Слайд 4Феномен наукиВ.Ф. Турчин. Феномен науки: Кибернетический подход к эволюции – М.:

Слайд 5Теория метасистемных переходов В.Ф.ТурчинаСхема метасистемного перехода. Si - системы нижнего уровня,

Слайд 6Теория метасистемных переходов В.Ф.Турчина Метасистемный переход: объединение ряда подсистем Si нижнего

Слайд 7Теория метасистемных переходов В.Ф.ТурчинаВ.Ф. Турчин характеризует биологическую эволюцию следующими метасистемными переходами:-

Слайд 8ЗАДАЧА ИССЛЕДОВАНИЯ КОГНИТИВНОЙ ЭВОЛЮЦИИ

Слайд 9Гносеологическая проблема Почему логический вывод, сделанный человеком, применим к реальному объекту

Слайд 10Надо разобраться, как наша логика возникла в процессе когнитивной эволюции

Слайд 11Можем ли мы исследовать эволюционные корни нашей логики?Математик при доказательстве теорем

Слайд 12Методология исследованийИспользовать «метод последовательных приближений».Первое приближение -- исследовать принципы работы «интеллектуальных

Слайд 13НАПРАВЛЕНИЕ ИССЛЕДОВАНИЙ «АДАПТИВНОЕ ПОВЕДЕНИЕ»

Слайд 14Адаптивное Поведение From Animal to Animat – модели адаптивного поведения животного

Слайд 15Адаптивное Поведение International Society for Adaptive Behavior http://www.isab.org/Журнал Adaptive Behavior Конференции SIMULATION

Слайд 16Исследователи адаптивного поведенияAnimatLab (Paris) (Париж, руководитель – один из инициаторов анимат-подхода

Слайд 17Исследователи адаптивного поведенияЛаборатория искусственного интеллекта в университете Цюриха (руководитель Рольф Пфейфер)

Слайд 18Исследователи адаптивного поведенияИнститут нейронаук Дж. Эдельмана (Калифорния) http://www.nsi.edu/Разработки поколений моделей работы

Слайд 19NOMAD

Слайд 20Исследователи адаптивного поведенияВ.А. Непомнящих. Моделирование поискового поведения животных на основе анимат-подходаА.А.

Слайд 21ОТ МОДЕЛЕЙ ПОВЕДЕНИЯ К ИСКУССТВЕННОМУ ИНТЕЛЛЕКТУ(коллективная монография, под редакцией В.Г. Редько,

Слайд 22Наши модели Модель эволюционного формирования целенаправленного адаптивного поведения («Кузнечик») (М.С.

Слайд 23МОДЕЛЬ ЭВОЛЮЦИИ ПОПУЛЯЦИИ АДАПТИВНЫХ АГЕНТОВ(О.П. Мосалов, Д.В. Прохоров, В.Г. Редько, 2005)

Слайд 24Обучение с подкреплениемЦель анимата – максимизировать суммарную награду Σk r(t+k) ,

Слайд 25Обучение с подкреплением (Richard Sutton, Andrew Barto)Цель анимата – максимизировать суммарную награду

Слайд 26Robot WeightliftingModeled as a three-link pendulum withJoint constraintsContact constraintsTorque constraintsstart configurationgoal

Слайд 27Проект "Мозг Анимата". Архитектура системы управления аниматом на базе теории ФС

Слайд 28Функциональная система по П.К. Анохину

Слайд 29Архитектура системы управления аниматаФС1, ФС2, … соответствуют ведущим потребностям: питание, размножение,

Слайд 30Схема адаптивного критика (V-критика)S(t) - ситуацияSpri(t+1) - прогнозai(t) - i-е действиеV(S)

Слайд 31Описание модели:Обучение + эволюция

Слайд 32Агенты-брокерыРассматриваются агенты-брокеры. Капитал агента C(t) состоит из денег и акций. Доля

Слайд 33Система управления агента (обучение) Система управления – адаптивный критик, состоящий из

Слайд 34Алгоритм работы V-критика1. Модель делает прогноз Spri(t+1) 2. Критик оценивает V

Слайд 35Нейронные сети V-критикаНейронная сеть КритикаНейронная сеть Модели

Слайд 36Обучение V-критикаОбучение проводится путем подстройки весов синапсов Модели и Критика градиентным

Слайд 37Алгоритм работы V-критикаБлок КритикxC = S(t) = {ΔX(t), u(t)}, yCj =

Слайд 38Эволюция популяции агентовЭволюционирующая популяция состоит из n агентов. Каждый агент имеет