ВСТРОЕННЫЕ ИНФОРМАЦИОННО-УПРАВЛЯЮЩИЕ СИСТЕМЫ РЕАЛЬНОГО ВРЕМЕНИЛекция 2: Архитектура процессоров для ВИУСРВ презентация

Содержание

1. ВСТРОЕННЫЕ ИНФОРМАЦИОННО-УПРАВЛЯЮЩИЕ СИСТЕМЫ РЕАЛЬНОГО ВРЕМЕНИЛекция 2: Архитектура процессоров для ВИУСРВ
2. План Интегрированная модульная авионика Процессор ARM Процессор обработки сигналов (NM 6403) Задача WCET
3. ЦВМ ЦВМ
4. 5-е поколение боевых комплексов Интегрированная
5. 5+ поколение боевых комплексов Интегрированная
6. Требования к процессорам во встроенных системах Предсказуемость Энергопотребление Тепловыделение Надёжность
7. ARM Powered Products
8. ARM Парадигма программирования Набор инструкций Архитектура системы
9. Размер типов данных и набор иструкций ARM
10. Режимы работы процессора Семь основных режимов
11. Набор регистров в ARM
12. Организация регистров User mode r0-r7, r15, and
13. Типы регистров В ARM есть 37 регистров
14. Регистры состояния программы Флаги условных переходов
15. Если процессор находится в режиме ARM: Все
16. Vector Table Обработка исключений Алгоритм обработки
17. Разработка ARM архитектуры SA-110 ARM7TDMI 4T
18. Процессор ARM Парадигма программирования Набор инструкций Архитектура системы
19. ARM инструкции могут выполнятся условно путем проставления
20. Возможные условные коды приведены ниже: Условные коды
21. Примеры условного выполнения Использование последовательности условных
22. Branch : B{} label Branch со связью: BL{} subroutine_label
23. Инструкции обработки данных
24. Barrel Shifter Destination CF 0
25. Использование Barrel Shifter: Второй операнд
26. Умножение Синтаксис: MUL{}{S} Rd, Rm, Rs Rd
27. Помещение данных в
28. Доступ по адресу
29. 0x5 0x5 r1 0x200 Base Register
30. LDM / STM Синтаксис: {} Rb{!},
31. Программное прерывание (SWI)
32. PSR инструкции MRS
33. ARM ветви B PC
34. Пример While (i!=j)
35. Процессор ARM Парадигма программирования Набор инструкций Архитектура системы
36. Пример ARM-based системы 16
37. AMBA Bridge Timer On-chip RAM
38. Процессоры DSP Особенности DSP процессоров Процессор NM6403
39. Особенности DSP процессоров Аппаратная поддержка программных циклов,
40. Особенности DSP процессоров (2) Сложение и умножение
41. Антоненко В.А. Волканов Д.Ю Процессор NM6403 50
42. RISC-ядро 5-ти ступенчатый 32-разрядный конвейер; 32-
43. VECTOR-сопроцессор Переменная 1-64-разрядная длина векторных операндов и
44. Производительность Скалярные операции: 5 0 MIPS;
45. Особенности NM64003 (1) Возможность работы с входными
46. Особенности NM64003 (2) Наличие двух широких шин
47. Антоненко В.А. Волканов Д.Ю Системы на NM
48. Схема нейровычислителя
49. WCET Постановка задачи Статический метод Измерительный метод Гибридный метод Метод Bound Checking
50. WCET – задача оценки наихудшего времени выполнения
51. WCET
52. Анализ программы без выполнения на реальном оборудовании
53. Пример организации: Статический метод
54. CFG – граф: вершины - линейные участки программы ребра – возможные переходы CFG
55. … // 1 if (a>5) { sleep(5); //
56. Цель: Вычисление количества итераций циклов Выявление границ рекурсий Определение недостижимых блоков Анализ потоков управления
57. if (a>10) { if (a
58. Вычисление времени выполнения линейных участков При этом
59. for ( i=0 ; i
60. Производится проход по графу и вычисление оценки
61. Перебираются листья синтаксического дерева Выделяются группы листьев
62. Structure-based
63. Перебираются все возможные пути программы Для каждого
64. Path-based
65. Всем ребрам и вершинам сопоставляется коэффициент -
66. IPET
67. Программа выполняется на реальном оборудовании Производится серия
68. Преимущества: Не требуется описание модели вычислителя Недостатки:
69. Соединяет в себе измерительный и статический методы
70. Преимущества: Сокращается количество выполнений на реальном оборудовании
71. Bounded model checking Технология верификации программ на
72. Bounded model checking Типичная схема анализа: Программа Преобразователь КНФ Решатель Результат
73. Bounded model checking Построение КНФ:
74. Bounded model checking Циклы: Ограничение количества итераций мажорантой Разворачивание циклов
75. Bounded model checking for ( int i
76. Bounded model checking Проверка свойств: void
77. Bounded model checking Проверка выполнимости КНФ –
78. Bounded model checking Ограничение на длину вычислений:
79. Использование BMC для оценки WCET Известно время
80. Использование BMC для оценки WCET Исходная программа
81. Использование BMC для оценки WCET void f(int
82. Использование BMC для оценки WCET Система выполнима
83. Использование BMC для оценки WCET После нескольких
84. Литература Материалы сайта www.arm.com “32-разрядные высокопроизводительные RISС-процессоры
85. Спасибо за внимание!

Главная
Разное
ВСТРОЕННЫЕ ИНФОРМАЦИОННО-УПРАВЛЯЮЩИЕ СИСТЕМЫ РЕАЛЬНОГО ВРЕМЕНИЛекция 2: Архитектура процессоров для ВИУСРВ

Слайд 1ВСТРОЕННЫЕ ИНФОРМАЦИОННО-УПРАВЛЯЮЩИЕ СИСТЕМЫ РЕАЛЬНОГО ВРЕМЕНИ Лекция 2: Архитектура процессоров для ВИУСРВ
ВМиК МГУ

им. М.В. Ломоносова, Кафедра АСВК,
Лаборатория Вычислительных Комплексов,
Ассистент Волканов Д.Ю.

Слайд 2План
Интегрированная модульная авионика
Процессор ARM
Процессор обработки сигналов (NM 6403)
Задача WCET

Слайд 3

ЦВМ

ЦВМ

ЦВМ

4-е поколение боевых комплексов
Федеративная структура КБО

БЦВМ
БЦВМ
Система индикации

РЭК
ЦВМ
УЦВМ

Система навигации

СУО
УЦВМ

ОЭК
ЦВМ
МКИО, ARINC 429,
Низкоскоростные

каналы информационного обмена (МКИО, ARINC 429) Большое количество разнотипных специализированных вычислителей
Невозможность комплексной обработки информации
Применение однопроцессорных вычислительных систем

Комплекс средств связи

УЦВМ

ЦВМ

ОД

ОС

УЦВМ

ЦВМ

Слайд 4

5-е поколение боевых комплексов
Интегрированная структура КБО
МКИО, ARINC 429,
Fibre Channel

ИУС

БЦВМ

ИУП
Коммутатор

БЦВМ

ЦВМ

РЭК

Система навигации

СУО

ОЭК
ЦВМ

Комплекс

средств связи

УЦВМ

ЦВМ

ОД

ОС

УЦВМ

ЦВМ

коммутатор

ЦВМ

Использование высокоскоростных каналов информационного обмена наряду с МКИО
Сокращение количества отдельных вычислителей
Комплексная обработка информации
Перенос третичной и вторичной (частично) обработки информации в «ядро»
Применение многопроцессорных вычислительных систем

Слайд 5

5+ поколение боевых комплексов
Интегрированная модульная авионика боевых комплексов

ИУС

БЦВМ

ИУП

БЦВМ

Вычисл .модули
Вычисл. модули

РЭК

СН

СУО

ОЭК

КСС
Fibre Channel
Использование

высокоскоростных каналов информационного обмена в качестве базового инструмента межмодульной и межблочной связи.
Использование однородной вычислительной среды и унифицированных модулей в различных системах КБО
Комплексная обработка информации и гибкая реконфигурация при отказах
Использование многоядерных процессоров

Вычисл. модули

Единый вычислительный кластер

Слайд 6Требования к процессорам во встроенных системах
Предсказуемость
Энергопотребление
Тепловыделение
Надёжность

Слайд 7ARM Powered Products

Слайд 8ARM
Парадигма программирования
Набор инструкций
Архитектура системы

Слайд 9Размер типов данных и набор иструкций
ARM имеет 32-битную архитектуру.

Обычно в ARM

используется следующие ключевые слова:
Byte - 8 bits
Halfword - 16 bits (два байта)
Word - 32 bits (четыре байта)

Большинство ARM процессоров реализует два набора инструкций
32-bit ARM Instruction Set
16-bit Thumb Instruction Set

Слайд 10Режимы работы процессора
Семь основных режимов функционирования ARM:
User : непривилегированный режим,

под которым выполняется большинство задач

FIQ : включается, когда приходит high priority (fast) прерывание

IRQ : включается, когда приходит low priority (normal) прерывание

Supervisor : включается при перегрузке и когда выполняется Software Interrupt instruction

Abort : позволяется ловить нарушения режима доступа к памяти

Undef : позволяет ловить нераспознанные инструкции

System : привилегированный режим использующий те же регистры, что и User режим

Слайд 11Набор регистров в ARM

Слайд 12Организация регистров
User mode r0-r7, r15, and cpsr

r8
r9
r10
r11
r12
r13 (sp)
r14 (lr)
spsr
FIQ
User
r13 (sp)
r14 (lr)
spsr
IRQ

User mode r0-r12, r15, and cpsr
r13 (sp)
r14 (lr)
spsr
Undef

User mode r0-r12, r15, and cpsr
r13 (sp)
r14 (lr)
spsr
SVC

User mode r0-r12, r15, and cpsr
r13 (sp)
r14

(lr)

spsr

Abort

User mode r0-r12, r15, and cpsr

Thumb состояние
Low registers

Thumb состояние
High registers

Note: System mode использует те же регистры, что и User mode

Слайд 13Типы регистров
В ARM есть 37 регистров размером 32-bits.
1 специальный регистр: program

counter
1 специальный регистр: current program status
5 специальных регистров для хранения program status
30 регистров общего назначения

В любом режиме работы процессора имеется доступ к следующим регистрам:
r0-r12 РОН
r13 (the stack pointer, sp) иr14 (the link register, lr)
program counter, r15 (pc)
current program status register, cpsr

Привилегированный (except System) режим может обращаться к spsr (saved program status register)

Слайд 14Регистры состояния программы
Флаги условных переходов
N = Negative вычисляется АЛУ
Z

= Zero вычисляется АЛУ
C = АЛУ операция Carried out
V = АЛУ операция oVerflowed

Sticky Overflow флаг - Q flag
Только для 5TE/J архитертур
Определяет насыщение

J bit
Только для 5TEJ архитектур
J = 1: процессор в состоянии Jazelle

Биты отключения прерываний.
I = 1: отключает IRQ.
F = 1: отключает FIQ.

T Bit
Только для xT аржитетур
T = 0: процессор в состоянии ARM
T = 1: процессор в состоянии Thumb

Mode bits
Указывают режим работы процессора

Слайд 15Если процессор находится в режиме ARM:
Все инструкции размером 32 бита
Все инструкции

должны быть выровнены по слову (word aligned)

Если процессор находится в режиме Thumb:
Все инструкции размером 16 бит
Все инструкции должны быть выровнены по полуслову (halfword aligned)

Если процессор находится в режиме Jazelle:
Все инструкции размером 8 бит
Процессор позволяется читать по 4 инструкции сразу

Program Counter (r15)

Слайд 16Vector Table
Обработка исключений
Алгоритм обработки исключений:
Копируется CPSR в SPSR_
Заполняются CPSR биты
Состояние

изменяется на ARM
Включается exception mode
Игнорируются прерывания (if appropriate)
Stores the return address in LR_
Sets PC to vector address
Для возврата к нормальной работе:
Восстанавливается CPSR из SPSR_
Восстанавливается PC из LR_
Все это может проделываться только в состоянии ARM.

Vector table может находится по адресу 0xFFFF0000 на ARM720T и ARM9/10 семействе устройств

FIQ

IRQ

(Reserved)

Data Abort

Prefetch Abort

Software Interrupt

Undefined Instruction

Reset

Слайд 17Разработка ARM архитектуры
SA-110
ARM7TDMI

4T

1
Поддержка Halfword иsigned halfword / байтов
System mode
Thumb instruction set
2
4
ARM9TDMI
SA-1110
ARM720T
ARM940T
Improved ARM/Thumb

Interworking
CLZ

5TE

Saturated maths
DSP multiply-accumulate instructions

XScale

ARM1020E

ARM9E-S

ARM966E-S

Ранние ARM архитектуры

ARM9EJ-S

5TEJ

ARM7EJ-S

ARM926EJ-S

Jazelle
выполнение Java bytecode

ARM1136EJ-S

ARM1026EJ-S

SIMD Instructions
Multi-processing
V6 Memory architecture (VMSA)
Unaligned data support

Слайд 18Процессор ARM
Парадигма программирования
Набор инструкций
Архитектура системы

Слайд 19ARM инструкции могут выполнятся условно путем проставления постфикса с кодом условия.

CMP

r3,#0 CMP r3,#0 BEQ skip ADDNE r0,r1,r2 ADD r0,r1,r2 skip

По умолчанию, инструкции обработки данных не влияют на условные флаги, но данные флаги могут быть опционально установлены используя “S”. CMP не нуждается в“S”.

loop … SUBS r1,r1,#1 BNE loop

если Z флаг нулевой, то осуществляем переход

декрементируем r1 и устанавливаем флаги

Условные переходы и флаги

Слайд 20
Возможные условные коды приведены ниже:

Условные коды

Слайд 21Примеры условного выполнения
Использование последовательности условных инструкций
if (a==0) func(1);
CMP

r0,#0 MOVEQ r0,#1 BLEQ func
Установка флагов, после использование различных условных кодов
if (a==0) x=0; if (a>0) x=1;
CMP r0,#0 MOVEQ r1,#0 MOVGT r1,#1
Использование условных инструкций сравнения
if (a==4 || a==10) x=0;
CMP r0,#4 CMPNE r0,#10 MOVEQ r1,#0

Слайд 22Branch : B{} label
Branch со связью: BL{} subroutine_label

28
31
24
0
Cond 1

0 1 L Offset

Condition field

Link bit 0 = Branch
1 = Branch with link

Инструкции ветвления

$Branch : B{} labelBranch со связью: BL{} subroutine_label2831240 Cond 1 0 1 L$

Слайд 23

Инструкции обработки данных
Состоят из:
Арифметических: ADD ADC SUB SBC RSB RSC
Логических: AND ORR EOR BIC
Сравнений: CMP CMN TST TEQ
Перемещения данных: MOV MVN

Данные инструкции работают только с

регистрами, НЕ с памятью.
Синтаксис:

{}{S} Rd, Rn, Operand2

Сравнения только устанавливают флаги
Перемещение данных не специфицирует Rn

Второй операнд отправляется на АЛУ через barrel shifter.

Слайд 24

Barrel Shifter
Destination
CF
0
Destination
CF
LSL : Logical Left Shift
ASR: Arithmetic Right Shift
Умножение на 2
Деление

на 2, сохраняя бит флага

Destination

...0

Destination

LSR : Logical Shift Right

ROR: Rotate Right

Деление на 2

Циклическое смещение бита от LSB к MSB

Destination

RRX: Rotate Right Extended

Циклическое смещение через CF к MSB

Слайд 25

Использование Barrel Shifter: Второй операнд

Слайд 26Умножение
Синтаксис:
MUL{}{S} Rd, Rm, Rs Rd = Rm * Rs
MLA{}{S} Rd,Rm,Rs,Rn Rd =

(Rm * Rs) + Rn
[U|S]MULL{}{S} RdLo, RdHi, Rm, Rs RdHi,RdLo := Rm*Rs
[U|S]MLAL{}{S} RdLo, RdHi, Rm, Rs RdHi,RdLo := (Rm*Rs)+RdHi,RdLo

Время в циклах
Основная MUL инструкция
2-5 циклов на ARM7TDMI
1-3 циклов на StrongARM/XScale
2 цикла на ARM9E/ARM102xE
+1 цикл для ARM9TDMI (over ARM7TDMI)
+1 цикл для “long”

Слайд 27

Помещение данных в регистр
LDR STR Word
LDRB STRB Byte
LDRH STRH Halfword
LDRSB Signed byte load
LDRSH Signed

halfword load

Память должна поддерживать все допустимые размеры

Синтаксис:
LDR{}{} Rd,

STR{}{} Rd,

e.g. LDREQB

Слайд 28

Доступ по адресу
Адрес доступные по LDR/STR определяется как значение регистра плюс

смещение
Для слова и беззнакового байта доступа, смещение может быть
0 - 4095 bytes LDR r0,[r1,#8]
Для полуслова и знакового полуслова, смещение может быть :
0-255 bytes.
регистр

Слайд 290x5
0x5

r1
0x200
Base Register

0x200

r0
0x5
Source Register for STR

Offset
12
0x20c

r1
0x200
Original Base Register

0x200

r0
0x5
Source Register for STR

Offset
12
0x20c

r1
0x20c
Updated Base Register
Автообновление из: STR r0,[r1,#12]!
Префиксный или постфиксный адрес?
Префиксный:

STR r0,[r1,#12]

Постфискный: STR r0,[r1],#12

Слайд 30LDM / STM
Синтаксис:
{} Rb{!},
4 режима адресования:
LDMIA / STMIA инкрементить

после
LDMIB / STMIB инкрементить до
LDMDA / STMDA декриментить после
LDMDB / STMDB декриментить до

Увеличение
адресов

r10

LDMxx r10, {r0,r1,r4}
STMxx r10, {r0,r1,r4}

Base Register (Rb)

Слайд 31

Программное прерывание (SWI)
Возбуждает обработчик прерываний в соответствии с SWI hardware vector

SWI handler может определить SWI number чтобы решить какую операцию надо выполнить
Используя SWI механизм, ОС может реализовать набор привилегированных операций
Синтаксис:
SWI{}

Cond 1 1 1 1

SWI number (ignored by processor)

Условное поле

Слайд 32

PSR инструкции
MRS и MSR позволяет переместить содержимое CPSR / SPSR в

или из регистра общего назначения
Синтаксис:
MRS{} Rd, ; Rd =
MSR{} ,Rm ; = Rm
где
= CPSR or SPSR
[_fields] = any combination of ‘fsxc’
Так же возможно
MSR{} ,#Immediate

Слайд 33

ARM ветви
B
PC relative. ±32 Mbyte range.
BL
Хранит и возвращает адрес

в LR

STMFD sp!,{regs,lr}
:
BL func2
:
LDMFD sp!,{regs,pc}

func1

func2

:
:
BL func1
:
:

:
:
:
:
:
MOV pc, lr

Слайд 34

Пример
While (i!=j)
(i > j) ? i-=j : j-=i;

loop CMP Ri, Rj;
SUBGT

Ri, Ri, Rj ; i = i - j
SUBLT Rj, Rj , Ri ; j = j – I
BNE loop ; if “NE” (not equal),then loop

Слайд 35Процессор ARM
Парадигма программирования
Набор инструкций
Архитектура системы

Слайд 36Пример ARM-based системы

16 bit RAM
8 bit ROM
32 bit RAM
I/O
Peripherals
Interrupt
Controller
nFIQ
nIRQ

Слайд 37AMBA

Bridge
Timer
On-chip
RAM
ARM
Interrupt
Controller
Remap/
Pause
TIC
Arbiter
Bus Interface
External
ROM
External
RAM
Reset
System Bus
Peripheral Bus
AMBA
Advanced Microcontroller Bus Architecture
ADK
Complete AMBA Design Kit

ACT
AMBA Compliance

Testbench

PrimeCell
ARM’s AMBA compliant peripherals

AHB or ASB

APB

External
Bus
Interface

Decoder

Слайд 38Процессоры DSP
Особенности DSP процессоров
Процессор NM6403

Слайд 39Особенности DSP процессоров
Аппаратная поддержка программных циклов, кольцевых буферов
Один или несколько операндов

извлекаются из памяти в цикле исполнения команды
Нет команд R,R->R
Реализация однотактного умножения и команд, использующих в качестве операндов содержимое ячеек памяти

Слайд 40Особенности DSP процессоров (2)
Сложение и умножение требуют:
произвести выборку двух операндов
выполнить

сложение или умножение (обычно и то и другое)
сохранить результат или удерживать его до повторения
Множественный доступ к памяти за один и тот же командный цикл.

Слайд 41Антоненко В.А. Волканов Д.Ю
Процессор NM6403
50 Mhz
RISC ядро
32-битные данные
32-битные операции
8 + 8

регистров
Векторное устройство
Переменная разрядность
До 2048 параллельных умноженей

Слайд 42RISC-ядро
5-ти ступенчатый 32-разрядный конвейер;
32- и 64-разрядные команды (обычно выполняется две

операции в одной команде);
Два адресных генератора, адресное пространство - 16 GB;
Два 64-разрядных программируемых интерфейса с SRAM/DRAM-разделяемой памятью;
Формат данных - 32-разрядные целые;
Регистры:
8 32-разрядных регистров общего назначения;
8 32-разрядных адресных регистров;
Специальные регистры управления и состояния;
Два высокоскоростных коммуникационных порта ввода/вывода,
Аппаратно совместимых с портами TMS320C4x.

Слайд 43VECTOR-сопроцессор
Переменная 1-64-разрядная длина векторных операндов и результатов;
Формат данных - целые

числа, упакованные в 64-разрядные блоки, в форме слов переменной длины от 1 до 64 разрядов каждое;
Поддержка векторно-матричных и матрично-матричных операций;
Два типа функций насыщения на кристалле;
Три внутренних 32x64-разрядных RAM-блока

Слайд 44Производительность
Скалярные операции:
5 0 MIPS;
200 MOPS для 32-разрядных данных;

Векторные операции:

от 50 до 50.000+ MMAC (миллионов умножений с накоплением в секунду);
I/O и интерфейсы с памятью:
пропускная способность двух 64-разрядных интерфейсов с памятью - до 800 Мбайт/сек;
I/O коммуникационные порты - до 20 Мбайт/сек кажд

Слайд 45Особенности NM64003 (1)
Возможность работы с входными сигналами (синапсами) и весами переменной

разрядности (от 1 до 64 бит), задаваемой программно, что обеспечивает уникальную способность нейропроцессора увеличивать производительность с уменьшением разрядности операндов;
Быстрая подкачка новых весов на фоне вычислений;
(24 операции умножения с накоплением за один такт при длине операндов 8 бит);
V аппаратная поддержка эмуляции нейросетей большой размерности;
Реализация функции активации в виде пороговой функции или функции ограничения;

Слайд 46Особенности NM64003 (2)
Наличие двух широких шин (по 64 разряда) для работы

с внешней памятью любого типа: до 4Мб SRAM и до 16 Гб DRAM;
Наличие двух байтовых коммуникационных портов ввода/вывода, аппаратно совместимых с коммуникационными портами TMS320C4x для реализации параллельных распределенных вычислительных систем большой производительности.
Возможность работать с данными переменной разрядности по различным алгоритмам, реализуемым с помощью хранящихся во внешнем ОЗУ программ

Слайд 47Антоненко В.А. Волканов Д.Ю
Системы на NM 6403
MC431 – однопроцессорная плата
NM4 –

четырехпроцессорная плата
6MCBO – 4 платы по 6 процессоров и платы для обработки входных сигналов

Слайд 48Схема нейровычислителя

Слайд 49WCET
Постановка задачи
Статический метод
Измерительный метод
Гибридный метод
Метод Bound Checking

Слайд 50WCET – задача оценки наихудшего времени выполнения программ
Актуальна при проектировании и

анализе программ для РВ систем
В РВ системах должно быть гарантировано время реакции системы на внешние события

Введение

Слайд 51WCET

Слайд 52Анализ программы без выполнения на реальном оборудовании
Общая схема:
Построение CFG
Анализ линейных участков
Вычисление

оценки WCET по CFG

Статический метод

Слайд 53Пример организации:
Статический метод

Слайд 54CFG – граф:
вершины - линейные участки программы
ребра – возможные

переходы

CFG

Слайд 55… // 1
if (a>5)
{
sleep(5); // 2
if (a>7)
{
sleep(7); // 3
}
}
else
{
sleep(7); // 4
}
sleep(5); // 5
CFG

1
2
4
3
5

Слайд 56Цель:
Вычисление количества итераций циклов
Выявление границ рекурсий
Определение недостижимых блоков
Анализ потоков управления

Слайд 57if (a>10)
{
if (a

недостижим

Анализ потоков управления

Слайд 58Вычисление времени выполнения линейных участков
При этом учитывается влияние архитектурных компонент:
Кэши
Конвееры
Предсказатель переходов
Анализ

поведения процессора

Слайд 59for ( i=0 ; i

промах,
time = 10

2 проход: кэш – попадание,
time = 7

3 проход: кэш – попадание,
time = 7

...

a
…

кэш:

Пример: анализ поведения кэша:

Анализ поведения процессора

Слайд 60Производится проход по графу и вычисление оценки WCET
Существует три подхода к

вычислению оценки:
structure-based
path-based
implicit path enumeration techniques (IPET)

Вычисление оценки WCET

Слайд 61Перебираются листья синтаксического дерева
Выделяются группы листьев и объединяются по определенным правилам
После

полного прохода получается одна вершина
WCET = время выполнения этой вершины

Structure-based

Слайд 62Structure-based

Слайд 63Перебираются все возможные пути программы
Для каждого пути вычисляется время выполнения
Выбирается путь

с максимальным временем выполнения
WCET = время этого пути

Path-based

Слайд 64Path-based

Слайд 65Всем ребрам и вершинам сопоставляется коэффициент - число проходов по ребру

или вершине
Cоставляется система уравнений следующего вида:
Коэффициент вершины = сумма коэффициентов входящих ребер
Коэффициент вершины = сумма коэффициентов исходящих ребер
Составляется функция, равная сумме произведений коэффициентов на время выполнения каждого линейного участка
WCET – максимальное значение этой функции

IPET

Слайд 66IPET

Слайд 67Программа выполняется на реальном оборудовании
Производится серия запусков программы на различных наборах

подготовленных входных данных
Определяется оценка наихудшего времени выполнения

Измерительный метод

Слайд 68Преимущества:
Не требуется описание модели вычислителя
Недостатки:
Необходимость запуска программы на целевом оборудовании
Подготовка входных

данных, покрывающих все возможные пути выполнения
Оценка WCET не точна

Измерительный метод

Слайд 69Соединяет в себе измерительный и статический методы
Общая схема анализа:
Построение CFG
Вычисление

времени выполнения каждого линейного участка измерительным методом
Вычисление оценки wcet по графу статическим методом

Гибридный метод

Слайд 70Преимущества:
Сокращается количество выполнений на реальном оборудовании
Не требуется подготовка входных данных
Недостатки:
Необходимость запуска

на целевом вычислителе
Оценка WCET завышена

Гибридный метод

Слайд 71Bounded model checking
Технология верификации программ на модели с ограничением на длину

вычислений
Основана на представлении программ в виде КНФ
Проверка свойств производится путем проверки выполнимости построенной КНФ

Слайд 72Bounded model checking
Типичная схема анализа:
Программа
Преобразователь
КНФ
Решатель
Результат

Слайд 73Bounded model checking
Построение КНФ:

…
if ( a < 5 )
a

= b + 1;
else
a = 5;
return a;

КНФ:
(a_1 = b_0 + 1) &&
(a_2 = 5) &&
[ (a_0 < 5 &&
a_3 = a_1) ||
(a_0 >= 5 && a_3=a_2)]
&& (out = a_3)

Слайд 74Bounded model checking
Циклы:
Ограничение количества итераций мажорантой
Разворачивание циклов

Слайд 75Bounded model checking
for ( int i = 0; i < 3;

++ i )
{
if ( a < 5 )
a += i;
}

i = 0;
if ( i < 3 )
{
if ( a < 5 )
a += i;
++i;
if ( i < 3 )
{
if ( a < 5 )
a += i;
++i;
…

Слайд 76Bounded model checking
Проверка свойств:

void f(int a, int b)
{
if ( a

5 )
a = b + 1;
else
a = 5;
assert( a <= 5 );
return a;
}

КНФ:
(Исходная КНФ программы) &&
!(a <= 5)

Если полученная КНФ выполнима, то свойство не выполняется!

Слайд 77Bounded model checking
Проверка выполнимости КНФ – решение задачи ВЫП
Решатели:
Z3 (Microsoft)
Yices (SRI)
Boolector

Слайд 78Bounded model checking
Ограничение на длину вычислений:
Построение КНФ длины не более k
Проверка

свойств полученной КНФ
Если свойство выполняется,
то увеличение k
Позволяет быстро проверять свойства!

Слайд 79Использование BMC для оценки WCET
Известно время выполнения каждого линейного участка
Добавление вычисления

времени выполнения в КНФ
assert (time <= wcet); в конце программы
запуск проверки, коррекция wcet, пока свойство нарушается

Слайд 80Использование BMC для оценки WCET
Исходная программа
void f(int a) { a

= a + 5; // time = [1, 2] if (a < 0) { /* path1 */ // time = [10, 15] } /* path2 */ // time = [5, 16] }
при a принадлежащем [-4; 0]

Слайд 81Использование BMC для оценки WCET
void f(int a) { a = a +

5; // time = [1, 2] if (a < 0) { /* path1 */
// time = [10, 15] } /* path2 */
// time = [5, 16]
assert(time <= 0) }

КНФ:
time_0 = 0 &&
(-4 <= a_0 <= 0) &&
…
time_1 = time_0 + [1,2] &&
…
time_2 = time_1 + [10,15] &&
a<0 && time_3 = time_2 ||
!(a<0) && time_3 = time_1
time_4 = time_3 + [5,16] &&
&& !(time_4 <= 0)

Слайд 82Использование BMC для оценки WCET
Система выполнима
Строим модель, time_3 = 16
wcet =

16
Строим КНФ заново:
Исходная КНФ && !(time_3 <= 16)

Слайд 83Использование BMC для оценки WCET
После нескольких итераций получаем wcet = 33

КНФ

&& !(time_3 <= 33)

Система не выполнима
Наихудшее время выполнения найдено

Слайд 84Литература
Материалы сайта www.arm.com
“32-разрядные высокопроизводительные RISС-процессоры семейства ARM” (http://www.gaw.ru/html.cgi/txt/doc/micros/arm/arh/index.htm)
Нейропроцессор NM6403. Материалы компании

ЗАО НТЦ «Модуль». Адрес в Интернет: http://www.module.ru
Черников В. М., Виксне П. Е., Фомин Д. В., Шевченко П. А. "Архитектурные особенности нейропроцессора NM6403". Всероссийская научно-техническая конференция "Нейроинформатика-99". Сборник научных трудов. Часть 2, Москва, 1999, С.93-101. (http://library.mephi.ru/data/scientific-sessions/1999/Neuro_2/093.pdf)
Wilhelm R. et al. The worst-case execution-time problem—overview of methods and survey of tools //ACM Transactions on Embedded Computing Systems (TECS). – 2008. – Т. 7. – №. 3. – С. 36. (http://moss.csc.ncsu.edu/~mueller/ftp/pub/mueller/papers/1257.pdf)

Слайд 85Спасибо за внимание!

Скачать презентацию

ВСТРОЕННЫЕ ИНФОРМАЦИОННО-УПРАВЛЯЮЩИЕ СИСТЕМЫ РЕАЛЬНОГО ВРЕМЕНИЛекция 2: Архитектура процессоров для ВИУСРВ презентация

Содержание

Слайд 1ВСТРОЕННЫЕ ИНФОРМАЦИОННО-УПРАВЛЯЮЩИЕ СИСТЕМЫ РЕАЛЬНОГО ВРЕМЕНИ Лекция 2: Архитектура процессоров для ВИУСРВВМиК МГУ

Слайд 2ПланИнтегрированная модульная авионикаПроцессор ARMПроцессор обработки сигналов (NM 6403)Задача WCET

Слайд 45-е поколение боевых комплексовИнтегрированная структура КБОМКИО, ARINC 429, Fibre ChannelИУСБЦВМИУПКоммутаторБЦВМЦВМРЭКСистема навигацииСУООЭКЦВМКомплекс

Слайд 6Требования к процессорам во встроенных системахПредсказуемостьЭнергопотреблениеТепловыделениеНадёжность

Слайд 7ARM Powered Products

Слайд 8ARMПарадигма программирования Набор инструкций Архитектура системы

Слайд 9Размер типов данных и набор иструкцийARM имеет 32-битную архитектуру.Обычно в ARM

Слайд 10Режимы работы процессора Семь основных режимов функционирования ARM:User : непривилегированный режим,

Слайд 11Набор регистров в ARM

Слайд 12Организация регистровUser mode r0-r7, r15, and cpsrr8r9r10r11r12r13 (sp)r14 (lr)spsrFIQUserr13 (sp)r14 (lr)spsrIRQUser mode r0-r12, r15, and cpsrr13 (sp)r14 (lr)spsrUndefUser mode r0-r12, r15, and cpsrr13 (sp)r14 (lr)spsrSVCUser mode r0-r12, r15, and cpsrr13 (sp)r14

Слайд 13Типы регистровВ ARM есть 37 регистров размером 32-bits.1 специальный регистр: program

Слайд 14Регистры состояния программы Флаги условных переходов N = Negative вычисляется АЛУZ

Слайд 15Если процессор находится в режиме ARM:Все инструкции размером 32 битаВсе инструкции

Слайд 16Vector TableОбработка исключений Алгоритм обработки исключений:Копируется CPSR в SPSR_Заполняются CPSR битыСостояние

Слайд 17Разработка ARM архитектурыSA-110ARM7TDMI4T1Поддержка Halfword иsigned halfword / байтовSystem modeThumb instruction set24ARM9TDMISA-1110ARM720TARM940TImproved ARM/Thumb

Слайд 18Процессор ARM Парадигма программирования Набор инструкций Архитектура системы

Слайд 19ARM инструкции могут выполнятся условно путем проставления постфикса с кодом условия.CMP

Слайд 20Возможные условные коды приведены ниже:Условные коды

Слайд 21Примеры условного выполнения Использование последовательности условных инструкций if (a==0) func(1); CMP

Слайд 22Branch : B{} labelBranch со связью: BL{} subroutine_label2831240 Cond 1

Слайд 24Barrel ShifterDestinationCF0DestinationCFLSL : Logical Left ShiftASR: Arithmetic Right ShiftУмножение на 2Деление

Слайд 25Использование Barrel Shifter: Второй операнд

Слайд 26УмножениеСинтаксис: MUL{}{S} Rd, Rm, Rs Rd = Rm * RsMLA{}{S} Rd,Rm,Rs,Rn Rd =

Слайд 27Помещение данных в регистр LDR STR Word LDRB STRB Byte LDRH STRH Halfword LDRSB Signed byte load LDRSH Signed

Слайд 28Доступ по адресуАдрес доступные по LDR/STR определяется как значение регистра плюс

Слайд 30LDM / STMСинтаксис:{} Rb{!}, 4 режима адресования: LDMIA / STMIA инкрементить

Слайд 31Программное прерывание (SWI)Возбуждает обработчик прерываний в соответствии с SWI hardware vector

Слайд 32PSR инструкцииMRS и MSR позволяет переместить содержимое CPSR / SPSR в

Слайд 33ARM ветвиB PC relative. ±32 Mbyte range.BL Хранит и возвращает адрес

Слайд 34ПримерWhile (i!=j)(i > j) ? i-=j : j-=i;loop CMP Ri, Rj; SUBGT

Слайд 35Процессор ARM Парадигма программирования Набор инструкцийАрхитектура системы

Слайд 36Пример ARM-based системы16 bit RAM8 bit ROM32 bit RAMI/OPeripheralsInterruptControllernFIQnIRQ

Слайд 37AMBABridgeTimerOn-chipRAMARMInterruptControllerRemap/PauseTICArbiterBus InterfaceExternalROMExternalRAMResetSystem BusPeripheral BusAMBAAdvanced Microcontroller Bus ArchitectureADKComplete AMBA Design KitACTAMBA Compliance

Слайд 38Процессоры DSPОсобенности DSP процессоровПроцессор NM6403

Слайд 39Особенности DSP процессоровАппаратная поддержка программных циклов, кольцевых буферовОдин или несколько операндов

Слайд 40Особенности DSP процессоров (2)Сложение и умножение требуют:произвести выборку двух операндов выполнить

Слайд 41Антоненко В.А. Волканов Д.ЮПроцессор NM640350 MhzRISC ядро32-битные данные32-битные операции8 + 8

Слайд 42RISC-ядро5-ти ступенчатый 32-разрядный конвейер; 32- и 64-разрядные команды (обычно выполняется две

Слайд 43VECTOR-сопроцессорПеременная 1-64-разрядная длина векторных операндов и результатов; Формат данных - целые

Слайд 44ПроизводительностьСкалярные операции: 5 0 MIPS; 200 MOPS для 32-разрядных данных; Векторные операции:

Слайд 45Особенности NM64003 (1)Возможность работы с входными сигналами (синапсами) и весами переменной

Слайд 46Особенности NM64003 (2)Наличие двух широких шин (по 64 разряда) для работы

Слайд 47Антоненко В.А. Волканов Д.ЮСистемы на NM 6403MC431 – однопроцессорная платаNM4 –

Слайд 48Схема нейровычислителя

Слайд 49WCETПостановка задачиСтатический методИзмерительный методГибридный методМетод Bound Checking

Слайд 50WCET – задача оценки наихудшего времени выполнения программАктуальна при проектировании и

Слайд 51WCET

Слайд 52Анализ программы без выполнения на реальном оборудованииОбщая схема:Построение CFGАнализ линейных участковВычисление

Слайд 53Пример организации:Статический метод

Слайд 54CFG – граф: вершины - линейные участки программы ребра – возможные

Слайд 55… // 1if (a>5) { sleep(5); // 2 if (a>7) { sleep(7); // 3 }}else{ sleep(7); // 4}sleep(5); // 5CFG12435

Слайд 56Цель:Вычисление количества итераций цикловВыявление границ рекурсийОпределение недостижимых блоковАнализ потоков управления

Слайд 57if (a>10){ if (a

Слайд 58Вычисление времени выполнения линейных участковПри этом учитывается влияние архитектурных компонент:КэшиКонвеерыПредсказатель переходовАнализ

Слайд 59for ( i=0 ; i

Слайд 60Производится проход по графу и вычисление оценки WCETСуществует три подхода к

Слайд 61Перебираются листья синтаксического дереваВыделяются группы листьев и объединяются по определенным правиламПосле

Слайд 62Structure-based

Слайд 63Перебираются все возможные пути программыДля каждого пути вычисляется время выполненияВыбирается путь

Слайд 64Path-based

Слайд 65Всем ребрам и вершинам сопоставляется коэффициент - число проходов по ребру

Слайд 66IPET

Слайд 67Программа выполняется на реальном оборудованииПроизводится серия запусков программы на различных наборах

Слайд 68Преимущества:Не требуется описание модели вычислителяНедостатки:Необходимость запуска программы на целевом оборудованииПодготовка входных

Слайд 69Соединяет в себе измерительный и статический методыОбщая схема анализа: Построение CFGВычисление

Слайд 70Преимущества:Сокращается количество выполнений на реальном оборудованииНе требуется подготовка входных данныхНедостатки:Необходимость запуска

Слайд 71Bounded model checkingТехнология верификации программ на модели с ограничением на длину

Слайд 72Bounded model checkingТипичная схема анализа:ПрограммаПреобразовательКНФРешательРезультат

Слайд 73Bounded model checkingПостроение КНФ: … if ( a < 5 ) a

Слайд 74Bounded model checkingЦиклы:Ограничение количества итераций мажорантойРазворачивание циклов

Слайд 75Bounded model checkingfor ( int i = 0; i < 3;

Слайд 76Bounded model checkingПроверка свойств:void f(int a, int b){ if ( a

Слайд 77Bounded model checkingПроверка выполнимости КНФ – решение задачи ВЫПРешатели:Z3 (Microsoft)Yices (SRI)Boolector

Слайд 78Bounded model checkingОграничение на длину вычислений:Построение КНФ длины не более kПроверка

Слайд 79Использование BMC для оценки WCETИзвестно время выполнения каждого линейного участкаДобавление вычисления

Слайд 80Использование BMC для оценки WCETИсходная программаvoid f(int a) { a

Слайд 81Использование BMC для оценки WCETvoid f(int a) { a = a +

Слайд 82Использование BMC для оценки WCETСистема выполнимаСтроим модель, time_3 = 16wcet =

Слайд 1ВСТРОЕННЫЕ ИНФОРМАЦИОННО-УПРАВЛЯЮЩИЕ СИСТЕМЫ РЕАЛЬНОГО ВРЕМЕНИ Лекция 2: Архитектура процессоров для ВИУСРВ
ВМиК МГУ

Слайд 2План
Интегрированная модульная авионика
Процессор ARM
Процессор обработки сигналов (NM 6403)
Задача WCET

Слайд 6Требования к процессорам во встроенных системах
Предсказуемость
Энергопотребление
Тепловыделение
Надёжность

Слайд 8ARM
Парадигма программирования
Набор инструкций
Архитектура системы

Слайд 9Размер типов данных и набор иструкций
ARM имеет 32-битную архитектуру.

Обычно в ARM

Слайд 10Режимы работы процессора
Семь основных режимов функционирования ARM:
User : непривилегированный режим,

Слайд 13Типы регистров
В ARM есть 37 регистров размером 32-bits.
1 специальный регистр: program

Слайд 14Регистры состояния программы
Флаги условных переходов
N = Negative вычисляется АЛУ
Z

Слайд 15Если процессор находится в режиме ARM:
Все инструкции размером 32 бита
Все инструкции

Слайд 16Vector Table
Обработка исключений
Алгоритм обработки исключений:
Копируется CPSR в SPSR_
Заполняются CPSR биты
Состояние

Слайд 17Разработка ARM архитектуры
SA-110
ARM7TDMI

4T

1
Поддержка Halfword иsigned halfword / байтов
System mode
Thumb instruction set
2
4
ARM9TDMI
SA-1110
ARM720T
ARM940T
Improved ARM/Thumb

Слайд 18Процессор ARM
Парадигма программирования
Набор инструкций
Архитектура системы

Слайд 19ARM инструкции могут выполнятся условно путем проставления постфикса с кодом условия.

CMP

Слайд 20
Возможные условные коды приведены ниже:

Условные коды

Слайд 21Примеры условного выполнения
Использование последовательности условных инструкций
if (a==0) func(1);
CMP

Слайд 22Branch : B{} label
Branch со связью: BL{} subroutine_label

28
31
24
0
Cond 1

Слайд 24

Barrel Shifter
Destination
CF
0
Destination
CF
LSL : Logical Left Shift
ASR: Arithmetic Right Shift
Умножение на 2
Деление

Слайд 25

Использование Barrel Shifter: Второй операнд

Слайд 26Умножение
Синтаксис:
MUL{}{S} Rd, Rm, Rs Rd = Rm * Rs
MLA{}{S} Rd,Rm,Rs,Rn Rd =

Слайд 27

Помещение данных в регистр
LDR STR Word
LDRB STRB Byte
LDRH STRH Halfword
LDRSB Signed byte load
LDRSH Signed

Слайд 28

Доступ по адресу
Адрес доступные по LDR/STR определяется как значение регистра плюс

Слайд 30LDM / STM
Синтаксис:
{} Rb{!},
4 режима адресования:
LDMIA / STMIA инкрементить

Слайд 31

Программное прерывание (SWI)
Возбуждает обработчик прерываний в соответствии с SWI hardware vector

Слайд 32

PSR инструкции
MRS и MSR позволяет переместить содержимое CPSR / SPSR в

Слайд 33

ARM ветви
B
PC relative. ±32 Mbyte range.
BL
Хранит и возвращает адрес

Слайд 34

Пример
While (i!=j)
(i > j) ? i-=j : j-=i;

loop CMP Ri, Rj;
SUBGT

Слайд 35Процессор ARM
Парадигма программирования
Набор инструкций
Архитектура системы

Слайд 36Пример ARM-based системы

16 bit RAM
8 bit ROM
32 bit RAM
I/O
Peripherals
Interrupt
Controller
nFIQ
nIRQ

Слайд 37AMBA

Bridge
Timer
On-chip
RAM
ARM
Interrupt
Controller
Remap/
Pause
TIC
Arbiter
Bus Interface
External
ROM
External
RAM
Reset
System Bus
Peripheral Bus
AMBA
Advanced Microcontroller Bus Architecture
ADK
Complete AMBA Design Kit

ACT
AMBA Compliance

Слайд 38Процессоры DSP
Особенности DSP процессоров
Процессор NM6403

Слайд 39Особенности DSP процессоров
Аппаратная поддержка программных циклов, кольцевых буферов
Один или несколько операндов

Слайд 40Особенности DSP процессоров (2)
Сложение и умножение требуют:
произвести выборку двух операндов
выполнить

Слайд 41Антоненко В.А. Волканов Д.Ю
Процессор NM6403
50 Mhz
RISC ядро
32-битные данные
32-битные операции
8 + 8

Слайд 42RISC-ядро
5-ти ступенчатый 32-разрядный конвейер;
32- и 64-разрядные команды (обычно выполняется две

Слайд 43VECTOR-сопроцессор
Переменная 1-64-разрядная длина векторных операндов и результатов;
Формат данных - целые

Слайд 44Производительность
Скалярные операции:
5 0 MIPS;
200 MOPS для 32-разрядных данных;

Векторные операции:

Слайд 45Особенности NM64003 (1)
Возможность работы с входными сигналами (синапсами) и весами переменной

Слайд 46Особенности NM64003 (2)
Наличие двух широких шин (по 64 разряда) для работы

Слайд 47Антоненко В.А. Волканов Д.Ю
Системы на NM 6403
MC431 – однопроцессорная плата
NM4 –

Слайд 49WCET
Постановка задачи
Статический метод
Измерительный метод
Гибридный метод
Метод Bound Checking

Слайд 50WCET – задача оценки наихудшего времени выполнения программ
Актуальна при проектировании и

Слайд 52Анализ программы без выполнения на реальном оборудовании
Общая схема:
Построение CFG
Анализ линейных участков
Вычисление

Слайд 53Пример организации:
Статический метод

Слайд 54CFG – граф:
вершины - линейные участки программы
ребра – возможные

Слайд 55… // 1
if (a>5)
{
sleep(5); // 2
if (a>7)
{
sleep(7); // 3
}
}
else
{
sleep(7); // 4
}
sleep(5); // 5
CFG

1
2
4
3
5

Слайд 56Цель:
Вычисление количества итераций циклов
Выявление границ рекурсий
Определение недостижимых блоков
Анализ потоков управления

Слайд 57if (a>10)
{
if (a

Слайд 58Вычисление времени выполнения линейных участков
При этом учитывается влияние архитектурных компонент:
Кэши
Конвееры
Предсказатель переходов
Анализ

Слайд 60Производится проход по графу и вычисление оценки WCET
Существует три подхода к

Слайд 61Перебираются листья синтаксического дерева
Выделяются группы листьев и объединяются по определенным правилам
После

Слайд 63Перебираются все возможные пути программы
Для каждого пути вычисляется время выполнения
Выбирается путь

Слайд 67Программа выполняется на реальном оборудовании
Производится серия запусков программы на различных наборах

Слайд 68Преимущества:
Не требуется описание модели вычислителя
Недостатки:
Необходимость запуска программы на целевом оборудовании
Подготовка входных

Слайд 69Соединяет в себе измерительный и статический методы
Общая схема анализа:
Построение CFG
Вычисление

Слайд 70Преимущества:
Сокращается количество выполнений на реальном оборудовании
Не требуется подготовка входных данных
Недостатки:
Необходимость запуска

Слайд 71Bounded model checking
Технология верификации программ на модели с ограничением на длину

Слайд 72Bounded model checking
Типичная схема анализа:
Программа
Преобразователь
КНФ
Решатель
Результат

Слайд 73Bounded model checking
Построение КНФ:

…
if ( a < 5 )
a

Слайд 74Bounded model checking
Циклы:
Ограничение количества итераций мажорантой
Разворачивание циклов

Слайд 75Bounded model checking
for ( int i = 0; i < 3;

Слайд 76Bounded model checking
Проверка свойств:

void f(int a, int b)
{
if ( a

Слайд 77Bounded model checking
Проверка выполнимости КНФ – решение задачи ВЫП
Решатели:
Z3 (Microsoft)
Yices (SRI)
Boolector

Слайд 78Bounded model checking
Ограничение на длину вычислений:
Построение КНФ длины не более k
Проверка

Слайд 79Использование BMC для оценки WCET
Известно время выполнения каждого линейного участка
Добавление вычисления

Слайд 80Использование BMC для оценки WCET
Исходная программа
void f(int a) { a

Слайд 81Использование BMC для оценки WCET
void f(int a) { a = a +

Слайд 82Использование BMC для оценки WCET
Система выполнима
Строим модель, time_3 = 16
wcet =

Слайд 83Использование BMC для оценки WCET
После нескольких итераций получаем wcet = 33

КНФ