Классификация параллельных процессоров. Архитектура и функционирование суперскалярних процессоров. (Тема 1.2) презентация

Содержание

Первый вопрос. Многоплановое толкование

Слайд 1ТЕМА 1. АРХИТЕКТУРА И ФУНКЦИОНИРОВАНИЕ СОВРЕМЕННЫХ ПАРАЛЛЕЛЬНЫХ ПРОЦЕССОРОВ.
Лекция 2. Классификация параллельных

процессоров.
Архитектура и функционирование суперскалярних процессоров.

Слайд 2Первый вопрос.

Многоплановое толкование понятия "архитектура".

Архитектура Фон Неймановская архитектура Гарвардская архитектура Архитектура системы команд


Слайд 5
Фон Неймановская архитектура
Машина состоит из блока управления, арифметико-логического устройства (АЛУ), памяти

и устройств ввода-вывода. В ней реализуется концепция хранимой программы: программы и данные хранятся в одной и той же памяти. Выполняемые действия определяются блоком управления и АЛУ, которые вместе являются основой центрального процессора. Центральный процессор выбирает и исполняет команды из памяти последовательно, адрес очередной команды задается “счетчиком адреса” в блоке управления. Этот принцип исполнения называется последовательной передачей управления.


Слайд 63 основных признака фон Неймановской архитектуры (Принстонская):
память состоит из последовательности ячеек

памяти с адресами;
хранение команд программы и обрабатываемых ими данных - на одинаковых принципах (с точки зрения обработки сообщений);
программа выполняется покомандно, в соответствии с их порядком. УУ – централизовано.

Почему ФН уже не удовлетворяет?

Первое – это скорость, сейчас в усредненной задачи от скорости работы CPU зависит не так уж много – важнее скорость работы памяти и других передач данных. Узкое место – единый тракт.

АЛЬТЕРНАТИВА – параллельная обработка, совмещение операций.


Слайд 7Гарвардская архитектура

Гарвардской архитектуре присущ один недостаток. Вследствие того, что память данных

и память программ разделены, на кристалле необходимо иметь в два раза больше выводов адреса и данных. Кремниевая технология такова, что увеличение числа выводов на кристалле приводит к росту цены. Выход состоит в том, чтобы для всех внешних данных, включая команды, использовать одну шину, а другую – для адресации, внутри же процессора иметь отдельную шину команд и шину данных и две соответствующих шины адреса. Разделение информации о программе и данных на выводах процессора производится благодаря их временному разделению (мультиплексированию). На это требуется два командных цикла: в первом цикле на выводы поступает информация о программе, а во втором на эти же выводы поступают данные. Затем все повторяется. Такие машины называются процессорами «с модифицированной гарвардской архитектурой».

Слайд 8Архитектура системы команд. Классификация процессоров (CISC и RISC)


Слайд 9Наиболее распространенными из систем, класса: один поток команд - множество -

потоков данных, являются матричные системы, которые лучше всего приспособлены для решения задач, характеризующихся параллелизмом независимых объектов или данных. Организация систем подобного типа на первый взгляд достаточно проста. Они имеют общее управляющее устройство, генерирующее поток команд и большое число процессорных элементов, работающих параллельно и обрабатывающих каждая свой поток данных. Таким образом, производительность системы оказывается равной сумме производительностей всех процессорных элементов. Однако на практике, чтобы обеспечить достаточную эффективность системы при решении широкого круга задач необходимо организовать связи между процессорными элементами с тем, чтобы наиболее полно загрузить их работой. Именно характер связей между процессорными элементами и определяет разные свойства системы.

Матричный процессор


Слайд 10
Структура матричной вычислительной системы "SOLOMON"
Система SОLOМОN содержит 1024 процессорных элемента, соединенных

в виде матрицы: 32х32. Каждый процессорный элемент матрицы включает в себя процессор, обеспечивающий выполнение последовательных поразрядных арифметических и логических операций, а также оперативное ЗУ, емкостью 16 Кбайт. Длина слова - переменная от 1 до 128 разрядов. Разрядность слов устанавливается программно. По каналам связи от устройства управления передаются команды и общие константы. В процессорном элементе используется, многомодальная логика, которая позволяет каждому процессорному элементу выполнять или не выполнять общую операцию в зависимости от значений обрабатываемых данных. В каждый момент все активные процессорные элементы выполняют одну и ту же операцию над данными, хранящимися в собственной памяти и имеющими один и тот же адрес.

Слайд 11 Идея многомодальности заключается в том, что в каждом

процессорном элементе имеется специальный регистр на 4 состояния - регистр моды.
Мода (модальность) заносится в этот регистр от устройства управления.
При выполнении последовательности команд модальность передается в коде операции и сравнивается с содержимом регистра моды. Если есть совпадения, то операция выполняется.
В других случаях процессорный элемент не выполняет операцию, но может, в зависимости от кода, пересылать свои операнды соседнему процессорному элементу. Такой механизм позволяет выделить строку или столбец процессорных элементов, что очень полезно при операциях над матрицами. Взаимодействуют процессорные элементы с периферийным оборудованием через внешний процессор.

Слайд 12ПРИМЕРЫ МАТРИЧНЫХ ПРОЦЕССОРОВ


Слайд 13ПРОЦЕССОР С КОНВЕЙЕРИЗАЦИЕЙ КОМАНД
ПРОЦЕССОР С КОНВЕЙЕРИЗАЦИЕЙ ОПЕРАЦИЙ


Слайд 14Представление о работе
конвейера
Диаграмма работы
простейшего конвейера


Слайд 15Эффект конвейеризации при выполнении
3-х команд - четырехкратное ускорение


Слайд 16Второй вопрос.

Архитектура и функционирование суперскалярных процессоров.

Слайд 17 Суперскалярным называется центральный процессор (ЦП), который одновременно выполняет

более чем одну скалярную команду.
Это достигается за счет включения в состав ЦП нескольких самостоятельных функциональных (исполнительных) блоков, каждый из которых отвечает за свой класс операций и может присутствовать в процессоре в нескольких экземплярах.
В микропроцессоре Pentium III блоки целочисленной арифметики и операций с плавающей точкой дублированы, а в микропроцессорах Pentium4 и Athlon – троированы.

Слайд 18
Архитектура суперскалярного процессора


Слайд 19Блок выборки команд извлекает команды из основной памяти через кэш-память команд.

Этот блок хранит несколько значений счетчика команд и обрабатывает команды условного перехода.
Блок декодирования расшифровывает код операции, содержащейся в извлеченных из кэш-памяти командах. В некоторых скалярных процессорах, например в микропроцессорах фирмы Intel, блоки выборки и декодирования совмещены.
Блоки диспетчеризации и распределения взаимодействуют между собой и в совокупности играют в суперскалярном процессоре роль конроллера трафика. Оба блока хранят очереди декодированных команд.
Очередь блока распределения часто рассредотачивается по нескольким самостоятельным буферам – накопителям команд или схемам резервирования,- предназначенным для хранения команд, которые уже декодированы, но еще не выполнены. Каждый накопитель команд связан со своим функциональным блоком (ФБ), поэтому число накопителей обычно равно числу ФБ, но если в процессоре используется несколько однотипных ФБ, то им придается общий накопитель.

Слайд 20Очереди диспетчеризации и распределения
В дополнение к очереди, блок диспетчеризации хранит также

список свободных функциональных блоков, называемых табло (scoreboard). Табло используется для отслеживания состояния очереди распределения.
Один раз за цикл блок диспетчеризации извлекает команды из своей очереди, считывает из памяти или регистров операнды этих команд, после чего, в зависимости от состояния табло, помещает команды и значения операндов в очередь распределения. Эта операция называется выдачей команд. Блок распределения в каждом цикле проверяет каждую команду в своих очередях на наличие всех необходимых для ее выполнения операндов и при положительном ответе начинает выполнение таких команд в соответствующем функциональном блоке.

Слайд 21

.

Упрощенная блок схема процессора Pentium

Основные команды распределяются по двум независимым исполнительным

устройствам (конвейерам U и V). Конвейер U может выполнять любые команды семейства x86, включая целочисленные команды и команды с плавающей точкой. Конвейер V предназначен для выполнения простых целочисленных команд и некоторых команд с плавающей точкой. Команды могут направляться в каждое из этих устройств одновременно, причем при выдаче устройством управления в одном такте пары команд более сложная команда поступает в конвейер U, а менее сложная - в конвейер V. Команды арифметики с плавающей точкой не могут запускаться в паре с целочисленными командами. Одновременная выдача двух команд возможна только при отсутствии зависимостей по регистрам. При остановке команды по любой причине в одном конвейере, как правило останавливается и второй конвейер. Используется раздельная кэш-память команд и данных емкостью по 8 Кбайт, что обеспечивает независимость обращений.

Слайд 23



Особенности суперскалярных процессоров [ 1,2 ]:

1. Суперскалярные процессоры

обрабатывают несколько команд одновременно в нескольких конвейерах (скалярные процессоры имеют один конвейер), способны выполнять до четырех команд за такт и имеют от двух до пяти конвейерных исполнительных устройств.
2. Используются жесткие (аппаратно реализованные) многоступенчатые конвейеры обработки (без использования микропрограмм).
3. Большинство команд выполняются за один такт и лишь немногие – в течение нескольких или нескольких десятков тактов.
4. Все команды обработки данных взаимодействуют только с содержимым регистров, обращение к более медленной оперативной памяти осуществляется с помощью отдельных инструкций (загрузить в регистр/записать в память).

Слайд 24
.

Преимущества суперскалярной машины по сравнению с VLIW-машиной:
во-первых, малое воздействие на

плотность кода, поскольку машина сама определяет, может ли быть выдана следующая команда, и нам не надо следить за тем, чтобы команды соответствовали возможностям выдачи;
во-вторых, на таких машинах могут работать неоптимизированные программы, или программы, откомпилированные в расчете на более старую реализацию.

Архитектура машин с очень длинным командным словом (VLIW Very - Long Instruction Word) позволяет сократить объем оборудования, требуемого для реализации параллельной выдачи нескольких команд, и потенциально чем большее количество команд выдается параллельно, тем больше эта экономия.

Слайд 25Структурная схема суперскалярного процесcора
HP PA–RISC 8000


Слайд 26Литература:
1. Степанов А.Н. Архитектура вычислительных систем и компьютерных сетей. – СПб.:

Питер, 2007. – 509с.

2. Воеводин В.В., Воеводин Вл.В. Параллельные вычисления. - СПб.: БХВ-Петербург, 2002.- 608 с.

3. Лацис А. Как построить и использовать суперкомпьютер.- М.: Бестселлер, 2003.-240с.

4. wwwwww.www.parallelwww.parallel.www.parallel.rbwww.parallel.rb.www.parallel.rb.ru


Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика