Организация ЭВМ и систем. Параллельные системы. Многомашинные и многопроцессорные вычислительные системы. (Лекция 9) презентация

Содержание

История появления параллелизма в архитектуре ЭВМ 1953г. – IBM 701 1955г. – IBM 704 1958г. – IBM 709 (независимые контроллеры I/O) 1961г. –

Слайд 1Организация ЭВМ и систем
Лекция № 9
Параллельные системы
Понятие о многомашинных

и многопроцессорных вычислительных системах
Основные классы параллельных систем, их характерные особенности



Слайд 2История появления параллелизма в архитектуре ЭВМ
1953г. – IBM 701


1955г. – IBM 704

1958г. – IBM 709 (независимые контроллеры I/O)
1961г. – IBM STRETCH (опережающий просмотр, расслоение памяти на 2 банка)
1963г. – ATLAS (реализована конвейерная обработка данных)
1964г. – CDC 6600 (независимые устройства – несколько конвейеров)
1969г. – CDC 7600 (8 конвейерных функциональных устройств)
1974г. – ALLIAC (УУ + матрица из 64 процессоров)
1976г. – CRAY1 (векторно– конвейерные процессоры)


-) параллельный формат данных
-) АЛУ с плавающей точкой


Слайд 3 Параллельная обработка данных, имеет две разновидности:
Конвейерность

(выделение нескольких этапов при выполнении операции).
Параллельность (наличие нескольких функционально независимых устройств).
Закон Амдала


где: S – ускорение, f – доля операций, которые нужно выполнить последовательно, p – число процессоров.
Следствие из закона Амдала:
Для того, чтобы ускорить выполнение программы в q раз, необходимо ускорить не менее чем в q раз, не менее чем (1-1/q)-ую часть программы.


Слайд 4Классы параллельных систем
Векторно-конвейерные компьютеры (PVP). Имеют MIMD архитектуру (множество инструкций над

множеством данных). Характерным представителем данного направления является семейство векторно-конвейерных компьютеров CRAY.
Основные особенности:
Конвейерные функциональные устройства.
Набор векторных инструкций в системе команд.
Зацепление команд (используется как средство ускорения вычисления).

Слайд 5CRAY Y-MP C90
16 МП, tтакта = 4,1нс, fт.ч.=250МГц.
Разделяемые ресурсы процессора:
ОП разделяется

всеми МП и секцией ввода/вывода. ОП разделена на множество банков, которые могут работать одновременно.
Секция ввода/вывода:
Low-Speed Channels – 6Мбайт/с
High-Speed Channels – 200Мбайт/с
Very High-Speed Channels – 1800Мбайт/с
Секция межпроцессорного взаимодействия содержит регистры и семафоры, предназначенные для передачи данных и управляющей информации.
Вычислительная секция процессора
Регистры (адресные, скалярные, векторные).
Функциональные устройства.
Сети коммуникаций.
Секция управления. Команды выбираются из ОП блоками и заносятся в буфера команд.
Параллельное выполнение программ.



Слайд 6Факторы снижающие производительность параллельных компьютеров
Закон Амдала.
Время инициализации и передачи сообщения по

сети.
Неравномерная загрузка всех процессорных элементов.
Реальная производительность одного процессора.

Слайд 72. Массивно-параллельные компьютеры с распределенной памятью. К данному классу можно отнести

компьютеры Intel Paragon, IBM SP1, Parsytec, IBM SP2 и CRAY T3D.
Особенности:
Объединяются несколько серийных микропроцессоров, их число должно быть >= 128, каждый со своей локальной памятью.

Слайд 8CRAY T3D
Cray T3D и T3E используют единое

адресное пространство (общая виртуальная память). По аппаратному прерыванию особого случая адресации ОС выполняет пересылку страницы с одного узла на другой. У каждого МП своя локальная память, но единое виртуальное адресное пространство.

Cray T3D (32-2048 МП)
хост-машина

Сеть межпроцессорного
взаимодействия
(коммуникационная сеть)
140Мбайт/с

Вычислительные узлы

Узлы ввода/вывода

2 ПЭ

МП

Локальная

Несколько
вспомогательных схем

Сетевой
интерфейс

Контроллер
блочных
передач


Слайд 93. Параллельные компьютеры с общей памятью. В данное направление входят многие

современные многопроцессорные SMP-компьютеры или, например, отдельные узлы компьютеров HP Exemplar и Sun StarFire.
Особенности:
Вся оперативная память разделяется между несколькими одинаковыми процессорами.
Число процессоров, имеющих доступ к общей памяти нельзя сделать большим.


Слайд 104. Кластерная архитектура. По такому принципу построены CRAY SV1, HP Exemplar,

Sun StarFire, NEC SX-5, последние модели IBM SP2 и другие.
Особенности:
Представляет собой комбинации предыдущих трех. Из нескольких процессоров (традиционных или векторно-конвейерных) и общей для них памяти формируется вычислительный узел. Если полученной вычислительной мощности не достаточно, то объединяется несколько узлов высокоскоростными каналами.


Слайд 11Технологии параллельного программирования
Средства программирования: параллельные расширения и диалекты

языков – Fortran, C/C++, ADA и др.
MPI – интерфейс передачи сообщений.
Особенности:
Поддерживает несколько режимов передачи данных.
Предусматривает гетерогенные вычисления.
Передача типизированных сообщений.
Построение библиотек – MPICH, LAM MPI.
Наличие вариантов для языков программирования C/C++, Fortran.
Поддерживает коллективные операции: широковещательную передачу, разборку/сборку, операции редукции.
Совместимость с многопоточностью.



Слайд 12Оценки производительности суперЭВМ
Большинство оценочных характеристик

производительности суперЭВМ связано с вычислениями над вещественными числами. К ним относится пиковая производительность (ПП), измеряемая в млн. операций с плавающей точкой, которые компьютер теоретически может выполнить за 1 сек (MFLOPS).
ПП - величина, практически не достижимая. Это связано с проблемами заполнения функциональных конвейерных устройств. Чем больше конвейер, тем больше надо "инициализационного" времени для того, чтобы его заполнить. Такие конвейеры эффективны при работе с длинными векторами. Поэтому для оценки векторных суперЭВМ было введено такое понятие, как длина полупроизводительности - длина вектора, при которой достигается половина пиковой производительности.


Слайд 13 Более реальные оценки производительности базируются на временах выполнения

различных тестов. Самыми хорошими тестами являются реальные задачи пользователя. Однако такие оценки, во-первых, весьма специфичны, а, во-вторых, часто вообще недоступны или отсутствуют. Поэтому обычно применяются более универсальные тесты.
Поскольку большую часть времени выполнения программ обычно занимают циклы, иногда именно они применяются в качестве тестов, например, известные ливерморские циклы.
Наиболее популярным тестом производительности является Linpack, который представляет собой решение системы N линейных уравнений методом Гаусса. Так как известно, сколько операций с вещественными числами нужно проделать для решения системы, зная время расчета, можно вычислить выполняемое в секунду количество операций.


Слайд 14Имеется несколько модификаций этих тестов. Обычно фирмы-производители компьютеров приводят результаты при

N= 100.
Свободно распространяется стандартная программа на Фортране, которую надо выполнить на суперкомпьютере, чтобы получить результат тестирования. Эта программа не может быть изменена, за исключением замены вызовов подпрограмм, дающих доступ к процессорному времени выполнения.
Другой стандартный тест относится к случаю N = 1000, предполагающему использование длинных векторов. Эти тесты могут выполняться на компьютерах при разном числе процессоров, давая также оценки качества распараллеливания.
Для MPP-систем более интересным является тест Linpack-parallel, в котором производительность измеряется при больших N и числе процессоров.

Слайд 15Здесь лидером является 6768-процессорный Intel Paragon (281 GFLOPS при N =

128600). Что касается производительности процессоров, то при N = 100 лидирует Cray T916 (522 MFLOPS), при N = 1000 и по пиковой производительности - Hitachi S3800 (соответственно 6431 и 8000 MFLOPS). Для сравнения, процессор в AlphaServer 8400 имеет 140 MFLOPS при N =100 и 411 MFLOPS при N=1000.
Для высокопараллельных суперкомпьютеров в последнее время все больше используются тесты NAS parallel benchmark, которые особенно хороши для задач вычислительной газо- и гидродинамики. Их недостатком является фиксация алгоритма решения, а не текста программы.



Слайд 16Вопросы для самоконтроля
Когда впервые реализована конвейерная обработка данных?
Перечислите способы параллельной обработки

данных.
Сформулируйте следствие из закона Амдала.
Назовите классы параллельных систем.
Основные особенности векторно-конвейерных компьютеров.
К какому классу параллельных систем относятся компьютеры Intel Paragon и CRAY T3D?





















Слайд 17Вопросы для самоконтроля
В каких классах параллельных систем оперативная память разделяется между

несколькими процессорами?
Перечислите особенности MPI – интерфейса.
Что представляет собой тест оценки производительности суперЭВМ Linpack?
Какие тесты оценки производительности суперЭВМ Вы знаете?




Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика