Разработка параллельных программ для GPU. Введение в CUDA презентация

Содержание

1. Разработка параллельных программ для GPU. Введение в CUDA
2. АППАРАТНЫЕ ОСОБЕННОСТИ GPU Краткий обзор архитектурных особенностей GPU
3. Основные тенденции Переход к многопроцессорным системам
4. Классификация архитектур Виды параллелизма На уровне данных
5. Архитектура многоядерных CPU Кэш первого уровня для
6. Архитектура GPU: Device
7. Архитектура GPU: TPC Кластер текстурных блоков (TPC) Память для текстур Потоковый мультипроцессор
8. Архитектура GPU: SM Память констант Память инструкций
9. Основные отличия GPU от CPU Высокая степень параллелизма (SIMT) Минимальные затраты на кэш-память Ограничения функциональности
10. РАЗВИТИЕ ВЫЧИСЛЕНИЙ НА GPU Развитие технологии неграфических вычислений
11. Эволюция GPU
12. GPGPU General-Purpose Computation on GPU Вычисления на
13. ПРОГРАММНАЯ МОДЕЛЬ CUDA Основные понятия и определения CUDA
14. CUDA – Compute Unified Device Architecture
15. Организация работы CUDA GPU
16. Warp и латентность Warp Порция потоков для
17. Топология блоков (block) Возможна 1, 2 и 3-мерная топология Количество потоков в блоке ограничено (512)
18. Топология сетки блоков (grid) Возможна 1 и
19. Адресация элементов данных CUDA предоставляет встроенные переменные,
20. Барьерная синхронизация Синхронизация потоков блока осуществляется встроенным оператором __synchronize
21. CUDA: РАСШИРЕНИЕ C++ Особенности написания программ для GPU CUDA
22. Расширение языка С++ Новые типы данных Спецификаторы
23. Процесс компиляции Файлы CUDA (GPU) *.cu Файлы
24. Типы данных CUDA 1, 2, 3 и
25. Спецификаторы функций
26. Спецификаторы функций Ядро помечается __global__ Ядро не
27. Ограничения функций GPU Не поддерживается рекурсия Не
28. Спецификаторы переменных
29. Ограничения переменных GPU Переменные __shared__ не могут
30. Переменные ядра dim3 gridDim unit3
31. Директива запуска ядра Kernel(data) blocks –
32. Общая структура программы CUDA __global__ void Kernel(float*
33. Предустановки Видеокарта NVIDIA с поддержкой CUDA Драйвера
34. Литература NVIDIA Developer Zone http://developer.nvidia.com/cuda NVIDAI
35. ВОПРОСЫ?

Главная
Информатика
Разработка параллельных программ для GPU. Введение в CUDA

Слайд 1Разработка параллельных программ для GPU
Введение в CUDA

Слайд 2АППАРАТНЫЕ ОСОБЕННОСТИ GPU
Краткий обзор архитектурных особенностей GPU

Слайд 3Основные тенденции
Переход к многопроцессорным системам

Развития технологий параллельного программирования

OpenMP, MPI, TPL etc.
Простота

в использовании

Слайд 4Классификация архитектур
Виды параллелизма
На уровне данных (Data)
На уровне задач (Instruction)
*GPU: SIMT –

Single Instruction Multiple Thread

Слайд 5Архитектура многоядерных CPU
Кэш первого уровня
для инструкций (L1-I)
для данных (L1-D)

Кэш второго уровня
на

одном кристалле
используется раздельно

Проблема синхронизации кэш-памяти

Слайд 6Архитектура GPU: Device

Слайд 7Архитектура GPU: TPC
Кластер текстурных блоков (TPC)

Память для текстур

Потоковый мультипроцессор

Слайд 8Архитектура GPU: SM
Память констант
Память инструкций
Регистровая память
Разделяемая память

8 скалярных процессоров

2 суперфункциональных блока

Слайд 9Основные отличия GPU от CPU
Высокая степень параллелизма (SIMT)
Минимальные затраты на кэш-память
Ограничения

функциональности

Слайд 10РАЗВИТИЕ ВЫЧИСЛЕНИЙ НА GPU
Развитие технологии неграфических вычислений

Слайд 11Эволюция GPU

Слайд 12GPGPU
General-Purpose Computation on GPU
Вычисления на GPU общего (неграфического) назначения

AMD FireStream
NVIDIA CUDA

DirectCompute

(DirectX 10)
OpenCL

Слайд 13ПРОГРАММНАЯ МОДЕЛЬ CUDA
Основные понятия и определения CUDA

Слайд 14CUDA – Compute Unified Device Architecture

Host – CPU (Central Processing Unit)
Device

– GPU (Graphics Processing Unit)

Слайд 15Организация работы CUDA GPU

Слайд 16Warp и латентность
Warp
Порция потоков для выполнения на потоковом мультипроцессоре (SM)

Латентность
Общая задержка

всех потоков warp’а при выполнении инструкции

Слайд 17Топология блоков (block)
Возможна 1, 2 и 3-мерная топология
Количество потоков в блоке

ограничено (512)

Слайд 18Топология сетки блоков (grid)
Возможна 1 и 2-мерная топология
Количество блоков в каждом

измерении ограничено 65536=216

Слайд 19Адресация элементов данных
CUDA предоставляет встроенные переменные, которые идентифицируют блоки и потоки
blockIdx
blockDim
threadIdx
1D

Grid & 2D Block:

int dataIdnex = blockIdx.x * blockDim.x + threadIdx.x

Слайд 20Барьерная синхронизация
Синхронизация потоков блока осуществляется встроенным оператором __synchronize

Слайд 21CUDA: РАСШИРЕНИЕ C++
Особенности написания программ для GPU CUDA

Слайд 22Расширение языка С++
Новые типы данных
Спецификаторы для функций
Спецификаторы для переменных
Встроенные переменные (для

ядра)
Директива для запуска ядра

Слайд 23Процесс компиляции
Файлы CUDA (GPU)
.cu
Файлы CPU
.cpp, .h
Исполняемый модуль
.dll, *.exe

nvcc
VC90

Слайд 24Типы данных CUDA
1, 2, 3 и 4-мерные вектора базовых типов
Целые: (u)char,

(u)int, (u)short, (u)long, longlong
Дробные: float, double
Пример: float(1), float2, float3, float4

dim3 ~ uint3
Пример: dim3(n) = uint(n,1,1)

Слайд 25Спецификаторы функций

Слайд 26Спецификаторы функций
Ядро помечается global
Ядро не может возвращать значение

Возможно совместное использование host

и __device__

Спецификаторы __global__ и __host__ не могут использоваться совместно

Слайд 27Ограничения функций GPU
Не поддерживается рекурсия
Не поддерживаются static-переменные
Нельзя брать адрес функции device
Не

поддерживается переменное число аргументов

Слайд 28Спецификаторы переменных

Слайд 29Ограничения переменных GPU
Переменные shared не могут инициализироваться при объявлении

Запись в constant

может производить только host через CUDA API

Спецификаторы нельзя применять к полям структур и union

Слайд 30Переменные ядра
dim3 gridDim
unit3 blockIdx
dim3 blockDim
uint3 threadIdx
int

warpSize

Слайд 31Директива запуска ядра
Kernel(data)

blocks – число блоков в сетке
threads – число

потоков в блоке

Слайд 32Общая структура программы CUDA
global void Kernel(float* data)
{
. .

.
}

void main()
{
. . .

Kernel<<>>(data);

. . .
}

$Общая структура программы CUDA__global__ void Kernel(float* data){ . . .}void main(){ . .$

Слайд 33Предустановки
Видеокарта NVIDIA с поддержкой CUDA
Драйвера устройства с поддержкой CUDA

NVIDIA CUDA Toolkit
NVIDIA

CUDA SDK
NVIDIA Nsight

Visual Studio 2008+
Компилятор Visual C++ 9.0+

Слайд 34Литература
NVIDIA Developer Zone
http://developer.nvidia.com/cuda

NVIDAI CUDA – Неграфические вычисления на графических процессорах
http://www.ixbt.com/video3/cuda-1.shtml

Создание простого

приложения CUDA в Visual Studio 2010
http://mezhov.blogspot.com/2011/09/cuda-visual-studio-2010.html

Слайд 35ВОПРОСЫ?

Скачать презентацию

Разработка параллельных программ для GPU. Введение в CUDA презентация

Содержание

Слайд 1Разработка параллельных программ для GPU
Введение в CUDA

Слайд 2АППАРАТНЫЕ ОСОБЕННОСТИ GPU
Краткий обзор архитектурных особенностей GPU

Слайд 3Основные тенденции
Переход к многопроцессорным системам

Развития технологий параллельного программирования

OpenMP, MPI, TPL etc.
Простота

Слайд 4Классификация архитектур
Виды параллелизма
На уровне данных (Data)
На уровне задач (Instruction)
*GPU: SIMT –

Слайд 5Архитектура многоядерных CPU
Кэш первого уровня
для инструкций (L1-I)
для данных (L1-D)

Кэш второго уровня
на

Слайд 6Архитектура GPU: Device

Слайд 7Архитектура GPU: TPC
Кластер текстурных блоков (TPC)

Память для текстур

Потоковый мультипроцессор

Слайд 8Архитектура GPU: SM
Память констант
Память инструкций
Регистровая память
Разделяемая память

8 скалярных процессоров

2 суперфункциональных блока

Слайд 9Основные отличия GPU от CPU
Высокая степень параллелизма (SIMT)
Минимальные затраты на кэш-память
Ограничения

Слайд 10РАЗВИТИЕ ВЫЧИСЛЕНИЙ НА GPU
Развитие технологии неграфических вычислений

Слайд 11Эволюция GPU

Слайд 12GPGPU
General-Purpose Computation on GPU
Вычисления на GPU общего (неграфического) назначения

AMD FireStream
NVIDIA CUDA

DirectCompute

Слайд 13ПРОГРАММНАЯ МОДЕЛЬ CUDA
Основные понятия и определения CUDA

Слайд 14CUDA – Compute Unified Device Architecture

Host – CPU (Central Processing Unit)
Device

Слайд 15Организация работы CUDA GPU

Слайд 16Warp и латентность
Warp
Порция потоков для выполнения на потоковом мультипроцессоре (SM)

Латентность
Общая задержка

Слайд 17Топология блоков (block)
Возможна 1, 2 и 3-мерная топология
Количество потоков в блоке

Слайд 18Топология сетки блоков (grid)
Возможна 1 и 2-мерная топология
Количество блоков в каждом

Слайд 19Адресация элементов данных
CUDA предоставляет встроенные переменные, которые идентифицируют блоки и потоки
blockIdx
blockDim
threadIdx
1D

Слайд 20Барьерная синхронизация
Синхронизация потоков блока осуществляется встроенным оператором __synchronize

Слайд 21CUDA: РАСШИРЕНИЕ C++
Особенности написания программ для GPU CUDA

Слайд 22Расширение языка С++
Новые типы данных
Спецификаторы для функций
Спецификаторы для переменных
Встроенные переменные (для

Слайд 23Процесс компиляции
Файлы CUDA (GPU)
.cu
Файлы CPU
.cpp, .h
Исполняемый модуль
.dll, *.exe

nvcc
VC90

Слайд 24Типы данных CUDA
1, 2, 3 и 4-мерные вектора базовых типов
Целые: (u)char,

Слайд 25Спецификаторы функций

Слайд 26Спецификаторы функций
Ядро помечается global
Ядро не может возвращать значение

Возможно совместное использование host

Слайд 27Ограничения функций GPU
Не поддерживается рекурсия
Не поддерживаются static-переменные
Нельзя брать адрес функции device
Не

Слайд 28Спецификаторы переменных

Слайд 29Ограничения переменных GPU
Переменные shared не могут инициализироваться при объявлении

Запись в constant

Слайд 30Переменные ядра
dim3 gridDim
unit3 blockIdx
dim3 blockDim
uint3 threadIdx
int

Слайд 31Директива запуска ядра
Kernel(data)

blocks – число блоков в сетке
threads – число

Слайд 32Общая структура программы CUDA
global void Kernel(float* data)
{
. .

Слайд 33Предустановки
Видеокарта NVIDIA с поддержкой CUDA
Драйвера устройства с поддержкой CUDA

NVIDIA CUDA Toolkit
NVIDIA

Слайд 34Литература
NVIDIA Developer Zone
http://developer.nvidia.com/cuda

NVIDAI CUDA – Неграфические вычисления на графических процессорах
http://www.ixbt.com/video3/cuda-1.shtml

Создание простого

Слайд 35ВОПРОСЫ?

Обратная связь

Что такое ThePresentation.ru?

Разработка параллельных программ для GPU. Введение в CUDA презентация

Содержание

Слайд 1Разработка параллельных программ для GPUВведение в CUDA

Слайд 2АППАРАТНЫЕ ОСОБЕННОСТИ GPUКраткий обзор архитектурных особенностей GPU

Слайд 3Основные тенденцииПереход к многопроцессорным системамРазвития технологий параллельного программированияOpenMP, MPI, TPL etc.Простота

Слайд 4Классификация архитектурВиды параллелизмаНа уровне данных (Data)На уровне задач (Instruction)*GPU: SIMT –

Слайд 5Архитектура многоядерных CPUКэш первого уровнядля инструкций (L1-I)для данных (L1-D)Кэш второго уровняна

Слайд 6Архитектура GPU: Device

Слайд 7Архитектура GPU: TPCКластер текстурных блоков (TPC)Память для текстурПотоковый мультипроцессор

Слайд 8Архитектура GPU: SMПамять константПамять инструкцийРегистровая памятьРазделяемая память8 скалярных процессоров2 суперфункциональных блока

Слайд 9Основные отличия GPU от CPUВысокая степень параллелизма (SIMT)Минимальные затраты на кэш-памятьОграничения

Слайд 10РАЗВИТИЕ ВЫЧИСЛЕНИЙ НА GPUРазвитие технологии неграфических вычислений

Слайд 11Эволюция GPU

Слайд 12GPGPUGeneral-Purpose Computation on GPUВычисления на GPU общего (неграфического) назначенияAMD FireStreamNVIDIA CUDADirectCompute

Слайд 13ПРОГРАММНАЯ МОДЕЛЬ CUDAОсновные понятия и определения CUDA

Слайд 14CUDA – Compute Unified Device ArchitectureHost – CPU (Central Processing Unit)Device

Слайд 15Организация работы CUDA GPU

Слайд 16Warp и латентностьWarpПорция потоков для выполнения на потоковом мультипроцессоре (SM)ЛатентностьОбщая задержка

Слайд 17Топология блоков (block)Возможна 1, 2 и 3-мерная топологияКоличество потоков в блоке

Слайд 18Топология сетки блоков (grid)Возможна 1 и 2-мерная топологияКоличество блоков в каждом

Слайд 19Адресация элементов данныхCUDA предоставляет встроенные переменные, которые идентифицируют блоки и потокиblockIdxblockDimthreadIdx1D

Слайд 20Барьерная синхронизацияСинхронизация потоков блока осуществляется встроенным оператором __synchronize

Слайд 21CUDA: РАСШИРЕНИЕ C++Особенности написания программ для GPU CUDA

Слайд 22Расширение языка С++Новые типы данныхСпецификаторы для функцийСпецификаторы для переменныхВстроенные переменные (для

Слайд 23Процесс компиляцииФайлы CUDA (GPU)*.cuФайлы CPU*.cpp, *.hИсполняемый модуль*.dll, *.exenvccVC90

Слайд 24Типы данных CUDA1, 2, 3 и 4-мерные вектора базовых типовЦелые: (u)char,

Слайд 25Спецификаторы функций

Слайд 26Спецификаторы функцийЯдро помечается __global__Ядро не может возвращать значениеВозможно совместное использование __host__

Слайд 27Ограничения функций GPUНе поддерживается рекурсияНе поддерживаются static-переменныеНельзя брать адрес функции __device__Не

Слайд 28Спецификаторы переменных

Слайд 29Ограничения переменных GPUПеременные __shared__ не могут инициализироваться при объявленииЗапись в __constant__

Слайд 30Переменные ядра dim3 gridDim unit3 blockIdx dim3 blockDim uint3 threadIdx int

Слайд 31Директива запуска ядраKernel(data)blocks – число блоков в сеткеthreads – число

Слайд 32Общая структура программы CUDA__global__ void Kernel(float* data){ . .

Слайд 33ПредустановкиВидеокарта NVIDIA с поддержкой CUDAДрайвера устройства с поддержкой CUDANVIDIA CUDA ToolkitNVIDIA

Слайд 34ЛитератураNVIDIA Developer Zonehttp://developer.nvidia.com/cudaNVIDAI CUDA – Неграфические вычисления на графических процессорахhttp://www.ixbt.com/video3/cuda-1.shtmlСоздание простого

Слайд 35ВОПРОСЫ?

Похожие презентации

Обратная связь

Что такое ThePresentation.ru?

Слайд 1Разработка параллельных программ для GPU
Введение в CUDA

Слайд 2АППАРАТНЫЕ ОСОБЕННОСТИ GPU
Краткий обзор архитектурных особенностей GPU

Слайд 3Основные тенденции
Переход к многопроцессорным системам

Развития технологий параллельного программирования

OpenMP, MPI, TPL etc.
Простота

Слайд 4Классификация архитектур
Виды параллелизма
На уровне данных (Data)
На уровне задач (Instruction)
*GPU: SIMT –

Слайд 5Архитектура многоядерных CPU
Кэш первого уровня
для инструкций (L1-I)
для данных (L1-D)

Кэш второго уровня
на

Слайд 7Архитектура GPU: TPC
Кластер текстурных блоков (TPC)

Память для текстур

Потоковый мультипроцессор

Слайд 8Архитектура GPU: SM
Память констант
Память инструкций
Регистровая память
Разделяемая память

8 скалярных процессоров

2 суперфункциональных блока

Слайд 9Основные отличия GPU от CPU
Высокая степень параллелизма (SIMT)
Минимальные затраты на кэш-память
Ограничения

Слайд 10РАЗВИТИЕ ВЫЧИСЛЕНИЙ НА GPU
Развитие технологии неграфических вычислений

Слайд 12GPGPU
General-Purpose Computation on GPU
Вычисления на GPU общего (неграфического) назначения

AMD FireStream
NVIDIA CUDA

DirectCompute

Слайд 13ПРОГРАММНАЯ МОДЕЛЬ CUDA
Основные понятия и определения CUDA

Слайд 14CUDA – Compute Unified Device Architecture

Host – CPU (Central Processing Unit)
Device

Слайд 16Warp и латентность
Warp
Порция потоков для выполнения на потоковом мультипроцессоре (SM)

Латентность
Общая задержка

Слайд 17Топология блоков (block)
Возможна 1, 2 и 3-мерная топология
Количество потоков в блоке

Слайд 18Топология сетки блоков (grid)
Возможна 1 и 2-мерная топология
Количество блоков в каждом

Слайд 19Адресация элементов данных
CUDA предоставляет встроенные переменные, которые идентифицируют блоки и потоки
blockIdx
blockDim
threadIdx
1D

Слайд 20Барьерная синхронизация
Синхронизация потоков блока осуществляется встроенным оператором __synchronize

Слайд 21CUDA: РАСШИРЕНИЕ C++
Особенности написания программ для GPU CUDA

Слайд 22Расширение языка С++
Новые типы данных
Спецификаторы для функций
Спецификаторы для переменных
Встроенные переменные (для

Слайд 23Процесс компиляции
Файлы CUDA (GPU)
.cu
Файлы CPU
.cpp, .h
Исполняемый модуль
.dll, *.exe

nvcc
VC90

Слайд 24Типы данных CUDA
1, 2, 3 и 4-мерные вектора базовых типов
Целые: (u)char,

Слайд 26Спецификаторы функций
Ядро помечается global
Ядро не может возвращать значение

Возможно совместное использование host

Слайд 27Ограничения функций GPU
Не поддерживается рекурсия
Не поддерживаются static-переменные
Нельзя брать адрес функции device
Не

Слайд 29Ограничения переменных GPU
Переменные shared не могут инициализироваться при объявлении

Запись в constant

Слайд 30Переменные ядра
dim3 gridDim
unit3 blockIdx
dim3 blockDim
uint3 threadIdx
int

Слайд 31Директива запуска ядра
Kernel(data)

blocks – число блоков в сетке
threads – число

Слайд 32Общая структура программы CUDA
global void Kernel(float* data)
{
. .

Слайд 33Предустановки
Видеокарта NVIDIA с поддержкой CUDA
Драйвера устройства с поддержкой CUDA

NVIDIA CUDA Toolkit
NVIDIA

Слайд 34Литература
NVIDIA Developer Zone
http://developer.nvidia.com/cuda

NVIDAI CUDA – Неграфические вычисления на графических процессорах
http://www.ixbt.com/video3/cuda-1.shtml

Создание простого