Микроархитектура
- 1 year ago
- 0
- 0
Hopper — микроархитектура профессиональных графических процессоров класса Server / Datacenter представленная в марте 2022 года, и разработанная корпорацией NVIDIA Corporation в качестве преемника микроархитектуры Ampere . Она названа в честь Грейс Мюррей Хоппер ( англ. Grace Murray Hopper ) — американской учёной в области информатики и контр-адмирала Военно-морских сил США , которая была одной из первых программистов компьютера Марк I .
Микроархитектура Hopper с тензорными ядрами была анонсирована в конце марта 2022 года и впервые появилась в ускорителе GPGPU -вычислений уровня дата-центра NVIDIA H100 с 80 Гбайт HBM3 памяти, который содержит порядка 80 млрд транзисторов . Ускорители NVIDIA H100 например используются в HPC -серверах Nvidia DGX H100 для машинного обучения систем искусственного интеллекта .
Не существует массовых видеокарт десктопного уровня серии GeForce на базе микроархитектуры Hopper. В сентябре же 2022 года были представлены графические ускорители десктопного уровня серии GeForce RTX 40 с упрощённой микроархитектурой Ada Lovelace , названной в честь математика Ады Лавлейс , которая также пришли на смену микроархитектуры Ampere .
Архитектурные усовершенствования микроархитектуры Hopper включают следующее:
Сравнительная таблица GP100, GV100, GA100 и GH100
GPU features | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA A100 | NVIDIA H100 |
---|---|---|---|---|
GPU codename | GP100 | GV100 | GA100 | GH100 |
GPU architecture | NVIDIA Pascal | NVIDIA Volta | NVIDIA Ampere | NVIDIA Hopper |
Compute capability | 6.0 | 7.0 | 8.0 | 9.0 |
Threads / warp | 32 | 32 | 32 | 32 |
Max warps / SM | 64 | 64 | 64 | 64 |
Max threads / SM | 2048 | 2048 | 2048 | 2048 |
Max thread blocks / SM | 32 | 32 | 32 | 32 |
Max Thread Blocks / Thread Block Clusters | N/A | N/A | N/A | 16 |
Max 32-bit registers / SM | 65536 | 65536 | 65536 | 65536 |
Max registers / block | 65536 | 65536 | 65536 | 65536 |
Max registers / thread | 255 | 255 | 255 | 255 |
Max thread block size | 1024 | 1024 | 1024 | 1024 |
FP32 cores / SM | 64 | 64 | 64 | 128 |
Ratio of SM registers to FP32 cores | 1024 | 1024 | 1024 | 512 |
Shared Memory Size / SM | 64 KB | Configurable up to 96 KB | Configurable up to 164 KB | Configurable up to 228 KB |
Матрица сравнения поддержания точности вычислений
Supported CUDA Core Precisions | Supported Tensor Core Precisions | |||||||||||||||||
FP8 | FP16 | FP32 | FP64 | INT1 | INT4 | INT8 | TF32 | BF16 | FP8 | FP16 | FP32 | FP64 | INT1 | INT4 | INT8 | TF32 | BF16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
NVIDIA Tesla P4 | Нет | Нет | Да | Да | Нет | Нет | Да | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет |
NVIDIA P100 | Нет | Да | Да | Да | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет |
NVIDIA Volta | Нет | Да | Да | Да | Нет | Нет | Да | Нет | Нет | Нет | Да | Нет | Нет | Нет | Нет | Нет | Нет | Нет |
NVIDIA Turing | Нет | Да | Да | Да | Нет | Нет | Да | Нет | Нет | Нет | Да | Нет | Нет | Да | Да | Да | Нет | Нет |
NVIDIA A100 | Нет | Да | Да | Да | Нет | Нет | Да | Нет | Да | Нет | Да | Нет | Да | Да | Да | Да | Да | Да |
NVIDIA H100 | Нет | Да | Да | Да | Нет | Нет | Да | Нет | Да | Да | Да | Нет | Да | Нет | Нет | Да | Да | Да |
Обозначение:
Сравнение мощностей декодирования
Видео | H.264 decode (1080p30) | H.265 (HEVC) decode (1080p30) | VP9 decode (1080p30) |
---|---|---|---|
V100 | 16 | 22 | 22 |
A100 | 75 | 157 | 108 |
H100 | 170 | 340 | 260 |
Изображение/сек | JPEG 4:4:4 decode(1080p) | JPEG 4:2:0 decode(1080p) |
---|---|---|
A100 | 1490 | 2950 |
H100 | 3310 | 6350 |
Ускорители GPGPU -вычислений с тензорными ядрами, в которых используются чипы с микроархитектурой Hopper: