Interested Article - Nvidia DGX

NVIDIA DGX — это серия серверов и рабочих станций , разработанная и производимая корпорацией NVIDIA Corporation , которые специализируются на использовании ускорителей GPGPU -вычислений для ускорения приложений глубокого обучения систем искусственного интеллекта .

Модельный ряд

Поколение Pascal — Volta

Nvidia DGX-1

Первая модель HPC -сервера Nvidia DGX-1 была анонсированная 6 апреля 2016 года . И имела 8 профессиональных карт расширения NVIDIA Tesla P100 / V100 c графическими процессорами класса Server / Datacenter на базе с микроархитектур Pascal или Volta с общей набортной памятью HBM2 объёмом 128 ГБ, подключенных через высокоскоростную шину NVLink .

Серия продуктов предназначена для преодоления разрыва между графическими процессорами и ускорителями искусственного интеллекта, поскольку устройство имеет особые как аппаратные так и программные функции, которые позволяют ему ускорять процессы глубокого обучения (частью методов машинного обучения искусственного интеллекта) .

Первоначальный DGX-1 на базе микроархитектуры Pascal обеспечивал 170 терафлопс обработки данных половинной точности , а модернизация на базе Volta увеличила эту производительность до 1000 терафлопс .

Представленный в мае 2017 года Nvidia DGX-1 второго поколения содержит 2 ЦПУ Intel Xeon E5 и 8 GPU Nvidia Tesla V100 на базе микроархитектуры Volta (5120 тензорных ядер), связанных через быструю шину NVLink . Он имеет специализированную (англ.) (, которая является особенно подходящей для построения сетей глубокого обучения .

Технические характеристики

2 × ЦПУ Intel Xeon E5;
512 ГБ OЗУ DDR4 -2133;
8 × GPU NVIDIA Tesla P100 / V100 с общим объемом HBM2 памяти 128 ГБ;
2 × сетевые карты 10 ГБ Ethernet ;
4 × твердотельных накопителя по 1,92 ТБ;
3200 Вт комбинированной мощности источника питания;
Стоечный корпус 3U.

Nvidia DGX-2

В конце марта 2018 года была продемонстрировано новое поколение HPC -серверов Nvidia DGX-2 с более высокой производительностью до 2 петафлопс и с использований новых технологий, такими как (англ.) ( .

Nvidia DGX Station

Nvidia DGX Station — это рабочие станции с профессиональными картами расширения NVIDIA Tesla P100 / V100 на базе микроархитектур Pascal или Volta .

Поколение Ampere

Nvidia DGX A100 Server

В мае 2020 года был анонсирован Nvidia DGX A100 Server — это новое поколение HPC -серверов с профессиональными GPGPU -ускорителями NVIDIA A100 на базе микроархитектуры Ampere .

Технические характеристики

DGX A100 Server содержит:

2 x ЦПУ 64-ядерные AMD EPYC ;
2 Тбайт OЗУ ;
8 × GPU A100 с общим объемом HBM2e памяти 320 или 640 Гб;
до 10 × 200 Гбит/с InfiniBand / Ethernet - коммутатор ConnectX -7;
6 NVIDIA (англ.) (пропускная способность 4,8 ТБ/с, что вдвое выше, чем в предыдущем поколении;
Высокоскоростное хранилище 30 Тбайт NVMe SSD Gen4.

Nvidia DGX Station A100

Nvidia DGX Station A100 — это рабочие станции с профессиональными картами расширения NVIDIA A100 на базе микроархитектуры Ampere .

Поколение Hopper

Nvidia DGX H100 Server

В марте 2022 года был анонсирован Nvidia DGX H100 Server — это очередное поколение HPC -серверов с профессиональными GPGPU -ускорителями NVIDIA H100 на базе микроархитектуры Hopper .

Технические характеристики

DGX H100 Server содержит:

2 x ЦПУ Intel Xeon (англ.) ( ;
2 Тбайт OЗУ ;
8 × GPU H100 с общим объемом HBM3 памяти 640 Гб;
2 × (англ.) ( (англ.) (-3;
8 × 400 Гбит/с InfiniBand / Ethernet - коммутатор ConnectX -7;
Высокоскоростное хранилище 30 Тбайт NVMe SSD .

Nvidia DGX GH200 AI Supercomputer

В конце мая 2023 года Nvidia анонсировала, что в конце 2023 года корпоративным заказчикам станет доступна новая HPC-платформа DGX GH200 AI Supercomputer, в которой используются 256 суперчипов GH200 Grace Hopper (72-ядерный ARM -процессор + GPGPU -ускоритель H100 ), объединённых при помощи технологии NVLink Switch System позволяющей всем ускорителям NVIDIA H100 в составе системы функционировать в качестве единого целого. Производительность этой платформы обещана на уровне 1 Эфлопс (~ 9 Пфлопс FP64 ), а суммарный объём памяти достигает 144 Тбайт — и это почти в 500 раз больше, чем в одной системе предыдущего поколения Nvidia DGX A100 .

Суперкомпьютеры

Nvidia DGX SuperPod

В октябре 2020 года Nvidia анонсировала для корпоративных предприятий решение NVIDIA DGX SuperPOD — суперкомпьютер который имеет размер кластера от 20 до 140 серверов NVIDIA DGX A100 Server или NVIDIA DGX H100 Server .

Nvidia DGX Helios

В конце мая 2023 года Nvidia анонсировала построение NVIDIA DGX Helios — суперкомпьютера который с помощью высокоскоростной коммутируемой сети Quantum-2 InfiniBand объединит сразу четыре системы DGX GH200 AI Supercomputer и будет содержать 1024 суперчипа GH200 Grace Hopper (73728 ARM -ядер + 1024 GPGPU -ускорителя H100 ) .

Ускорители

Сравнение ускорителей, используемых в DGX:

Ускоритель
H100
A100 80GB
A100 40GB
V100 32GB
V100 16GB
P100

Архитектура	Socket	FP32 CUDA Cores	FP64 Cores (excl. Tensor)	Mixed INT32/FP32 Cores	INT32 Cores	Максимальная частота	Частота памяти	Разрядность шины памяти	(англ.) (	VRAM	Single Precision (FP32)	Double Precision (FP64)	INT8 (non- Tensor )	INT8 Dense Tensor	INT32	FP16	FP16 Dense Tensor	bfloat16 Dense Tensor	TensorFloat-32 (TF32) Dense Tensor	FP64 Dense Tensor	Interconnect ( NVLink )	GPU	L1 Cache Size	L2 Cache Size	TDP	Площадь кристалла GPU	Количество транзисторов	Техпроцесс
Hopper	SXM5	16896	4608	16896	N/A	1780 MHz	4,8 Gbit/s HBM3	5120-bit	3072 GB/sec	80GB	60 TFLOPs	30 TFLOPs	N/A	4000 TOPs	N/A	N/A	2000 TFLOPs	2000 TFLOPs	1000 TFLOPs	60 TFLOPs	900 GB/sec	GH100	25344KB(192KBx132)	51200 KB	700W	814 мм2	80 млрд	TSMC 4 нм N4
Ampere	SXM4	6912	3456	6912	N/A	1410 MHz	3,2 Gbit/s HBM2	5120-bit	2039 GB/sec	80GB	19.5 TFLOPs	9.7 TFLOPs	N/A	624 TOPs	19.5 TOPs	78 TFLOPs	312 TFLOPs	312 TFLOPs	156 TFLOPs	19.5 TFLOPs	600 GB/sec	GA100	20736KB(192KBx108)	40960 KB	400W	826 мм2	54,2 млрд	TSMC 7 нм N7
Ampere	SXM4	6912	3456	6912	N/A	1410 MHz	2,4 Gbit/s HBM2	5120-bit	1555 GB/sec	40GB	19.5 TFLOPs	9.7 TFLOPs	N/A	624 TOPs	19.5 TOPs	78 TFLOPs	312 TFLOPs	312 TFLOPs	156 TFLOPs	19.5 TFLOPs	600 GB/sec	GA100	20736KB(192KBx108)	40960 KB	400W	826 мм2	54,2 млрд	TSMC 7 нм N7
Volta	SXM3	5120	2560	N/A	5120	1530 MHz	1,75 Gbit/s HBM2	4096-bit	900 GB/sec	32GB	15.7 TFLOPs	7.8 TFLOPs	62 TOPs	N/A	15.7 TOPs	31.4 TFLOPs	125 TFLOPs	N/A	N/A	N/A	300 GB/sec	GV100	10240KB(128KBx80)	6144 KB	350W	815 мм2	21,1 млрд	TSMC 12 нм FFN
Volta	SXM2	5120	2560	N/A	5120	1530 MHz	1,75 Gbit/s HBM2	4096-bit	900 GB/sec	16GB	15.7 TFLOPs	7.8 TFLOPs	62 TOPs	N/A	15.7 TOPs	31.4 TFLOPs	125 TFLOPs	N/A	N/A	N/A	300 GB/sec	GV100	10240KB(128KBx80)	6144 KB	300W	815 мм2	21,1 млрд	TSMC 12 нм FFN
Pascal	SXM/SXM2	N/A	1792	3584	N/A	1480 MHz	1,4 Gbit/s HBM2	4096-bit	720 GB/sec	16GB	10.6 TFLOPs	5.3 TFLOPs	N/A	N/A	N/A	21.2 TFLOPs	N/A	N/A	N/A	N/A	160 GB/sec	GP100	1344KB(24KBx56)	4096 KB	300W	610 мм2	15,3 млрд	TSMC 16 нм FinFET+

Примечания

(англ.) . AnandTech . (6 апреля 2016). Дата обращения: 21 сентября 2023. 16 июля 2023 года.
(англ.) . Официальный сайт NVIDIA Corporation. Дата обращения: 21 сентября 2023. 1 июня 2023 года.
(англ.) . Официальный сайт NVIDIA Corporation. — «Eight GPU hybrid cube mesh architecture with NVLink» . Дата обращения: 21 сентября 2023. 7 мая 2017 года.
(англ.) . Engadget . (19 июля 2019). Дата обращения: 21 сентября 2023. 19 сентября 2023 года.
(неопр.) . — «NVIDIA DGX-1 Delivers 75X Faster Training...Note: Caffe benchmark with AlexNet, training 1.28M images with 90 epochs» . Дата обращения: 22 сентября 2023. 19 сентября 2023 года.
(рус.) . DGX-systems.ru. Дата обращения: 21 сентября 2023. 4 июля 2022 года.
(неопр.) . Servernews. (11 мая 2017). Дата обращения: 17 ноября 2017. 1 декабря 2017 года.
(неопр.) . Servernews. (12 октября 2017). Дата обращения: 17 ноября 2017. 17 ноября 2017 года.
(неопр.) . Servernews. (1 сентября 2017). Дата обращения: 17 ноября 2017. 17 ноября 2017 года.
(англ.) . The Next Platform. (28 марта 2018). Дата обращения: 21 сентября 2023. 30 марта 2023 года.
(рус.) . DGX-systems.ru. Дата обращения: 21 сентября 2023. 4 июля 2022 года.
(рус.) . ServerNews. (10 апреля 2018). Дата обращения: 21 сентября 2023. 28 мая 2023 года.
(рус.) . ServerNews. (14 мая 2020). Дата обращения: 21 сентября 2023. 5 июля 2023 года.
(неопр.) . Официальный сайт NVIDIA Corporation. Дата обращения: 18 сентября 2023. 21 марта 2023 года.
(рус.) . ServerNews. (22 марта 2022). Дата обращения: 21 сентября 2023. 20 сентября 2023 года.
(неопр.) . Официальный сайт NVIDIA Corporation. Дата обращения: 18 сентября 2023. 24 августа 2023 года.
(рус.) . ServerNews. (8 июня 2022). Дата обращения: 21 сентября 2023. 1 июня 2023 года.
↑ (неопр.) . ServerNews. (29 мая 2023). Дата обращения: 18 сентября 2023. 30 августа 2023 года.
(неопр.) . « Открытые системы ». (5 июня 2023). Дата обращения: 18 сентября 2023. 5 июня 2023 года.
(неопр.) . Overclockers.ru (6 октября 2020). Дата обращения: 21 сентября 2023. 27 июля 2021 года.
(рус.) . Forsite-company.ru. Дата обращения: 21 сентября 2023. 29 марта 2023 года.
(неопр.) . Официальный сайт NVIDIA Corporation. Дата обращения: 21 сентября 2023. 13 июля 2023 года.
Smith . , AnandTech (22 марта 2022). 23 сентября 2023 года. Дата обращения: 23 сентября 2023.
Smith . , AnandTech (14 мая 2020). 24 июля 2023 года. Дата обращения: 23 сентября 2023.
(неопр.) . TweakTown (17 сентября 2017). Дата обращения: 23 сентября 2023. 6 апреля 2023 года.