NVIDIA DGX Systems

#DGX A100 #미루웨어 #NVSWITCH #K8s #MW OST #MW Stack

NVIDIA DGX A100

NVIDIA DGX A100

With NVIDIA Ampere Architecture

  • 8 x NVIDIA A100 Tensor
  • Dual AMD Rome 7742, 128 cores total, 2.25 GHz
  • 8 x Single-Port Mellanox ConnectX-6 VPI 200Gb/s HDR InfiniBand
  • 1 x Dual-Port Mellanox ConnectX-6 VPI 10/25/50/100/200Gb/s Ethernet
  • 1 TB System Memory
  • 320GB Total GPU Memory
  • 5 petaFLOPS A / 10 petaOPS INT8
  • OS: 2x 1.92TB M.2 NVME drives Internal Storage: 15TB  (4x 3.84TB) U.2 NVME drives
NVIDIA DGX A100

DGX A100은 AI 전략 추진의 가장 큰 걸림돌인 유연하고 역동적인 인프라 구축과 운영에 대한 오랜 고민을 해결합니다.
더 이상 용도 별로 클러스터를 구축해 운영할 이유가 없습니다.

DGX A100으로 구성한 인프라는 마치 거대한 데이터센터가 하나의 시스템처럼 유기적으로 동작합니다.
한 대의 DGX A100을 이용해도 이런 유기적이고 역동적인 AI 데이터센터의 이점을 고스란히 누릴 수 있습니다.

DGX A100의 성능은 슈퍼컴퓨터 급입니다. 단일 시스템으로 5 petaFLOPS 성능을 냅니다.

모든 AI 워크로드를 자유롭게 운영하는 Universal System

DGX A100을 상징하는 개념은 'Universal System'입니다. 총 8개의 A100 GPU가 장착되는 이 시스템은 MIG(Multi-Instance GPU) 기능을 통해 총 56명의 사용자 각각에게 인스턴스를 할당할 수 있습니다.

트레이닝, 인퍼런싱, 분석 등 어떤 워크로드를 운영하건 사용자는 각자에게 할당된 인스턴스를 마치 전용 시스템에서 올린 것처럼 운영할 수 있습니다.

NVIDIA DGX A100

A100 SYSTEM SPECIFICATIONS

GPUs 8x NVIDIA A100 Tensor Core GPUs
GPU Memory 320 GB total
Performance 5 petaFLOPS AI 10 petaOPS INT8
NVIDIA NVSwitches 6
System Power Usage 6.5kW max
CPU Dual AMD Rome 7742,128 cores total, 2.25 GHz(base), 3.4 GHz (max boost)
System Memory  1TB
Networking 8x Single-Port Mellanox
ConnectX-6 VPI
200Gb/s HDR InfiniBand
1x Dual-Port Mellanox
ConnectX-6 VPI
10/25/50/100/200Gb/s
Ethernet
Storage OS: 2x 1.92TB M.2 NVME drives
Internal Storage: 15TB
(4x 3.84TB) U.2 NVME drives
Software Ubuntu Linux OS
System Weight 271 lbs (123 kgs)
Packaged System Weight 315 lbs (143kgs)
System Dimensions Height: 10.4 in (264.0 mm)
Width: 19.0 in (482.3 mm) MAX
Length: 35.3 in (897.1 mm) MAX
Operating Temperature Range 5ºC to 30ºC (41ºF to 86ºF)

단독으로 사용하면 슈퍼컴퓨터, 클러스터로 구성하면 AI 데이터센터

DGX A100의 성능은 슈퍼컴퓨터 급입니다.
단일 시스템으로 5 petaFLOPS 성능을 냅니다. 이 시스템에는 총 8개의 A100 Tensor Core GPU와 320GB의 GPU 메모리가 장착됩니다.

GPU 간 연결은 6세대 NVSwitch 인터페이스가 적용되어 쌍방향 대역폭이 4.8TB에 이릅니다. 이는 426시간 분량의 HD 화질 비디오를 1초에 전송할 수 있는 대역폭입니다.

이전 세대인 V100 GPU와 비교할 때 쓰루풋이 20배가 더 높다 보니 GPU 성능도 비교 불가 수준입니다.

NVIDIA DGX A100

비즈니스 요구에 맞춰 확장

DGX A100의 성능 개선은 트레이닝, 인퍼런싱, 분석 등 모든 워크로드에서 두드러지게 나타납니다.

인프라가 갖추어야 할 보안 역시 DGX A100는 충실히 갖추고 있어 엔터프라이즈가 요구하는 보안성 요구 조건도 완벽하게 충족합니다.

NVIDIA DGX A100

DGX A100으로 클러스터를 구성하면 AI 데이터센터가 구축됩니다.

DGX A100은 클러스터 네트워킹을 위해 8개의 맬라녹스 싱글 포트 ConnectX-6 카드를 장착하고 있고,
스토리지 네트워킹을 위해 1개의 더블 포트 ConnectX-6 카드를 내장하고 있습니다.

강력한 네트워킹을 지원하므로 DGX A100을 랙 단위로 AI 슈퍼컴퓨터 인프라를 구성할 수 있습니다.

2개 랙으로 구성할 경우 최대 40 petaFLOPS 규모의 데이터센터가 구축됩니다.

NVIDIA DGX A100

NVLINK와 NVSWITCH가 함께 작동하는 방식

NVIDIA® NVLink®는 GPU 간 고속 직접 상호 연결입니다.
NVIDIA NVSwitch™는 여러 NVLink를 통합함으로써 NVIDIA HGX™ A100과 같은 단일 노드 내에서 올 투 올 GPU 통신을 최대 NVLink 속도로 제공하여 한 차원 높은 상호 연결성을 제공합니다.

NVIDIA는 NVLink와 NVSwitch를 조합하여 AI 성능을 효율적으로 여러 GPU로 확장하고 최초의 범산업 AI 벤치마크인 MLPerf 0.6을 획득할 수 있었습니다.

NVIDIA DGX A100
NVLink GPU 간 연결을 지원하는 NVIDIA A100
NVIDIA DGX A100
NVSwitch 토폴로지 다이어그램은 간단하게 이해할 수 있도록 두 GPU 간의 연결을 보여줍니다.
8장 또는 16장의 GPU는 모두 같은 방식으로 NVSwitch를 통해 올 투 올 연결됩니다.

Tesla A100 SPECIFICATIONS

  NVIDIA A100 for HGX NVIDIA A100 for PCIe
Peak FP64 9.7 TF 9.7 TF
Peak FP64 Tensor Core 19.5 TF 19.5 TF
Peak FP32 19.5 TF 19.5 TF
Peak TF32 Tensor Core 156 TF | 312 TF* 156 TF | 312 TF*
Peak BFLOAT16 Tensor Core 312 TF | 624 TF* 312 TF | 624 TF*
Peak FP16 Tensor Core 312 TF | 624 TF* 312 TF | 624 TF*
Peak INT8 Tensor Core 624 TOPS | 1,248 TOPS* 624 TOPS | 1,248 TOPS*
Peak INT4 Tensor Core 1,248 TOPS | 2,496 TOPS* 1,248 TOPS | 2,496 TOPS*
GPU Memory 40 GB 40 GB
GPU Memory Bandwidth 1,555 GB/s 1,555 GB/s
Interconnect NVIDIA NVLink 600 GB/s** NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s PCIe Gen4 64 GB/s
Multi-instance GPUs Various instance sizes with up to 7MIGs @5GB Various instance sizes with up to 7MIGs @5GB
Form Factor 4/8 SXM on NVIDIA HGX™ A100 PCIe
Max TDP Power 400W 250W
Delivered Performance of Top Apps 100% 90%
* With sparsity
** SXM GPUs via HGX A100 server boards, PCIe GPUs via NVLink Bridge for up to 2-GPUs
NVIDIA A100 for HGX
Ultimate performance for all workloads.
NVIDIA A100 for PCIe
Highest versatility for all workloads.