NVIDIA DGX Systems

#DGX A100 #미루웨어 #NVSWITCH #K8s #MW OST #MW Stack

NVIDIA DGX-1

NVIDIA DGX-1 딥 러닝 슈퍼컴퓨터

인공지능을 위한 Deep Learning Platform

NVIDIA® DGX-1™는 세계 최초로 딥 러닝을 목적으로 설계되고 최적화된 Deep Learning Platform으로, 연구개발자들이 빠르고 손쉽게 딥 러닝 연구를 할 수 있도록 하드웨어와 소프트웨어가 완전히 통합된 제품입니다. 데이터 과학자와 인공지능 연구자들은 딥 러닝 연구의 성공을 위해 정확성, 단순성, 빠른 성능을 필요로 합니다. 딥 러닝은 궁극적으로 보다 빠른 혁신과 시장대응 (Time-To-Market)을 가능하게 해줍니다. 또한 DGX-1은 세계 최초의 Deep Learning 용 슈퍼컴퓨터로써 학습 시간을 놀라운 수준으로 단축시켜주는 혁신적인 성능을 제공합니다.

성능수치 면에서 2개의 Intel Xeon CPU를 사용하는 서버 대비 DGX-1의 성능은 56배 이상 우수합니다. 실제로 AlexNet을 사용하여 이미지 인식 학습시간을 측정했을 때 무려 75배 빠르다는 결과가 나왔습니다. 이는 엄청난 속도 향상과 함께 높은 투자대비 효과를 얻을 수 있음을 뜻합니다.
비교 항목  Dual Xeon DGX-1
FLOPS(CPU+GPU) 3TF 170 TF
PROC-PROC BW 25 GB/s 640 GB/s
*ALEXNET TRAIN TIME 150 HOURS 2 HOURS

*AlexNet : Neural Network for Image Recognition

DGX-1 하드웨어

NVIDIA DGX-1은 NVIDIA Pascal™혁신 기술을 사용하는 Tesla® P100 가속기를 NVIDIA NVLink™로 서로 연결해서 구현한 최초의 시스템입니다.
Pascal은 세상을 배우고, 보고, 시뮬레이션 하는, 무한대의 컴퓨팅 능력이 필요한 컴퓨터를 위한 엔진으로 설계되었습니다.

NVIDIA® NVLink™ 는 CPU와 GPU, 또는 GPU 간의 초고속 커뮤니케이션을 지원하는 높은 대역폭과 에너지 효율이 특징인 인터커넥트입니다. 이를 통해 데이터 병목현상을 해소할 수 있습니다.

현재의 GPU가 이용하는 PCI Express(PCIe) 인터페이스와 달리 일반적인 CPU 메모리 시스템의 대역폭에 부합하는 속도를 낼 수 있어 GPU가 최대한의 대역폭으로 CPU 메모리에 접근할 수 있게 해줍니다.

해당 기술은 기존의 PCle Gen3 인터커넥트 보다 5~12배 빠른 속도의 데이터 공유를 가능하게 하고 GPU 가속 애플리케이션을 더욱 빠르게 실행할 수 있게 합니다.

DGX-1 상세 사양

component 수량 상세 내역
Base Server 1 Dual Intel Xeon CPU motherboard with x2 9.6 GT/s QPI, 8 Channel with 2 DPC DDR4, IntelX99 Chipset, AST2300 BMC
1 GPU Baseboard supporting 8 SXM2 modules (Cube Mesh) and 4 PCIE x 16 slots for InfiniBand NICs
1 Chassis with 3+1 1600W Power supply and support for up to 12 2.5 inch drives
1 10/100 BASE-T (GbE) IPMI Port
1 COM Port
2 USB 3.0 Ports
Power Supply 4 1600 W ea. (3+1 redundancy)
CPU 2 Intel Xeon E5-2698 v4(20-core, 2.2GHz, 135W)
GPU 8 Tecla GP100
- 170 teraflops, FP16
- 16 GB memory per GPU
- 28,672 NVIDIA Cores (FP32 CUDA Core = 3584 per GUP)
System Memory 16 2133 MHz 32GB DDR4 LRDIMM (512 GB total)
SAS Raid Controller 1 8 port LSI SAS 3108 RAID Mezzanine
Storage (Date) 4 1.92TB, 6 GB/s, Samsung PM863 6 Gb/s SATA 3.0 SSD(RAID 0)
Storage (OS) 1 480 GB, 6GB.s, Intel S3610 6 Gb/s SATA 3.0 SSD
10 Gbe NIC 1 Dual port, 10GBASE-T, X540 Mezzanine
InfiniBand EDR NIC 4 Single port, x16 PCle, Mellanox ConnextX-4 VPI MCX455A-ECAT
NVIDIA DGX-1

DGX-1 사전설치 소프트웨어

NVIDIA DGX-1는 모든 주요 딥 러닝 프레임워크, NVIDIA 딥 러닝 SDK, DIGITS™ GPU 트레이닝 시스템, 드라이버, 딥 뉴럴 네트워크(DNN)의 빠른 설계를 위한 CUDA® 등을 가속화하는 라이브러리를 포함한 소프트웨어 스택이 사전 설치되어 있습니다. 또한 컨테이너 생성 및 배치, 시스템 업데이트, 애플리케이션 저장소 관리 등을 위한 클라우드 관리 서비스까지 포함되어 있습니다.

테슬라 GPU로 구동되는 각 소프트웨어의 역량이 합쳐져 기존의 어떤 GPU로 가속화된 솔루션보다 최대 10배 이상 빠른 속도로 애플리케이션을 구동할 수 있습니다.

NVIDIA DGX-1

Caffe, TensoFlow, MS CNTK 등과 같은 다양한 Deep Learning Framework들이 NVDocker라는 컨테이너에 독립적으로 구성되어 있어 상호 간섭 없이 사용할 수 있습니다. NVIDIA DIGITS는 컴퓨터 비전 데이터 분석가와 엔지니어에게 복잡한 이미지 분류 문제를 해결할 수 있게 해줍니다.

DIGITS는 어떠한 코드도 작성하지 않고 최고의 DNN(Deep Neural Network)을 디자인 하게 합니다.

NVIDIA Deep Learning SDK는 GPU 가속 Deep Learning Application을 구현하기 위한 강력한 툴과 라이브러리를 제공합니다. 여기에는 Deep Learning 기본 구성요소(cuDNN) 및 GPU 추론 엔진(GIE), 선형대수(cuBLAS), 희소행렬 연산(cuSPARSE), 다중GPU 통신(NCCL) 등을 위한 라이브러리와 완벽한 CUDA C&C++ 개발환경(CUDA Toolkit)이 포함되어 있습니다.

특히 CUDA Toolkit은 GPU 가속 Application을 구축하는 C와 C++ 개발자를 위한 포괄적인 개발환경을 제공합니다. 이 Toolkit에는 NVIDIA GPU를 위한 컴파일러와 디버깅 툴, math 라이브러리, 그리고 어플리케이션의 성능을 최적화하는 툴이 포함되어 있습니다.

DGX-1 제공 가치

한계를 뛰어넘는 컴퓨팅 기술
NVIDIA DGX-1은 획기적인 차세대 Pascal™ 아키텍쳐 기반인 NVIDIA Tesla® P100 GPU 가속기로 구축된 첫 번째 시스템으로, NVIDIA NVLink™를 통해 GPU가 상호연결 됩니다. NVIDIA Pascal 아키텍처는 세상을 보고 배우고 시뮬레이트하는 컴퓨터의 핵심 엔진이 되도록 설계 되었습니다.
DGX-1 하나의 머신으로 딥 러닝을 위한 모든 인프라와 플랫폼을 제공합니다.

투자 대비 효과 극대화
CPU만 사용할 경우 수십 대에서 수백 대가 필요한 시스템을 단 한 대의 DGX-1이 해결해 줍니다. 따라서 NVIDIA DGX-1은 도입 비용 면에서 CPU만 사용하는 서버 시스템 보다 월등히 경제적이고 데이터센터 상면과 전력비용 등 TCO를 현격히 줄여줍니다. 하드웨어와 소프트웨어 지원서비스를 통해 NVIDIA 딥 러닝 전문 지식, 클라우드 관리 필수 요소(essentials), 소프트웨어 업그레이드와 업데이트를 제공할 뿐 아니라, 정상 운영을 저해하는 문제 발생 시 우선적으로 해결함으로 높은 가용성을 제공합니다.

빠르고 간단한 배치
일체형인 NVIDIA DGX-1 시스템은 별도의 물리적 설정 없이 설치만 하면 그대로 사용할 수 있음으로 스위치를 켜고 딥 러닝을 액세스하는 데까지 불과 몇 분 걸리지 않습니다.

보다 빠른 업무 혁신
고성능의 딥 러닝 트레이닝 가속으로 보다 빠른 시장 분석 (Time-To-Insight), 시장대응(Time-To-Market) 등의 생산성이 높아집니다.
실제로 DGX-1을 사용하면 딥 러닝 트레이닝에 필요한 시간이 수십 배에서 수백 배 단축되어 인공지능 서비스를 효과적으로 제공할 수 있습니다.