본문 바로가기
IT

AMD Instinct MI300X AI GPU 가속기 출시

by 지후니니 2023. 12. 7.
728x90
반응형

 

 AMD는 NVIDIA의 H100보다 최대 60% 향상된 성능을 제공하는 자사의 주력 AI GPU 가속기인 MI300X의 공식 출시를 발표했습니다. 

 

 

MI300X는 H100보다 최대 60% 더 빠릅니다. 

 

 

 AMD instinct MI300 클래스 AI 가속기는 TSMC의 고급 패키징 기술을 활용하는 또 다른 강력한 칩이 됩니다. 오늘 AMD는 이러한 칩의 출시를 발표했을 뿐만 아니라 훌륭해 보이는 MI300X의 첫 번째 성능 벤치마크를 공유했습니다. AMD는 먼저 일반 사양을 비교 및 CDNA3 가속기 제공으로 사용했습니다. 

 

 

일반적으로 LLM 커널 TFLOP에서 MI300X는 FlashAttention-2 및 Llama 2 70B에서 최대 20% 더 높은 성능을 제공합니다. 8x MI300X 솔루션과 8X H100 솔루션을 비교하는 플랫폼 관점에서 보면 Llama2 70B에서 훨씬 더 큰 40% 이득과 Bloom 176B에서 60% 이득을 볼 수 있습니다. 

 

AMD는 훈련 성능에서 MI300X가 경쟁 제품과 동등하며 추론 워크로드에서 빛을 발하는 동시에 경쟁력 있는 가격, 성능을 제공한다고 언급합니다. 최신 MI300 가속기의 원동력은 ROCm6.0입니다. 소프트웨어 스택은 Generative AI 및 대규모 언어 모델과 같은 다양한 AI 워크로드에 대한 지원을 포함하는 강력한 새 기능을 갖춘 최신 버전으로 업데이트되었습니다. 

 

새로운 소프트웨어 스택은  FP16, Bf16 및 FP8과 같은 최신 컴퓨팅 형식을 지원합니다. 최적화 기능이 결합되어 최적화된 추론 라이브러리를 통해 vLLM에서 최대 2.6배 속도 향상, 최적화된 런타임을 통해 HIP 그래프에서 1.4배 속도 향상, 최적화된 커널을 통해 1.3배 Flash Attention 속도 향상을 제공합니다. ROCm 6은 MI300 AI 가속기와 함께 이달 말에 출시될 예정입니다. ROCm6이 실제 경쟁자인 NVIDIA의 CUDA 스택의 최신 버전과 어떻게 비교되는지 보는 것은 흥미로울 것입니다. 

 

AMD Instinct MI300X

AMD Instinct MI300X는 AI 부문 내 NVIDIA의 Hopper와 Intel의 Gaudi 가속기를 대상으로 하기 때문에 가장 주목받을 칩입니다. 이 칩은 CDNA3 아키텍처로만 설계되었으며 많은 일이 진행되고 있습니다. 이 칩은 5nm와 6nm IP를 혼합하여 호스팅할 예정이며, 모두 결합하여 최대 1530억 개의 트랜지스터를 제공합니다. 

 

 

설계부터 시작하여 메인 인터포저는 4세대 Infinity Fabric 솔루션을 사용하여 인터커넥트 레이어를 수용하는 패시브 다이로 배치됩니다. 인터포저에는 8개의 HBM3 패키지, HBM 패키지 사이에 있는 16개의 더미 다이, 4개의 활성 다이를 포함하는 총 28개의 다이가 포함되어 있으며 각 활성 다이는 2개의 컴퓨팅 다이를 갖습니다. 

 

CDNA3 GPU 아키텍처를 기반으로 하는 각 GCD는 2560개 코어에 해당하는 총 40개의 컴퓨팅 유닛을 갖추고 있습니다. 총 8개의 컴퓨팅 다이가 있으므로 총 320개의 컴퓨팅 및 20,480개의 코어 유닛을 제공할 수 있습니다. 수율을 위해 AMD는 이러한 코어의 작은 부분을 축소할 예정이며 총 19,456개의 스트림 프로세서에 대해 총 304개의 컴퓨팅 유닛이 활성화되는 것을 볼 수 있습니다. 

728x90