AMD Instinct MI300X AI GPU 가속기 출시

728x90

AMD는 NVIDIA의 H100보다 최대 60% 향상된 성능을 제공하는 자사의 주력 AI GPU 가속기인 MI300X의 공식 출시를 발표했습니다.

MI300X는 H100보다 최대 60% 더 빠릅니다.

AMD instinct MI300 클래스 AI 가속기는 TSMC의 고급 패키징 기술을 활용하는 또 다른 강력한 칩이 됩니다. 오늘 AMD는 이러한 칩의 출시를 발표했을 뿐만 아니라 훌륭해 보이는 MI300X의 첫 번째 성능 벤치마크를 공유했습니다. AMD는 먼저 일반 사양을 비교 및 CDNA3 가속기 제공으로 사용했습니다.

일반적으로 LLM 커널 TFLOP에서 MI300X는 FlashAttention-2 및 Llama 2 70B에서 최대 20% 더 높은 성능을 제공합니다. 8x MI300X 솔루션과 8X H100 솔루션을 비교하는 플랫폼 관점에서 보면 Llama2 70B에서 훨씬 더 큰 40% 이득과 Bloom 176B에서 60% 이득을 볼 수 있습니다.

AMD는 훈련 성능에서 MI300X가 경쟁 제품과 동등하며 추론 워크로드에서 빛을 발하는 동시에 경쟁력 있는 가격, 성능을 제공한다고 언급합니다. 최신 MI300 가속기의 원동력은 ROCm6.0입니다. 소프트웨어 스택은 Generative AI 및 대규모 언어 모델과 같은 다양한 AI 워크로드에 대한 지원을 포함하는 강력한 새 기능을 갖춘 최신 버전으로 업데이트되었습니다.

새로운 소프트웨어 스택은 FP16, Bf16 및 FP8과 같은 최신 컴퓨팅 형식을 지원합니다. 최적화 기능이 결합되어 최적화된 추론 라이브러리를 통해 vLLM에서 최대 2.6배 속도 향상, 최적화된 런타임을 통해 HIP 그래프에서 1.4배 속도 향상, 최적화된 커널을 통해 1.3배 Flash Attention 속도 향상을 제공합니다. ROCm 6은 MI300 AI 가속기와 함께 이달 말에 출시될 예정입니다. ROCm6이 실제 경쟁자인 NVIDIA의 CUDA 스택의 최신 버전과 어떻게 비교되는지 보는 것은 흥미로울 것입니다.