본문 바로가기
IT

AMD MI300 성능 H100보다 얼마나 빠른가

by 지후니니 2023. 12. 12.
728x90
반응형

MI300X가 드디어 출시되어 큰 호응을 얻고 있습니다. Oracle, Meta 및 마이크로소프트와 같은 고객을 포함하여 여기에 볼륨과 ASP에 대해 논의한 많은 고객 발표되었습니다. 구성 및 아키텍처는 지난 6월에 게시되었습니다. 사양에서 MI300X는 30% 더 많은 FP8 FLOPS, 60% 더 많은 메모리 대역폭, 2배 이상의 메모리 용량으로 H100을 압도합니다. 물론 MI300X는 H200에 비해 더 많이 팔리는데 이는 메모리 대역폭 격차를 한 자릿수 범위로 줄이고 용량은 40% 미만으로 줄입니다. 

 

 

물론 FLOPS, 용량 및 대역폭은 잠재적인 기능일 뿐입니다. AMD는 몇 가지 다른 벤치마크를 보여줬는데 주요 주제는 이론상 최고 성능에 비해 여전히 상당히 낮다는 것입니다. AMD는 두 가지 다른 추론 벤치마크를 보여주었습니다. 하나는 높은 배치 크기와 처리량이었고, 다른 하나는 가능한 가장 낮은 대기 시간이었습니다.

 

 

 

마지막 벤치 마크는 LLAMA 2-13B입니다. 여기서 성능 향상은 20%이며 여기서 주의할 점은 많지 않습니다. MI300X가 더 저렴합니다. H200은 격차를 좁힐 가능성이 높습니다. AMD는 소프트웨어 스택의 약간의 약점을 보여줍니다. MI300이 사용할 수 있는 이론적 FLOPS의 30% 미만에 달성합니다. 한편 Nvidia는 종종 40% 달성합니다. 그만큼 성능이 부족합니다.  몇 가지 이유 때문에 그들의 성능은 Nvidia와 일치합니다. 가장 큰 이유 중 하나는 AMD가 GEMM 워크로드에서 이론적 FLOPS의 절반 정도만 얻을 수 있다는 것입니다. 다른 하나는 FlashAttention2가 여전히 역방향 패스에서는 잘 작동하지 않는다는 것입니다. 곧 출시될 예정이지만 이를 어렵게 만드는 구조적 차이가 있습니다. AMD의 L1 캐시는 두 배로 늘어났지만 LDS의 크기는 여전히 동일합니다. Nvidia의 더 큰  공유 메모리에 비해 FA2를 작동시키는 것이 여전히 더 어렵습니다. 

 

 

 

시간이 지나면 이것이 의미있게 개선될 것으로 기대합니다. 일반적으로 우리는 특히 GEMM의 경우 Triton  성능이 향상되는 것을 지켜보고 있습니다. OpenAI와 마이크로소프트가 추론을 위해 AMD MI300을 많이 사용할 것이기 때문에 이는 큰 문제입니다. 또한 명확하게 말하면 Eager 모드와 Torch.compile은 대부분의 기존 모델에 대한 훈련,  미세 조정 및 추론 측면에서 대부분의 모델에서 작동하지만 성능 최적화가 부족합니다. 몇 달 안에 우리는 AMD의 성능이 H100에 비해 계속해서 향상될 것이라고 확신합니다. H200은 재설정되었지만 MI300은 더 많은 소프트웨어 최적화를 통해 여전히 전반적으로 승리할 것입니다. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

728x90