MI300X가 드디어 출시되어 큰 호응을 얻고 있습니다. Oracle, Meta 및 마이크로소프트와 같은 고객을 포함하여 여기에 볼륨과 ASP에 대해 논의한 많은 고객 발표되었습니다. 구성 및 아키텍처는 지난 6월에 게시되었습니다. 사양에서 MI300X는 30% 더 많은 FP8 FLOPS, 60% 더 많은 메모리 대역폭, 2배 이상의 메모리 용량으로 H100을 압도합니다. 물론 MI300X는 H200에 비해 더 많이 팔리는데 이는 메모리 대역폭 격차를 한 자릿수 범위로 줄이고 용량은 40% 미만으로 줄입니다.
물론 FLOPS, 용량 및 대역폭은 잠재적인 기능일 뿐입니다. AMD는 몇 가지 다른 벤치마크를 보여줬는데 주요 주제는 이론상 최고 성능에 비해 여전히 상당히 낮다는 것입니다. AMD는 두 가지 다른 추론 벤치마크를 보여주었습니다. 하나는 높은 배치 크기와 처리량이었고, 다른 하나는 가능한 가장 낮은 대기 시간이었습니다.
마지막 벤치 마크는 LLAMA 2-13B입니다. 여기서 성능 향상은 20%이며 여기서 주의할 점은 많지 않습니다. MI300X가 더 저렴합니다. H200은 격차를 좁힐 가능성이 높습니다. AMD는 소프트웨어 스택의 약간의 약점을 보여줍니다. MI300이 사용할 수 있는 이론적 FLOPS의 30% 미만에 달성합니다. 한편 Nvidia는 종종 40% 달성합니다. 그만큼 성능이 부족합니다. 몇 가지 이유 때문에 그들의 성능은 Nvidia와 일치합니다. 가장 큰 이유 중 하나는 AMD가 GEMM 워크로드에서 이론적 FLOPS의 절반 정도만 얻을 수 있다는 것입니다. 다른 하나는 FlashAttention2가 여전히 역방향 패스에서는 잘 작동하지 않는다는 것입니다. 곧 출시될 예정이지만 이를 어렵게 만드는 구조적 차이가 있습니다. AMD의 L1 캐시는 두 배로 늘어났지만 LDS의 크기는 여전히 동일합니다. Nvidia의 더 큰 공유 메모리에 비해 FA2를 작동시키는 것이 여전히 더 어렵습니다.
시간이 지나면 이것이 의미있게 개선될 것으로 기대합니다. 일반적으로 우리는 특히 GEMM의 경우 Triton 성능이 향상되는 것을 지켜보고 있습니다. OpenAI와 마이크로소프트가 추론을 위해 AMD MI300을 많이 사용할 것이기 때문에 이는 큰 문제입니다. 또한 명확하게 말하면 Eager 모드와 Torch.compile은 대부분의 기존 모델에 대한 훈련, 미세 조정 및 추론 측면에서 대부분의 모델에서 작동하지만 성능 최적화가 부족합니다. 몇 달 안에 우리는 AMD의 성능이 H100에 비해 계속해서 향상될 것이라고 확신합니다. H200은 재설정되었지만 MI300은 더 많은 소프트웨어 최적화를 통해 여전히 전반적으로 승리할 것입니다.
'IT' 카테고리의 다른 글
게임용 RTX 4060 TI와 같이 쓰면 좋은 CPU (11) | 2023.12.14 |
---|---|
자오신 Zhaoxin KX-7000 CPU 출시 (1) | 2023.12.13 |
Core Ultra 9 185H Meteor Lake CPU 유출 (16) | 2023.12.11 |
Intel Core Ultra 7 155H 및 Core Ultra 5 125H CPU 벤치마크 (3) | 2023.12.10 |
Intel 144 코어 Sierra Forest Xeon CPU 유출 (2) | 2023.12.09 |