AMD跑DeepSeek性能超H200！128并发Token间延迟不超50ms，吞吐量达H200五倍

量子位 · 公众号 · AI · 2025-03-25 11:37

文章预览

克雷西发自凹非寺量子位 | 公众号 QbitAI DeepSeek-R1掀起新一轮购卡潮的同时，AMD的含金量也上升了。在AMD的MI300X上跑FP8满血R1，性能全面超越了英伟达H200 —— 相同延迟下吞吐量最高可达H200的5倍，相同并发下则比H200高出75%。这个结果，一方面归功于SGLang框架，另一方面则是得益于AMD新优化的AI内核库AITER。 AITER可以用来加速GPU训练和推理，AMD副总裁Emad Barsoum直接喊出了 AITER is all you need 。还有网友表示，英伟达 CUDA的护城河要终结了。之前著名黑客 George Hotz 也曾表示自己非常看好AMD，认为只要有好的软件MI300X表现就能超越H100。结果MI300X超额实现了George的期待，直接把H200给超了。吞吐翻倍、延迟更低 AMD的测试结果显示，MI300X在延迟相似的情况下实现了H200五倍的吞吐量，超过了每秒7k Tokens。如果固定并发数量，MI300X相同并发下的吞吐量比H200 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博