专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
今天看啥  ›  专栏  ›  量子位

AMD跑DeepSeek性能超H200!128并发Token间延迟不超50ms,吞吐量达H200五倍

量子位  · 公众号  · AI  · 2025-03-25 11:37
    

文章预览

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI DeepSeek-R1掀起新一轮购卡潮的同时,AMD的含金量也上升了。 在AMD的MI300X上跑FP8满血R1, 性能全面超越了英伟达H200 —— 相同延迟下吞吐量最高可达H200的5倍,相同并发下则比H200高出75%。 这个结果,一方面归功于SGLang框架,另一方面则是得益于AMD新优化的AI内核库AITER。 AITER可以用来加速GPU训练和推理,AMD副总裁Emad Barsoum直接喊出了 AITER is all you need 。 还有网友表示,英伟达 CUDA的护城河要终结了 。 之前著名黑客 George Hotz 也曾表示自己非常看好AMD,认为只要有好的软件MI300X表现就能超越H100。 结果MI300X超额实现了George的期待,直接把H200给超了。 吞吐翻倍、延迟更低 AMD的测试结果显示,MI300X在延迟相似的情况下实现了H200五倍的吞吐量,超过了每秒7k Tokens。 如果固定并发数量,MI300X相同并发下的吞吐量比H200 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览