专栏名称: 程序员的那些事
最有影响力的程序员自媒体,关注程序员相关话题:IT技术、IT职场、在线课程、学习资源等。
今天看啥  ›  专栏  ›  程序员的那些事

为被榨干!英伟达下场优化 DeepSeek-R1,B200 性能暴增 25 倍,成本更更低

程序员的那些事  · 公众号  · 程序员  · 2025-02-28 08:14
    

文章预览

AI 算力竞争愈发白热化的 2025 年,英伟达在 2 月 25 日投下一枚技术核弹:基于 Blackwell 架构的  DeepSeek-R1-FP4  模型横空出世。 这项突破不仅让推理速度暴增 25 倍,更将成本压缩至传统方案的 1/20,彻底改写了 AI 部署的经济学规则。 传送门: https://huggingface.co/nvidia/DeepSeek-R1-FP4 FP4 + Blackwell:一场精度的艺术 传统 AI 模型普遍采用 FP16 或 FP8 精度,而 DeepSeek-R1-FP4 首次将权重和激活值量化至  FP4(4 位浮点) 。 通过英伟达 TensorRT-LLM 的优化,模型在 MMLU 基准测试中实现了 FP8 模型 99.8%的性能,却仅需 1/2 的显存和磁盘空间。 这种“用 4 位精度跑出 8 位效果”的黑科技,本质是通过动态量化策略,在计算关键路径保留高精度,而在非敏感区域极致压缩。 B200 碾压 H100:25 倍吞吐量神话 搭载 Blackwell 架构的 B200 GPU,配合 FP4 量化方案,交出了  21,088 token/秒 的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览