为被榨干！英伟达下场优化 DeepSeek-R1，B200 性能暴增 25 倍，成本更更低

程序员的那些事 · 公众号 · 程序员 · 2025-02-28 08:14

文章预览

AI 算力竞争愈发白热化的 2025 年，英伟达在 2 月 25 日投下一枚技术核弹：基于 Blackwell 架构的 DeepSeek-R1-FP4 模型横空出世。这项突破不仅让推理速度暴增 25 倍，更将成本压缩至传统方案的 1/20，彻底改写了 AI 部署的经济学规则。传送门： https://huggingface.co/nvidia/DeepSeek-R1-FP4 FP4 + Blackwell：一场精度的艺术传统 AI 模型普遍采用 FP16 或 FP8 精度，而 DeepSeek-R1-FP4 首次将权重和激活值量化至 FP4（4 位浮点）。通过英伟达 TensorRT-LLM 的优化，模型在 MMLU 基准测试中实现了 FP8 模型 99.8%的性能，却仅需 1/2 的显存和磁盘空间。这种“用 4 位精度跑出 8 位效果”的黑科技，本质是通过动态量化策略，在计算关键路径保留高精度，而在非敏感区域极致压缩。 B200 碾压 H100：25 倍吞吐量神话搭载 Blackwell 架构的 B200 GPU，配合 FP4 量化方案，交出了 21,088 token/秒的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博