文章预览
AI 算力竞争愈发白热化的 2025 年,英伟达在 2 月 25 日投下一枚技术核弹:基于 Blackwell 架构的 DeepSeek-R1-FP4 模型横空出世。 这项突破不仅让推理速度暴增 25 倍,更将成本压缩至传统方案的 1/20,彻底改写了 AI 部署的经济学规则。 传送门: https://huggingface.co/nvidia/DeepSeek-R1-FP4 FP4 + Blackwell:一场精度的艺术 传统 AI 模型普遍采用 FP16 或 FP8 精度,而 DeepSeek-R1-FP4 首次将权重和激活值量化至 FP4(4 位浮点) 。 通过英伟达 TensorRT-LLM 的优化,模型在 MMLU 基准测试中实现了 FP8 模型 99.8%的性能,却仅需 1/2 的显存和磁盘空间。 这种“用 4 位精度跑出 8 位效果”的黑科技,本质是通过动态量化策略,在计算关键路径保留高精度,而在非敏感区域极致压缩。 B200 碾压 H100:25 倍吞吐量神话 搭载 Blackwell 架构的 B200 GPU,配合 FP4 量化方案,交出了 21,088 token/秒 的
………………………………