专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
TodayRss-海外RSS-老用户7折
目录
今天看啥  ›  专栏  ›  数据派THU

一年后,DeepSeek-R1的每token成本降到了原来的1/32

数据派THU  · 公众号  · 大数据  · 2026-01-15 19:06
    

主要观点总结

英伟达通过协同利用运行在 Blackwell 架构上的推理软件栈,实现了 DeepSeek-R1 在多种应用场景中的性能增益。文章介绍了 DeepSeek-R1 模型的更新内容、特点以及英伟达如何优化其软件栈来提升模型性能。重点阐述了 NVIDIA TensorRT-LLM 软件和 GB200 NVL72 系统的协同作用,以及它们在提升 DeepSeek-R1 吞吐量的效果。还介绍了 NVFP4 数据格式的硬件加速和解耦服务等技术优化。最终,英伟达通过软硬件的深度协同,实现了 DeepSeek-R1 吞吐量的显著提升,降低了单 Token 的推理成本。

关键观点总结

关键观点1: DeepSeek-R1模型的更新及特点

DeepSeek-R1 是英伟达推出的开源推理大模型,拥有 6710 亿参数,采用 MoE 架构,训练效率显著提升。新版本公开了训练全路径,包括从冷启动到全场景对齐 RL 的四阶段 pipeline,以及数据化验证等。

关键观点2: 英伟达如何优化软件栈提升模型性能

英伟达通过优化软件栈,包括最新 NVIDIA TensorRT-LLM 软件和 GB200 NVL72 系统的协同,实现了 DeepSeek-R1 在多种应用场景中的性能增益。通过扩大 NVIDIA 程序化依赖启动、底层核函数优化和优化的 All-to-all 通信原语等技术,提升了吞吐量和降低了推理成本。

关键观点3: Blackwell 架构及 NVFP4 数据格式的硬件加速

Blackwell 架构通过多节点液冷机架级扩展系统、第五代 NVIDIA NVLink 互连技术和 NVLink Switch 芯片等技术,为 DeepSeek-R1 提供高性能支持。NVFP4 数据格式的硬件加速则能保持良好的精度同时提升性能。

关键观点4: 英伟达优化的成果

通过软硬件的深度协同,英伟达将 DeepSeek-R1 的吞吐量提升了约 36 倍,单 Token 的推理成本降低到了约 1/32。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照