专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

全球首个，最接近原版DeepSeek开源复现来了！R1四个月狂飙26倍

新智元 · 公众号 · AI · 2025-05-08 16:38

主要观点总结

文章介绍了来自SGLang、英伟达等机构的联合团队在DeepSeek模型上的技术报告，他们在短短4个月内让DeepSeek-R1在H100上的性能提升了26倍。文章详细描述了他们的技术方法和优化方案，包括并行设计、数据并行、专家并行负载均衡等，并给出了具体的评估结果和局限性。

关键观点总结

关键观点1: 团队使用SGLang推理优化，成功地在短短4个月内提升了DeepSeek-R1在H100上的性能。

使用最新的SGLang推理优化技术，成功实现了DeepSeek模型在H100上的性能提升。这一成果是通过一系列的技术方法和优化方案实现的，包括并行设计、数据并行、专家并行等。

关键观点2: 团队使用了高效的并行设计，包括注意力层、稠密前馈网络（FFN)、稀疏FFN以及语言模型（LM）的头部等关键组件的并行化策略。

为了提高计算效率和内存利用率，团队对DeepSeek模型的关键组件进行了并行化设计。这包括注意力层的数据并行策略、稠密FFN和稀疏FFN的专家并行策略，以及语言模型头部的并行设计。

关键观点3: 团队使用数据并行（DP）策略来优化内存效率和计算性能。

数据并行策略被广泛应用于DeepSeek模型的优化中，包括注意力层、稠密FFN等。这种策略可以提高内存利用率和计算性能，同时简化跨设备的通信过程。

关键观点4: 团队开发了专家并行负载均衡器（EPLB）来解决专家并行引起的负载不均衡问题。

为了克服专家并行导致的负载不均衡问题，团队开发了专家并行负载均衡器（EPLB）。EPLB可以根据专家分布的统计信息，计算出专家的最佳排列方式，从而最大限度地减少不平衡现象。

关键观点5: 团队进行了广泛的评估，展示了其优化方案的有效性。

团队使用DeepSeek-V3模型进行了广泛的评估，包括预填充阶段和解码阶段的性能评估，以及与DeepSeek的性能分析数据的对比。评估结果证明了其优化方案的有效性。

文章预览

新智元报道编辑：Aeneas 好困【新智元导读】近日，来自SGLang、英伟达等机构的联合团队发了一篇万字技术报告：短短4个月，他们就让DeepSeek-R1在H100上的性能提升了26倍，吞吐量已非常接近DeepSeek官博数据！ DeepSeek的含金量还在上升。就在最近，Hugging Face联创、首席科学家Thomas Wolf表示—— DeepSeek的出现，是开源AI领域的ChatGPT时刻！用他的话说，「正如ChatGPT让全世界认识到AI的存在，DeepSeek则让全世界意识到，原来还有着这样一个充满活力的开源社区。」 DeepSeek-R1的性能已经媲美甚至超越美国最顶尖的闭源AI模型，对于全球AI圈来说，这件事的意义都极其深远。与此同时，来自SGLang、英伟达等机构的数十人联合团队，也在DeepSeek上整了个大活。在短短4个月内，他们利用最新的SGLang推理优化，直接让DeepSeek-R1在H100上的性能提升了26倍！这是怎 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博