专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

全球首个,最接近原版DeepSeek开源复现来了!R1四个月狂飙26倍

新智元  · 公众号  · AI  · 2025-05-08 16:38
    

主要观点总结

文章介绍了来自SGLang、英伟达等机构的联合团队在DeepSeek模型上的技术报告,他们在短短4个月内让DeepSeek-R1在H100上的性能提升了26倍。文章详细描述了他们的技术方法和优化方案,包括并行设计、数据并行、专家并行负载均衡等,并给出了具体的评估结果和局限性。

关键观点总结

关键观点1: 团队使用SGLang推理优化,成功地在短短4个月内提升了DeepSeek-R1在H100上的性能。

使用最新的SGLang推理优化技术,成功实现了DeepSeek模型在H100上的性能提升。这一成果是通过一系列的技术方法和优化方案实现的,包括并行设计、数据并行、专家并行等。

关键观点2: 团队使用了高效的并行设计,包括注意力层、稠密前馈网络(FFN)、稀疏FFN以及语言模型(LM)的头部等关键组件的并行化策略。

为了提高计算效率和内存利用率,团队对DeepSeek模型的关键组件进行了并行化设计。这包括注意力层的数据并行策略、稠密FFN和稀疏FFN的专家并行策略,以及语言模型头部的并行设计。

关键观点3: 团队使用数据并行(DP)策略来优化内存效率和计算性能。

数据并行策略被广泛应用于DeepSeek模型的优化中,包括注意力层、稠密FFN等。这种策略可以提高内存利用率和计算性能,同时简化跨设备的通信过程。

关键观点4: 团队开发了专家并行负载均衡器(EPLB)来解决专家并行引起的负载不均衡问题。

为了克服专家并行导致的负载不均衡问题,团队开发了专家并行负载均衡器(EPLB)。EPLB可以根据专家分布的统计信息,计算出专家的最佳排列方式,从而最大限度地减少不平衡现象。

关键观点5: 团队进行了广泛的评估,展示了其优化方案的有效性。

团队使用DeepSeek-V3模型进行了广泛的评估,包括预填充阶段和解码阶段的性能评估,以及与DeepSeek的性能分析数据的对比。评估结果证明了其优化方案的有效性。


文章预览

   新智元报道   编辑:Aeneas 好困 【新智元导读】 近日, 来自SGLang、英伟达等机构的联合团队发了一篇万字技术报告:短短4个月,他们就让DeepSeek-R1在H100上的性能提升了26倍,吞吐量已非常接近DeepSeek官博数据! DeepSeek的含金量还在上升。 就在最近,Hugging Face联创、首席科学家Thomas Wolf表示—— DeepSeek的出现,是开源AI领域的ChatGPT时刻! 用他的话说,「正如ChatGPT让全世界认识到AI的存在,DeepSeek则让全世界意识到,原来还有着这样一个充满活力的开源社区。」 DeepSeek-R1的性能已经媲美甚至超越美国最顶尖的闭源AI模型,对于全球AI圈来说,这件事的意义都极其深远。 与此同时,来自SGLang、英伟达等机构的数十人联合团队,也在DeepSeek上整了个大活。 在短短4个月内,他们利用最新的SGLang推理优化,直接让DeepSeek-R1在H100上的性能提升了26倍! 这是怎 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览