今天看啥  ›  专栏  ›  爱范儿

50 美元复制 DeepSeek?揭开李飞飞团队的「省钱」的秘密

爱范儿  · 公众号  · 科技媒体  · 2025-02-11 17:55
    

文章预览

50 美元 创造奇迹? DeepSeek 以低成本训练出高性能模型成为开年重头戏,但没想到春节之后还有高手,最近李飞飞团队用 50 美元「复制」DeepSeek R1 的词条也一度冲上了热搜。 但很快,细心网友从公布的研究论文中发现,这个说法颇有断章取义之嫌,所谓李飞飞团队研发出来的 S1-32B 推理模型实际上是在 Qwen2.5-32b-Instruct 模型基础上进行监督微调得来。 项目地址:https://github.com/simplescaling/s1 而微调模型与从零造模型的区别不亚于玩了一个文字游戏。 甚至研究论文压根并未提及 50 美元成本,论文中提到模型在 16 块 Nvidia H100 GPU 上训练了 26 分钟,这可能是最靠近 50 美元说法的成本。 但这笔支出还未计入其他数据、设备、消融实验等费用。 深入研究这篇论文还发现,除了监督微调,研究团队引入了测试时缩放(Test-time Scaling)技术,特别是「预算强制」 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览