专栏名称: 猿大侠
猿大侠,既然选择了,就一定成为大侠! 小程序、小游戏、Google、苹果、职场、前沿技术分享,一起成长。
今天看啥  ›  专栏  ›  猿大侠

16张H100训26分钟,超越o1-preview!李飞飞等用1K样本,揭秘测试时Scaling

猿大侠  · 公众号  ·  · 2025-02-07 12:37
    

文章预览

转自:新智元 编辑:犀牛 【导读】 大模型推理性能的提升,真的只能靠堆数据、加算力吗?李飞飞等用仅1000个样本微调模型,并提出预算强制(budget forcing)技术,成功让推理能力随测试计算量增加而提升。他们的s1-32B模型在多个基准测试中超越闭源模型OpenAI o1-preview,成为目前最具样本效率的推理模型。 OpenAI o系列模型为何性能如此强大? OpenAI将他们的方法描述为使用大规模强化学习(RL),暗示使用了大量的数据。 最近大火的DeepSeek-R1模型也通过使用数百万个样本和多个训练阶段使用强化学习的方式,成功地达到了o1级别的性能。 然而,至今为止没有人公开成功复现清晰的测试时扩展行为。 那么问题来了,实现测试时扩展和强推理性能的最简单方法是什么? 近日,来自斯坦福大学、华盛顿大学、Ai2等机构的研究人员发表了一篇题为「s1: Simpl ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览