16张H100训26分钟，超越o1-preview！李飞飞等用1K样本，揭秘测试时Scaling

猿大侠 · 公众号 · · 2025-02-07 12:37

文章预览

转自：新智元编辑：犀牛【导读】大模型推理性能的提升，真的只能靠堆数据、加算力吗？李飞飞等用仅1000个样本微调模型，并提出预算强制（budget forcing）技术，成功让推理能力随测试计算量增加而提升。他们的s1-32B模型在多个基准测试中超越闭源模型OpenAI o1-preview，成为目前最具样本效率的推理模型。 OpenAI o系列模型为何性能如此强大？ OpenAI将他们的方法描述为使用大规模强化学习（RL），暗示使用了大量的数据。最近大火的DeepSeek-R1模型也通过使用数百万个样本和多个训练阶段使用强化学习的方式，成功地达到了o1级别的性能。然而，至今为止没有人公开成功复现清晰的测试时扩展行为。那么问题来了，实现测试时扩展和强推理性能的最简单方法是什么？近日，来自斯坦福大学、华盛顿大学、Ai2等机构的研究人员发表了一篇题为「s1: Simpl ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

瑞恩IPO上市 · 60家香港上市「物业公司」市值排行及股市表现 (20250430)

7 小时前

瑞恩IPO上市 · 60家香港上市「物业公司」市值排行及股市表现 (20250430)

7 小时前

重庆之声 · 永辉发布整改说明：情况属实，10倍补偿！

3 天前

重庆之声 · 永辉发布整改说明：情况属实，10倍补偿！

3 天前

21世纪商业评论 · 上海迪士尼68元鸭腿，成性价比套餐

4 天前

上海产业政策服务 · 青浦区2024年度工业规模扶持资金项目的公示

11 月前

杭州本地宝 · 杭州地铁直达的6个免费室内场馆！

4 月前

专知 · 交通大模型综述

2 月前