32B击败DeepSeek-R1、o3-mini，成本暴降100倍！GRPO让小模型称霸推理

机器学习算法与自然语言处理 · 公众号 · · 2025-03-08 00:21

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。来源 | 新智元编辑 | 桃子好困用上DeepSeek核心算法，也能击败R1。在具有挑战性的「时间线索」（Temporal Clue）逻辑谜题中，基于强化学习微调后的Qwen 2.5 32B，推理能力完全碾压o1、o3-mini、R1。甚至，它还追平了Claude 3.7 Sonnet，整个模型推理成本暴降100多倍！「时间线索」逻辑谜题脱胎于经典桌游Clue，并加入了when、why的两个全新维度，堪称逻辑推理的「珠穆朗玛峰」。它不仅能考验模型基本推理能力，更爆料顶级大模型软肋。对此，前谷歌工程师，初创OpenPipe联创Kyle Corbitt和团队将其作为模型的「终极试 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国农业银行陕西省分行 · 【知识】借记卡账户分类？分几类？有什么区别？分分钟了解！

12 月前

AIGC开放社区 · GPT-4系列模型，在文档理解中的多维度评测

11 月前

循因缉药 · 再见，Invitae

9 月前

猫来了 · 秋风起，又到了铲屎官战斗的时候……网友：这谁家的猫毛又吹到了我家？

8 月前

大道无形我有型 · 持有=买入是个fact，不是个观点，不需要解释。-20241005113636

8 月前