文章预览
MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 来源 | 新智元 编辑 | 桃子 好困 用上DeepSeek核心算法,也能击败R1。 在具有挑战性的「时间线索」(Temporal Clue)逻辑谜题中,基于强化学习微调后的Qwen 2.5 32B,推理能力完全碾压o1、o3-mini、R1。 甚至,它还追平了Claude 3.7 Sonnet,整个模型推理成本暴降100多倍! 「时间线索」逻辑谜题脱胎于经典桌游Clue,并加入了when、why的两个全新维度,堪称逻辑推理的「珠穆朗玛峰」。 它不仅能考验模型基本推理能力,更爆料顶级大模型软肋。 对此,前谷歌工程师,初创OpenPipe联创Kyle Corbitt和团队将其作为模型的「终极试
………………………………