专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
今天看啥  ›  专栏  ›  PaperWeekly

推理能力飙升,指令遵循暴跌?MathIF基准揭示大模型“服从性漏洞”

PaperWeekly  · 公众号  · 科研  · 2025-06-09 13:33
    

文章预览

如果面前有两个 AI 助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么选? 最近,上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》,通过一个全新的评测基准  MathIF  揭示: 大模型越擅长复杂推理,越容易忽略用户的指令要求,“ 聪明 ”和“ 听话 ”之间存在明显的矛盾。 这项工作的灵感,源自实际使用推理模型(如 o3)过程中的一个意外发现:相比许多经过强化推理训练的大模型,GPT-4o 在执行具体指令时反而更加“听话” 。也正是这种“越聪明、越不听话”的真实体验,让研究团队开始系统性地研究推理能力与指令跟随之间的关系。 论文地址: https://arxiv.org/pdf/2505.14810 Github地址: https://github.com/TingchenFu/MathIF 这一研究也引来 𝕏 知名 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览