专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

推理能力飙升，指令遵循暴跌？MathIF基准揭示大模型“服从性漏洞”

PaperWeekly · 公众号 · 科研 · 2025-06-09 13:33

文章预览

如果面前有两个 AI 助手：一个很聪明但经常不守规矩，另一个很听话但不太聪明，你会怎么选？最近，上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》，通过一个全新的评测基准 MathIF 揭示：大模型越擅长复杂推理，越容易忽略用户的指令要求，“ 聪明 ”和“ 听话 ”之间存在明显的矛盾。这项工作的灵感，源自实际使用推理模型（如 o3）过程中的一个意外发现：相比许多经过强化推理训练的大模型，GPT-4o 在执行具体指令时反而更加“听话” 。也正是这种“越聪明、越不听话”的真实体验，让研究团队开始系统性地研究推理能力与指令跟随之间的关系。论文地址： https://arxiv.org/pdf/2505.14810 Github地址： https://github.com/TingchenFu/MathIF 这一研究也引来 𝕏 知名 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博