斯坦福打脸大模型数学水平：题干一改就集体降智，强如o1也失准，能力涌现怕不是检索题库

人工智能学家 · 公众号 · AI · 2025-01-05 18:08

文章预览

来源：量子位 | 公众号 QbitAI 奇月发自凹非寺只是换一下数学题的变量名称，大模型就可能集体降智？？斯坦福大学最新研究表明，在他们最新提出的 Putnam-AXIOM 测试集上，仅仅是更换一下原题目的变量名称、变量取值范围，模型的准确率就直线下降。也就是说，大模型的数学推理能力并不是真正掌握了解题逻辑，很可能只是检索已存储的题目…… 即使是表现最好的o1-preview，它的成绩也从50%下降到了33.96%，GPT-4o、Claude、Deepseek、Qwen等模型也几乎是全军覆没。要知道，模型推理能力的稳健性可是非常重要的指标，能代表他们是否真正掌握了解决方法：有网友锐评到：o1的o不会是overfitting的o吧？（doge）还有热心网友做了解释，他认为模型的搜索空间会随着深度指数级增长，搜索时间越长，搜索的难度也会更高。全新无污染的数学测试基准 LLM在 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博