专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
今天看啥  ›  专栏  ›  人工智能学家

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准,能力涌现怕不是检索题库

人工智能学家  · 公众号  · AI  · 2025-01-05 18:08
    

文章预览

来源:量子位 | 公众号 QbitAI 奇月 发自 凹非寺 只是换一下数学题的变量名称,大模型就可能集体降智?? 斯坦福大学最新研究表明,在他们最新提出的 Putnam-AXIOM 测试集上,仅仅是更换一下原题目的变量名称、变量取值范围,模型的准确率就直线下降。 也就是说,大模型的数学推理能力并不是真正掌握了解题逻辑,很可能只是检索已存储的题目…… 即使是表现最好的o1-preview,它的成绩也从50%下降到了33.96%,GPT-4o、Claude、Deepseek、Qwen等模型也几乎是全军覆没。 要知道,模型推理能力的稳健性可是非常重要的指标,能代表他们是否真正掌握了解决方法: 有网友锐评到:o1的o不会是overfitting的o吧?(doge) 还有热心网友做了解释,他认为模型的搜索空间会随着深度指数级增长,搜索时间越长,搜索的难度也会更高。 全新无污染的数学测试基准 LLM在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览