专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

斯坦福揭秘o1-preview软肋！数学竞赛题稍作修改，准确率骤降30%

新智元 · 公众号 · AI · 2025-01-31 13:21

主要观点总结

斯坦福大学最近研究发现，对数学竞赛题目稍作修改就能大幅降低大模型「尖子生」o1-preview的准确率。OpenAI的o1-preview模型在数学、编程等领域表现出强大的推理能力，但在面对普特南数学竞赛题的变体时却表现出不适应。研究团队设计了Putnam-AXIOM基准来评估AI大模型的数学能力，发现即使是顶尖的AI模型在面对数学问题灵活变化时的适应性也较差。

关键观点总结

关键观点1: o1-preview模型在面对普特南数学竞赛题稍作修改后的准确率大幅下降。

对题目中的变量、常量等要素稍作修改，o1-preview模型的准确率就立即大幅下降，降幅高达30%。这反映出当前顶尖AI模型在面对数学问题灵活变化时的适应性较差。

关键观点2: Putnam-AXIOM基准用于评估AI大模型的数学能力。

研究团队设计了Putnam-AXIOM基准来评估AI大模型的数学能力，这个基准包括普特南数学竞赛的原题和通过程序化修改生成的变体题，能够精准探测AI的数学推理能力。

关键观点3: 顶级AI模型在变体题上的表现不升反降。

在Putnam-AXIOM基准测试中，除了o1-preview模型外，其他模型的准确率也出现了显著滑坡。这反映出当前AI模型在面对超出熟悉套路的数学问题时，其适应性有待提高。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

机器之心 · 刚刚，杨植麟亲自开源Kimi K2.5！国产大模型打架的一天

13 小时前

新智元 · DeepSeek又拿第一！首创「因果流」视觉推理，超越Gemini

15 小时前

新智元 · 破防了！全球顶尖AI惨败，人类最后防线竟是「重启试试」？

20 小时前

量子位 · AI招聘逆天研究：看照片预测一生职业成就

昨天

新智元 · 再见，人类程序员！OpenAI自曝：一行代码都不写了，100%用Codex

昨天

摩知轮 · 重要发布 |《北京市中小企业集聚区知识产权服务工作指引（试行）》发布

1 年前

懒人医考 · 【中西医】笔试备考：占50分的外科，证治概要章节考点汇总

1 年前

EDopamine · 两个主唱的“器乐乐队”

1 年前

小乐淘金 · 彩礼未来20年只会越来越高，比房价走势还要强。

8 月前

杭州交通918 · 广东一私房菜馆被曝宰杀活猫煲“龙虎凤”？当地回应：未发现相关食材，餐馆停业整顿

2 月前