大模型高考数学真实水平曝光：最后一题全体"滑铁卢"，看来AI想考清北也难

知危 · 公众号 · 科技媒体 · 2025-06-11 23:06

主要观点总结

关键观点总结

文章预览

还记得你高考时被数学最后几道大题支配的恐惧吗？今天，知危编辑部想让各个 AI 大模型也尝尝滋味。这并不是整活儿，大模型在推理上天天高呼 “ 取代程序员 ”、“ 取代人类科学家 ” ，那从实际层面，它们真的有那么强吗？他们能赢得过大学生最巅峰状态 —— 高考时的状态吗？知危通过 2025 年高考数学全国卷一卷的最后 5 道解答题（总分 77 分），对当前主流大语言模型的数学推理能力进行了系统性评测。测试题目涵盖了统计学、数列、立体几何、解析几何和三角函数等多个数学领域，对于考察模型在概率计算、证明推理、空间几何分析、参数优化等方面的表现，能提供一些线索。另外，关于推理模型的有趣特性，也通过答题有所展现。本次参与评测的模型包括：Gemini 2.5 Preview、智谱Z1、豆包1.5、Claude 4 Sonnet、Qwen3-235B-A22B、DeepS ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新浪科技 · 【#李斌称蔚来是最不愿意卷价格的#】蔚来创始人李斌在#第十七届轩-20250613112609

16 小时前

亿欧网 · “云知声”通过港交所聆讯，CEO黄伟称“人工智能是我一辈子的事业”

昨天

新浪科技 · 【#小米手机产量即将反超苹果##iPhone一季度全球减产40%-20250612193623

昨天

新浪科技 · 【#哪吒汽车公司1.99亿票据违约#】据媒体报道，不少哪吒汽车员-20250612120131

昨天

36氪 · 体验了一天iOS 26后，我劝安卓们这回别学了

2 天前

神外资讯 · 【Day1-08:30直播】第13届东方神经病学会议，欢迎参会！

1 年前

氧叔本叔 · 哪位化妆师，才能真正放大颜巅期热巴的美貌？

10 月前