专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

苹果炮轰AI推理遭打脸，GitHub大佬神怒怼！复杂任务≠推理能力

新智元 · 公众号 · AI · 2025-06-09 17:42

主要观点总结

苹果公司发表了一篇名为《思维的幻觉》的论文，指出推理大模型存在根本缺陷。对此，GitHub高级工程师Sean Goedecke持保留态度。他批评论文选择的汉诺塔测试并非判断推理能力的理想例子，且推理模型的复杂性阈值可能并非固定。他还指出，模型在面临复杂任务时的放弃行为并不代表其缺乏推理能力。同时，他也认同论文中的部分观点，例如推理模型在简单问题上的过度推理现象以及模型在长时间算法执行中的放弃行为。

关键观点总结

关键观点1: 苹果公司的论文指出推理模型存在根本缺陷。

该论文通过使用汉诺塔测试为例，展示了推理模型在面临复杂任务时的局限性。

关键观点2: GitHub高级工程师Sean Goedecke对论文持保留态度。

他认为汉诺塔测试并非判断推理能力的理想例子，且推理模型的复杂性阈值可能并非固定。

关键观点3: Sean Goedecke强调模型在面临复杂任务时的放弃行为并不代表其缺乏推理能力。

他认为这是模型在面对高度重复、枯燥任务时的正常反应，而非思维能力的缺失。

关键观点4: 论文中的部分观点得到Sean Goedecke的认同。

例如推理模型在简单问题上的过度推理现象以及模型在长时间算法执行中的放弃行为。

关键观点5: 论文提醒我们当前语言模型的推理能力远非通用智能。

如何定义和测试推理与思维能力是下一代AI必须直面的核心问题。

文章预览

新智元报道编辑：KingHZ 【新智元导读】最近，苹果再次发文指出LLM推理的根本缺陷。相关解读，一夜刷屏。然而，GitHub高级软件工程师怒不可遏，怒斥相关「流言」。最近，苹果公司发表了预印本论文，指出推理大模型存在重大缺陷。昨天，Ruben Hassid发布了相关解读的X帖子，认为这是项突破性研究：苹果证明了Claude等AI推理模型，根本不会思考。这种解读在社交平台上广泛传播，浏览量已超过1000万，且仍在持续增长。但这种解读翻车了！在Reddit和黑客新闻，网友纷纷表示论文争议太大。左右滑动查看 GitHub高级工程师Sean Goedecke，对该论文持保留态度，尽管他也认为语言模型不是通往超级智能（ASI）的理想路径。最直接的例证是：当用DeepSeek-V3测试时，模型直接拒绝了要执行上千步的谜题推演 —— 这并非推理能力崩溃，反而说明模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 知道你看到图下面这张图的 3 种模式有何感想，我只想说现在你用 -20250611002447

昨天

人工智能产业链union · 【AI加油站】第十四部：《LLM 应用开发实践笔记》（附下载）

昨天

人工智能产业链union · 【AI加油站】第十四部：《LLM 应用开发实践笔记》（附下载）

昨天

爱可可-爱生活 · 【[88星]VibeKit：安全运行AI编码Agent的强大工具-20250610140824

昨天

宝玉xp · 回复@LiXia99ye:主流模型都可以的，比如 GPT-4o、-20250609000251

3 天前

爱可可-爱生活 · 《爱可可微博热门分享(6.8)》爱可可微博热门分享(6.8)-20250608223856

3 天前

武汉本地宝 · 2025春节档电影汇总！附湖北电影券领取时间、入口

4 月前

寂地 · 事情再多，也要有慢慢做的从容，停下休息的勇气。

3 月前

北京交通广播 · 303km/h！小米SU7Ultra车主城市道路飙车？客服回应

3 月前

云南新闻广播 · 云南将构建“8-4-3-2”全民健身赛事活动体系组织1496场全民健身赛事活动

2 月前