专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
今天看啥  ›  专栏  ›  新智元

苹果炮轰AI推理遭打脸,GitHub大佬神怒怼!复杂任务≠推理能力

新智元  · 公众号  · AI  · 2025-06-09 17:42
    

主要观点总结

苹果公司发表了一篇名为《思维的幻觉》的论文,指出推理大模型存在根本缺陷。对此,GitHub高级工程师Sean Goedecke持保留态度。他批评论文选择的汉诺塔测试并非判断推理能力的理想例子,且推理模型的复杂性阈值可能并非固定。他还指出,模型在面临复杂任务时的放弃行为并不代表其缺乏推理能力。同时,他也认同论文中的部分观点,例如推理模型在简单问题上的过度推理现象以及模型在长时间算法执行中的放弃行为。

关键观点总结

关键观点1: 苹果公司的论文指出推理模型存在根本缺陷。

该论文通过使用汉诺塔测试为例,展示了推理模型在面临复杂任务时的局限性。

关键观点2: GitHub高级工程师Sean Goedecke对论文持保留态度。

他认为汉诺塔测试并非判断推理能力的理想例子,且推理模型的复杂性阈值可能并非固定。

关键观点3: Sean Goedecke强调模型在面临复杂任务时的放弃行为并不代表其缺乏推理能力。

他认为这是模型在面对高度重复、枯燥任务时的正常反应,而非思维能力的缺失。

关键观点4: 论文中的部分观点得到Sean Goedecke的认同。

例如推理模型在简单问题上的过度推理现象以及模型在长时间算法执行中的放弃行为。

关键观点5: 论文提醒我们当前语言模型的推理能力远非通用智能。

如何定义和测试推理与思维能力是下一代AI必须直面的核心问题。


文章预览

   新智元报道   编辑:KingHZ 【新智元导读】 最近,苹果再次发文指出LLM推理的根本缺陷。相关解读,一夜刷屏。然而,GitHub高级软件工程师怒不可遏,怒斥相关「流言」。 最近,苹果公司发表了预印本论文,指出推理大模型存在重大缺陷。 昨天,Ruben Hassid发布了相关解读的X帖子,认为这是项突破性研究: 苹果证明了Claude等AI推理模型,根本不会思考。 这种解读在社交平台上广泛传播,浏览量已超过1000万,且仍在持续增长。 但这种解读翻车了! 在Reddit和黑客新闻,网友纷纷表示论文争议太大。 左右滑动查看 GitHub高级工程师Sean Goedecke,对该论文持保留态度,尽管他也认为语言模型不是通往超级智能(ASI)的理想路径。 最直接的例证是:当用DeepSeek-V3测试时,模型直接拒绝了要执行上千步的谜题推演 —— 这并非推理能力崩溃,反而说明模型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览