棋盘变战场，大模型却呆了？普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

机器之心 · 公众号 · AI · 2025-03-25 08:34

文章预览

当棋盘变成战场，当盟友暗藏心机，当谈判需要三十六计，AI 的智商令人叹息！近日，来自普林斯顿和德州大学奥斯丁分校最新评测基准 SPIN-Bench，用一套 "组合拳" 暴击了大模型的软肋。研究显示，即便是 o1、o3-mini、DeepSeek R1、GPT-4o、Claude 3.5 等顶尖大模型，在涉及战略规划和社会推理的复杂任务中集体 "自闭"。论文标题：SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially? 论文链接：https://arxiv.org/pdf/2503.12349 项目主页：https://spinbench.github.io 在过去的一年里，大语言模型（LLM）展现了令人惊叹的 "文本生成" 和 "智能代理" 能力。许多社区用户已经见到了各大模型的「百花齐放」：从高效的简单问答到多轮对话推理。然而，当我们谈到真正复杂的 "思考" 场景 —— 譬如需要在一个充满其他 "玩家"（人或智能体）的不确定环境中做出长程策略规划 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

量子位 · 字节把GPT-4o级图像生成能力开源了！

昨天

量子位 · 大模型首次打破围棋思维「黑盒」，打通科学发现新路径！上海AI Lab发布新一代InternThinker

2 天前

爱可可-爱生活 · 【[37星]InternLM/InternBootcamp：一个-20250523202251

2 天前

宝玉xp · 第三方评测：Claude 4 Opus 正式发布了，表现惊艳！我-20250523020021

3 天前

黄建同学 · Google推出Gemini.Diffusion后，这篇论文《L-20250522214331

3 天前

医药笔记 · 礼来市值突破8000亿美元，FDA专家委员会全票支持批准Donanemab

11 月前

风电日记 · 300MW风电制氢项目签约

10 月前

冰城新闻 · 明起公布！收藏！5个查询通道→

3 月前