专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
今天看啥  ›  专栏  ›  机器之心

棋盘变战场,大模型却呆了?普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

机器之心  · 公众号  · AI  · 2025-03-25 08:34
    

文章预览

当棋盘变成战场,当盟友暗藏心机,当谈判需要三十六计,AI 的智商令人叹息! 近日,来自普林斯顿和德州大学奥斯丁分校 最新评测基准 SPIN-Bench,用一套 "组合拳" 暴击了大模型的软肋。 研究显示, 即便是 o1、o3-mini、DeepSeek R1、GPT-4o、Claude 3.5 等顶尖大模型,在涉及战略规划和社会推理的复杂任务中集体 "自闭"。 论文标题:SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially? 论文链接:https://arxiv.org/pdf/2503.12349 项目主页:https://spinbench.github.io 在过去的一年里,大语言模型(LLM)展现了令人惊叹的 "文本生成" 和 "智能代理" 能力。许多社区用户已经见到了各大模型的「百花齐放」:从高效的简单问答到多轮对话推理。 然而,当我们谈到真正复杂的 "思考" 场景 —— 譬如需要在一个充满其他 "玩家"(人或智能体)的不确定环境中做出长程策略规划 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览