Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

大模型智能 · 公众号 · · 2024-11-17 00:00

文章预览

大模型智能｜分享来源 | 新智元编辑 | Aeneas 好困 LLM究竟是否拥有类似人类的符合理解和推理能力呢？许多认知科学家和机器学习研究人员，都会认为，LLM表现出类人（或「接近类人」）的语言能力。然而，来自帕维亚大学、柏林洪堡大学、得克萨斯大学休斯顿健康科学中心、纽约大学、巴塞罗那自治大学的研究者却提供了一些最全面的证据，表明目前它们基本没有！论文地址：https://www.nature.com/articles/s41598-024-79531-8 基于一个全新的基准数据集，研究者对目前最先进的7个模型（包括GPT-4、Llama2、Gemini和 Bard）进行了评估。他们让模型回答了理解性问题，在两种设置下多次被提示，允许模型只回答一个单词，或给出开放长度的回复。约翰欺骗了玛丽，露西也被玛丽欺骗了。在这种情况下，玛丽是否欺骗了露西？史蒂夫拥抱了莫莉，莫莉亲吻了唐 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博