专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
目录
相关文章推荐
京城事儿  ·  微信紧急提醒 ·  昨天  
今天看啥  ›  专栏  ›  大模型智能

Nature:「人类亲吻难题」彻底难倒LLM,所有大模型全部失败!LLM根本不会推理,只是工具

大模型智能  · 公众号  ·  · 2024-11-17 00:00
    

文章预览

大模型智能|分享 来源 | 新智元 编辑 | Aeneas 好困 LLM究竟是否拥有类似人类的符合理解和推理能力呢? 许多认知科学家和机器学习研究人员,都会认为,LLM表现出类人(或「接近类人」)的语言能力。 然而,来自帕维亚大学、柏林洪堡大学、得克萨斯大学休斯顿健康科学中心、纽约大学、巴塞罗那自治大学的研究者却提供了一些最全面的证据,表明目前它们基本没有! 论文地址:https://www.nature.com/articles/s41598-024-79531-8 基于一个全新的基准数据集,研究者对目前最先进的7个模型(包括GPT-4、Llama2、Gemini和 Bard)进行了评估。 他们让模型回答了理解性问题,在两种设置下多次被提示,允许模型只回答一个单词,或给出开放长度的回复。 约翰欺骗了玛丽,露西也被玛丽欺骗了。在这种情况下,玛丽是否欺骗了露西? 史蒂夫拥抱了莫莉,莫莉亲吻了唐 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览