专抓AI“看图说谎”，谷歌哥大用三类陷阱触发幻觉，打造可随技术发展动态演进的评估框架

量子位 · 公众号 · AI · 2025-03-28 18:01

文章预览

HaloQuest团队投稿量子位 | 公众号 QbitAI 幻觉（Hallucination），即生成事实错误或不一致的信息，已成为视觉-语言模型 (VLMs）可靠性面临的核心挑战。随着VLMs在自动驾驶、医疗诊断等关键领域的广泛应用，幻觉问题因其潜在的重大后果而备受关注。然而，当前针对幻觉问题的研究面临多重制约：图像数据集的有限性、缺乏针对多样化幻觉触发因素的综合评估体系，以及在复杂视觉问答任务中进行开放式评估的固有困难。为突破这些限制，来自哥伦比亚大学和Google DeepMind的研究团队提出了一种创新的视觉问答数据集构建方案。该方案通过整合真实图像与合成生成图像，利用基于提示的图像生成技术，克服了传统数据集（如MS-COCO和Flickr）在图像多样性和特殊性方面的局限。这一名为HaloQuest的数据集采用”机器-人工”协同的数据生成流程，重点收集了 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

黄建同学 · 戳视频了解强化学习三种方法的基本概念：RLHF：Reinforc-20250524172428

19 小时前

人工智能那点事 · 售罄！吴彦祖首次直播卖课，398的课卖了800多万

22 小时前

宝玉xp · 先能看出来好代码坏代码，知道怎么测试验证代码，然后出现问题能描述-20250524135033

23 小时前

量子位 · 巧妙！一个传统技术让国产视觉基础模型直接上大分

昨天

黄建同学 · Google推出Gemini.Diffusion后，这篇论文《L-20250522214331

2 天前

中国日报 · 别踩坑！DeepSeek官方发布声明

3 月前

行业研究报告 · 2025中国创新药械多元支付白皮书（附下载）

2 月前

新闻晨报 · 全天禁止员工用手机、吃饭必须在工位，这家公司被立案调查

1 月前