多模态大模型事实正确性评估：o1最强，模型普遍过于自信，最擅长现代建筑/工程技术/科学

量子位 · 公众号 · AI · 2025-02-23 12:07

文章预览

淘天集团未来生活实验室投稿量子位 | 公众号 QbitAI OpenAI o1视觉能力还是最强，模型们普遍“过于自信”！这个结果来自首个面向事实知识的中文视觉问答基准 ChineseSimpleVQA 。该基准测试包含2200个高质量问题，覆盖了8个主要话题和56个子话题，这些问题涉及从人文到科学和工程等多个领域，由淘天集团未来生活实验室团队推出。据介绍，这是第一个系统性地衡量视觉大模型事实准确性的中文评测集，可以全面探测模型在各个领域的视觉识别能力和知识水平。也是继提出Chinese SimpleQA 和Chinese SafetyQA之后，淘天集团算法技术未来生活实验室团队再次提出面向多模态大模型的事实知识评测基准。 1100幅图片和2200个问答对作为终版数据集 Chinese SimpleVQA贡献了一个严谨的数据构建流程，其将视觉事实性解耦为两个部分：观察世界（即主体识别）发现知 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 转发微博-20250515121435

16 小时前

爱可可-爱生活 · 今日推介(第1771期)：大语言模型的概率一致性、用长上下文语言-20250515061432

22 小时前

宝玉xp · 根据 The Information 的报道，Anthropic-20250515012923

昨天

宝玉xp · 转发微博-20250513232008

2 天前

量子位 · AI无限生成《我的世界》，玩家动动键盘鼠标自主控制！国产交互式世界模型来了

2 天前

绿色青浦 · 劳动者医疗期满后，单位提出解除劳动合同，要支付经济补偿吗？

11 月前

福布斯 · 揭秘：马斯克xAI超算工厂的落地内幕

10 月前

江大白 · 超越SAM-2！仅需一张参考图像，实现视频分割的任意颗粒度控制与时间一致性（附论文及源码）

5 月前

环保之家 · 免费危废称重、打印标签！三合一打印机1000，全国各省物联网功能免费

5 月前

奇爱博士 · 春节档销售大战打响，《射雕》率先过千万。 -20250119100548

3 月前