专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学

量子位  · 公众号  · AI  · 2025-02-23 12:07
    

文章预览

淘天集团未来生活实验室 投稿 量子位 | 公众号 QbitAI OpenAI o1视觉能力还是最强,模型们普遍“过于自信”! 这个结果来自首个面向事实知识的中文视觉问答基准 ChineseSimpleVQA 。 该基准测试包含2200个高质量问题,覆盖了8个主要话题和56个子话题,这些问题涉及从人文到科学和工程等多个领域,由淘天集团未来生活实验室团队推出。 据介绍,这是第一个系统性地衡量视觉大模型事实准确性的中文评测集,可以全面探测模型在各个领域的视觉识别能力和知识水平。 也是继提出Chinese SimpleQA 和Chinese SafetyQA之后,淘天集团算法技术未来生活实验室团队再次提出面向多模态大模型的事实知识评测基准。 1100幅图片和2200个问答对作为终版数据集 Chinese SimpleVQA贡献了一个严谨的数据构建流程,其将视觉事实性解耦为两个部分: 观察世界 (即主体识别) 发现知 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览