今天看啥  ›  专栏  ›  机器之心

ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力

机器之心  · 公众号  · AI  · 2025-05-20 12:58
    

主要观点总结

文章主要讨论了多模态大语言模型(MLLMs)在处理多模态信息时的表现,特别是其在深度视觉与文本融合方面的缺陷。文章以一个物理问题为例,说明了当前MLLMs在理解视觉信息方面的不足,并介绍了EMMA基准测试的目的和意义。EMMA数据集旨在评估MLLMs在多模态推理方面的能力,尤其是其在数学、物理、化学和代码等领域的表现。文章还提到了当前多模态智能面临的技术瓶颈和未来发展趋势。

关键观点总结

关键观点1: 多模态大语言模型在处理深度视觉与文本融合方面的挑战

当前的多模态大语言模型在处理涉及深度视觉与文本融合的问题时表现不足,无法有效进行需要深度视觉与文本融合的复杂多模态推理。

关键观点2: EMMA基准测试的目的和意义

EMMA基准测试旨在全面评估多模态大语言模型在跨模态推理方面的能力,尤其是其在数学、物理、化学和代码等四大领域的表现。该测试通过精心设计的考题,旨在全面考察模型在跨模态推理方面的能力,并揭示其在处理视觉信息方面的不足。

关键观点3: EMMA数据集的特点

EMMA数据集包含从现有基准中严格筛选的问题以及与相关领域专家合作手动构建的问题,共计2,788个问题。每个问题都被赋予了细致的技能标签,以便对模型的各项能力进行深入分析。数据集的构建过程经过精心设计,旨在确保其能够有效评估深层多模态推理能力。

关键观点4: 当前多模态智能面临的技术瓶颈和未来发展趋势

当前多模态智能面临两个重要的技术瓶颈:一是视觉和文本之间信息密度和抽象层次的巨大差异,导致多模态模型在预训练阶段难以实现模态特征的精准对齐和融合;二是模型普遍缺乏视觉信息生成与动态交互的能力,难以实现真正意义上的跨模态互动与视觉状态的实时更新。未来多模态智能的发展趋势将是从现有的语言主导推理模式逐步转向更深入的模态间动态协作模式。


文章预览

「三个点电荷 + Q、-2Q 和 + 3Q 等距放置,哪个向量最能描述作用在 + Q 电荷上的净电力方向?」 在解这道题时,我们可以通过绘制受力分析草图轻松解决。但即使是先进的多模态大语言模型,如 GPT-4o,也可能在理解「同性相斥」的基本物理原则时,错误地判断斥力的方向(例如,错误地将 + 3Q 对 + Q 的斥力方向判断为右下方而非正确的左上方)。 这个看似简单的物理问题,却暴露了多模态大模型一个「致命缺陷」: 当前的 MLLMs 仍然无法进行需要深度视觉与文本融合的复杂多模态推理 !一项最新研究推出的 EMMA 基准测试,如同一面「照妖镜」,揭示了即使是顶尖 MLLMs 也在这关键能力上显著不足。 目前该研究已被 ICML 2025 接收为 spotlight,代码数据已全部开源 ! 标题: Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark 论文链接: https:/ ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览