o3 都要来了还能做点什么？人大&蚂蚁团队：自下而上数据合成让大模型能够多模态推理

AI科技评论 · 公众号 · 科技创业科技自媒体 · 2024-12-25 14:43

主要观点总结

本文介绍了来自中国人民大学高瓴人工智能学院和蚂蚁技术研究院的研究团队在视觉推理领域的研究成果。他们提出了一种“由浅入深”的视觉推理范式，旨在提升视觉语言模型的推理能力。研究团队基于该范式设计了一种自下而上的数据合成方法，并开源了包含百万量级推理链的数据集。该成果在多个视觉问答基准测试集上取得了显著的性能提升。

关键观点总结

关键观点1: 研究背景

随着视觉语言模型的发展，其在多项任务上展现出卓越性能，但在一些复杂场景下，如需要进行多模态推理的任务中，仍面临挑战。当前视觉语言模型在处理某些具体任务时仍面临局限性，例如识别图像中细微物体、准确计数等。

关键观点2: 研究内容

研究团队提出了一种“由浅入深”的视觉推理范式，通过任务分解的思想，将复杂问题系统地拆解为一系列可控的子问题。研究团队设计了一种自下而上的数据合成方法，能够低成本合成高质量视觉推理链数据。该方法包括实体识别、多级节点构建、子问题设计和主问题合成等步骤。

关键观点3: 实验效果

研究团队在四个具有代表性的基准测试集上进行了系统性评估，实验结果证明了“由浅入深”推理框架的显著优势。该框架在所有任务类型上均实现了显著性能提升，并具有模型适应性。此外，实验还表明训练数据规模的增大有助于性能提升。

关键观点4: 创新点

研究团队提出的“由浅入深”视觉推理范式和自下而上的数据合成方法是一种全新的解决思路，能够显著提升视觉语言模型的推理能力。该框架具有即插即用的特性，无需修改原有模型架构，可在任意视觉语言模型上应用。

文章预览

此项研究成果已被 EMNLP 2024 录用。该论文的第一作者是中国人民大学高瓴人工智能学院硕士生程传奇，目前为蚂蚁技术研究院实习生，其主要研究领域为对话系统和多模态大模型。蚂蚁技术研究院副研究员关健为共同第一作者。在满血版o1发布大概两个星期之后，OpenAI又预告了其后继模型o3的到来，让人们对AGI的实现充满了期待。除了强大的语言推理能力外，满血版o1的一项重要能力是能够进行多模态推理，即从“所见”、“所思”到“所得”。然而，在语言推理的研发已经进行得如火如荼之际，多模态推理的研究似乎正方兴未艾。多模态推理的基础是多模态大模型，其中以视觉语言模型（Visual Language Models）最为受到关注。然而，当前的视觉语言模型在处理某些具体任务时仍面临挑战。例如，在识别图像中细微物体、准确计数等场景下，即使OpenAI- ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博