专栏名称: AIWalker
关注计算机视觉、图像处理、深度学习等领域的干货分享与前沿paper解读。AIWalker由具有多年算法研究与产品化落地经验的Happy运营,原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。
今天看啥  ›  专栏  ›  AIWalker

All-Seeing: 面向开放世界的全景物体感知和通用关系理解

AIWalker  · 公众号  ·  · 2024-03-20 22:00
关注「AIWalker」并星标从此AI不迷路来源 | OpenGVLab   作者 | weiyun wang实现通用人工智能(Artificial General Intelligence,AGI)是人工智能领域的终极目标。近期,以ChatGPT为代表的大语言模型(Large Language Model,LLM)在文本模态上取得了惊艳的性能。因此在多模态领域,出现了大量的工作尝试以LLM为核心来构建多模态感知模型。然而,这些工作提出的模型只能将图像作为整体进行感知,无法对其中的某个具体的区域或实例进行感知,这就导致用户和模型在针对图像中的某个实例进行提问或回答时,必须通过大量的文字描述来实现对该实例的指代,这极大地提高了交互的难度和成本。另一方面,近期的一些工作开始尝试将对“指针”的理解和预测融入现有的多模态感知模型。具体而言,用户和模型可以在文本中通过坐标框的形式来对图像中的特定实例进行指 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照