文章预览
黄锴宇 投稿至 凹非寺 量子位 | 公众号 QbitAI 一个眼神锁定你!多模态视觉定位能力升级—— 由单张图像拓展至多图像应用场景。 比如,在复杂的相册中自动识别出Luigi并在第二张图中找到他,或是根据钢铁侠剧照自动在合影中找到对应的演员唐尼。 Q:Image-1 is the photo album of someone in Image-2, please find and locate this person. 回答:(371,146),(695,812) 又或者根据第一张图,找到第二张图同型号黑色款的车。 Q:Where did I park my car? It is the same type shown in the first image, except it is black in color. 结果它依旧回答出来了。 The car you parked is located at the entrance of the parking garage at (500,575),(650,735). 还能挖掘不同图像之间的联系,实现精准定位。 来自清华NLP孙茂松团队、北京交通大学、华中科大联合提出了多模态视觉定位新范式—— Migician,作为第一个支持任意形式多图定位(Mul
………………………………