视觉定位新范式！清华团队推出Migician，支持任意形式多图定位

量子位 · 公众号 · AI · 2025-02-21 23:30

文章预览

黄锴宇投稿至凹非寺量子位 | 公众号 QbitAI 一个眼神锁定你！多模态视觉定位能力升级—— 由单张图像拓展至多图像应用场景。比如，在复杂的相册中自动识别出Luigi并在第二张图中找到他，或是根据钢铁侠剧照自动在合影中找到对应的演员唐尼。 Q：Image-1 is the photo album of someone in Image-2, please find and locate this person. 回答：(371,146),(695,812) 又或者根据第一张图，找到第二张图同型号黑色款的车。 Q：Where did I park my car? It is the same type shown in the first image, except it is black in color. 结果它依旧回答出来了。 The car you parked is located at the entrance of the parking garage at (500,575),(650,735). 还能挖掘不同图像之间的联系，实现精准定位。来自清华NLP孙茂松团队、北京交通大学、华中科大联合提出了多模态视觉定位新范式—— Migician，作为第一个支持任意形式多图定位（Mul ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国人工智能学会 · 五四青年节丨中国人工智能学会祝福青年科技工作者节日快乐！

昨天

爱可可-爱生活 · 今日推介(第1760期)：用Rectified Softmax解-20250504061858

昨天

宝玉xp · 转发微博-20250503010530

3 天前

黄建同学 · 这肯定是未来： - 某个应用开发平台可以“自带所有电池”（bat-20250502214927

3 天前

宝玉xp · 做成了个天气 GPTs：网页链接输入城市名就可以获取当前天气并生-20250502125754

3 天前

中证鹏元评级 · 媒体报道 | 科创债发行提速年内发行量和规模同比大增

8 月前

江南晚报 · 一大波武汉好物来“锡”，武汉名优制造产品展销会今日启幕！

8 月前

广州日报 · 广东男子一个动作，“手肿成几倍大”，提醒：戴手套，72小时夺命

1 月前