专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

马毅LeCun谢赛宁曝出多模态LLM重大缺陷！开创性研究显著增强视觉理解能力

新智元 · 公众号 · AI · 2024-01-18 12:25

新智元报道编辑：润好困【新智元导读】来自纽约大学和UC伯克利的研究团队成功捕捉到了多模态大模型在视觉理解方面存在的重大缺陷。针对这个问题，他们进一步提出了一个将DINOv2特征与CLIP特征结合的方法，有效地提升了多模态大模型的视觉功能。Sam Altman在各种场合都提到，大语言模型的多模态能力，是未来AI技术能够造福人类的最亟待突破的领域。那么现在在多模态大模型的视觉功能能否达到与语言功能匹配的水平？当前多模态模型取得的进步很大程度上归功于大语言模型（LLM）的推理能力。但在视觉方面，模型往往只基于实例级别的对比语言-图像预训练（CLIP）。最近，来自纽约大学和UC伯克利的团队研究表明，多模态大语言模型（MLLM）在视觉处理方面仍存在普遍性的缺陷。其中，团队成员堪称「豪华」，除了领队谢赛宁外，共同 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博