看啥推荐读物
专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力

新智元  · 公众号  · AI  · 2024-01-18 12:25
  新智元报道  编辑:润 好困【新智元导读】来自纽约大学和UC伯克利的研究团队成功捕捉到了多模态大模型在视觉理解方面存在的重大缺陷。针对这个问题,他们进一步提出了一个将DINOv2特征与CLIP特征结合的方法,有效地提升了多模态大模型的视觉功能。Sam Altman在各种场合都提到,大语言模型的多模态能力,是未来AI技术能够造福人类的最亟待突破的领域。那么现在在多模态大模型的视觉功能能否达到与语言功能匹配的水平?当前多模态模型取得的进步很大程度上归功于大语言模型(LLM)的推理能力。但在视觉方面,模型往往只基于实例级别的对比语言-图像预训练(CLIP)。最近,来自纽约大学和UC伯克利的团队研究表明,多模态大语言模型(MLLM)在视觉处理方面仍存在普遍性的缺陷。其中,团队成员堪称「豪华」,除了领队谢赛宁外,共同 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照