文章预览
2024-11-01 08:15
本条微博链接
今年我读了大量 VLM 论文🫶 这是自 Llava 1.0 发布以来对 VLM 趋势的简短调查🤗 ⏯️视频 LM 和交错文本与视频多图像:VLM 现在接受交错的文本-视频-图像,有些接受没有交错格式的视频。 交错模型示例:Idefics3、Llava-Next Interleave 视频模型示例:LongVU、Video-Llava ✨多视觉编码器:一些模型结合了多个视觉编码器输出并选择和融合一些表示。 例如:BRAVE、MiniGemini、DocOwl 🔍用于检索的 VLM:我们可以
………………………………