文章预览
今天是2024年9月29日,星期日,北京,天气晴。 最近看到一张图,关于现有多模态大模型进展,其一般构造中设计两个预训练组件:大型语言模型(LLM backbone):为VLM提供语言理解能力的组件。视觉编码器(Vision encoder):为VLM提供图像理解能力的组件。 《Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models》 ,https://arxiv.org/html/2409.17146v1,https://arxiv.org/abs/2409.17146, 里面提到一张图,对不同VLMs在开放性方面的差异进行对比,可以品一品。 从中可以看到不同VLMs在开放性方面的差异,以及它们是否能够不依赖专有技术完全独立地存在和复现。这个大模型的开放性的定义很有趣,开放性是基于两个属性来描述的: 开放权重(Open weights),表示模型的权重参数是否可以公开获取;开放数据和代码(Open data and code),表示模型的训练数据和代码
………………………………