CVPR 2024｜大视觉模型的开山之作！无需任何语言数据即可打造大视觉模型

小白学视觉 · 公众号 · · 2024-05-01 15:15

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达作者丨科技猛兽编辑丨极市平台极市导读本文提出一种序列建模 (sequential modeling) 的方法，不使用任何语言数据，训练大视觉模型。本文目录1 序列建模打造大视觉模型(来自 UCB，Johns Hopkins University)1 LVM 论文解读1.1 大视觉模型的特点是什么？1.2 LVM 数据集1.3 LVM 方法1：视觉 tokenizer1.4 LVM 方法2：自回归 Transformer 模型1.5 LVM 方法3：推理过程1.6 LVM 评测1：缩放性1.7 LVM 评测2：序列提示1.8 LVM 评测3：类比提示1.9 LVM 评测4：杂项提示太长不看版本文的首发日期是 2023.12，属于大视觉模型的开山之作行列。本文提出一种序列建模 (sequential modeling) 的方法，不使用任何语言数据，训练大视觉模型 (Large Vision Model, LVM)。作者定义了一种 "视觉句子 (Visual Sentences)"，它可以用于表征图像，视频 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博