计算机视觉最新论文今日论文推荐论文名:Adapting LLaMA Decoder to Vision Transformer论文链接:https://arxiv.org/pdf/2404.06773.pdf项目链接:https://github.com/techmonsterwang/iLLaMA导读2024 年是大型语言模型(LLMs)蓬勃发展的一年,也是视觉转换器(ViT)的四周年。ViT
于2020年诞生,通过将最初用于自然语言的转换器适应于处理非重叠图像块,革命性
地改变了计算机视觉领域。特别地,ViT的设计受到了当时流行的*编码器-仅*文本转换器(如BERT等)的影响。因此,ViT采用了编码器-仅设计,即自注意力不使用任何因果掩码。因此,先进的视觉背骨和训练范式自此默认遵循了这一约定。与此同时,文本转换器的开发也没有止步不前。一系列具有*解码器-仅*架构的LLMs,如
LLaMA、OPT 和PaLM,引发了一场新的浪潮。预训练的解码器-仅转换器在
各种文本任务中表现出了出色的可扩展性,
………………………………