文章预览
01 引言 deepseek近期推出了简单、统一且灵活的多模态框架Janus,它能够统一处理多模态理解和生成任务。与之前的研究不同的是,Janus将视觉编码解耦为独立的路径,并利用单一、统一的transformer架构进行处理。这种方法不仅缓解了视觉编码器在理解和生成任务中的冲突,还增强了框架的灵活性。 Janus采用了独立编码方法将纯文本理解、多模态理解和视觉生成分别转换为特征序列,并通过一个统一的自回归Transformers处理这些特征序列。对于纯文本理解任务,使用预训练模型中的分词器将文本转换为离散ID并获取每个ID对应的特征表示;对于多模态理解任务,使用SigLIP编码器从图像中提取高维语义特征并将它们展平成一维序列,然后使用理解适配器将这些图像特征映射到预训练模型的输入空间;对于视觉生成任务,使用VQ Tokenizer 将图像转换为离散ID,并
………………………………