专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
今天看啥  ›  专栏  ›  智驾实验室

TransMamba:跨架构训练实现Transformer知识向Mamba迁移,两阶段策略及多方法赋能单多模态任务 !

智驾实验室  · 公众号  ·  · 2025-04-20 08:22
    

文章预览

备注好友: 方向-学校/公司-姓名/昵称 【AIGC 先锋科技】交流群 Transformer架构在单模态和多模态基础模型中备受青睐,因其在注意力模块上的灵活可扩展性。因此,许多预训练的Transformer模型,例如LLaVA、CLIP和DEIT,已公开可用。近期研究引入了亚二次复杂度的架构,如Mamba,这使得全局感知具有线性复杂度。然而,从零开始训练特定任务的专业亚二次复杂度架构既耗费资源又耗时。 作为推动因素,作者探索了跨架构训练的方法,将现有Transformer模型中的知识转移到替代架构Mamba中,称为TransMamba。作者的方法采用两阶段策略来加速训练新的Mamba模型,并确保其在单模态和跨模态任务中的有效性。 针对架构差异,作者在转移知识之前将中间特征投影到对齐的潜在空间中。此外,作者提出了一种名为Weight Subcloning and Adaptive Bidirectional Distillation (WSAB)的方法 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览