专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

TransMamba：跨架构训练实现Transformer知识向Mamba迁移，两阶段策略及多方法赋能单多模态任务 !

智驾实验室 · 公众号 · · 2025-04-20 08:22

文章预览

备注好友：方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群 Transformer架构在单模态和多模态基础模型中备受青睐，因其在注意力模块上的灵活可扩展性。因此，许多预训练的Transformer模型，例如LLaVA、CLIP和DEIT，已公开可用。近期研究引入了亚二次复杂度的架构，如Mamba，这使得全局感知具有线性复杂度。然而，从零开始训练特定任务的专业亚二次复杂度架构既耗费资源又耗时。作为推动因素，作者探索了跨架构训练的方法，将现有Transformer模型中的知识转移到替代架构Mamba中，称为TransMamba。作者的方法采用两阶段策略来加速训练新的Mamba模型，并确保其在单模态和跨模态任务中的有效性。针对架构差异，作者在转移知识之前将中间特征投影到对齐的潜在空间中。此外，作者提出了一种名为Weight Subcloning and Adaptive Bidirectional Distillation (WSAB)的方法 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博