专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
今天看啥  ›  专栏  ›  量子位

为多模态LLM引入ControlNet理念,开源插件解决灾难性遗忘 | AAAI

量子位  · 公众号  · AI  · 2024-12-17 12:04
    

主要观点总结

本文介绍了由360人工智能研究院提出的内嵌适配器架构(IAA)解决多模态大模型内嵌语言模型的灾难性遗忘问题。IAA作为一种插件添加到基座语言模型上,实现在不影响语言模型原有能力的前提下,提升多模态能力。文章还介绍了当前多模态大模型的主流结构及其缺点,以及IAA如何克服这些问题。

关键观点总结

关键观点1: 多模态大模型内嵌语言模型的灾难性遗忘问题

当前多模态大模型在提升多模态理解能力时,会导致原有文本能力的下降。这是因为为了提升性能,内嵌的语言模型参数在多模态训练中会参与学习,导致灾难性遗忘问题。

关键观点2: IAA的核心思路

IAA的提出是为了解决多模态大模型内嵌语言模型的灾难性遗忘问题。它将多模态理解能力以插件的形式添加到基座语言模型上,保持模型原有能力的同时提升多模态能力。

关键观点3: IAA的优势

IAA的优势在于它避免了灾难性遗忘问题,降低了部署成本。通过部署一套模型权重,可以在进行文本任务和多模态任务时灵活切换。

关键观点4: 关于360人工智能研究院的介绍

研究院在多模态理解和多模态生成大模型的研发上持续发力,陆续研发了360VL多模态大模型等一系列工作。近日,研究院在多模态理解方向的工作IAA被AI领域的top会议AAAI接收。


文章预览

冷大炜 投稿 量子位 | 公众号 QbitAI 多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办? 像文生图那样有ControlNet即可解决。 这就是由360人工智能研究院提出的 IAA 的核心思路。该研究成果已被AAAI接收,并且开源。 IAA工作的思路,就是希望能把多模态理解能力像文生图领域中的ControlNet一样, 作为插件添加到基座的语言模型之上 ,从而实现在完全不影响语言模型原有能力的前提下,实现多模态能力的插件化,并进一步形成一种全新的语言模型生态体系。 针对语言模型研究全新插件控制机制 当前的多模态大模型(LMM:Large Multimodal Model)主流采取的是以LLaVA系列为代表的桥接式结构: 视觉编码器与LLM之间通过模态桥接器projector进行连接实现多模态理解能力 。 桥接式结构的优点是结构简单,训练成本低(几十万微调数据即可实现基本的图像理解能 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览