主要观点总结
本文介绍了由360人工智能研究院提出的内嵌适配器架构(IAA)解决多模态大模型内嵌语言模型的灾难性遗忘问题。IAA作为一种插件添加到基座语言模型上,实现在不影响语言模型原有能力的前提下,提升多模态能力。文章还介绍了当前多模态大模型的主流结构及其缺点,以及IAA如何克服这些问题。
关键观点总结
关键观点1: 多模态大模型内嵌语言模型的灾难性遗忘问题
当前多模态大模型在提升多模态理解能力时,会导致原有文本能力的下降。这是因为为了提升性能,内嵌的语言模型参数在多模态训练中会参与学习,导致灾难性遗忘问题。
关键观点2: IAA的核心思路
IAA的提出是为了解决多模态大模型内嵌语言模型的灾难性遗忘问题。它将多模态理解能力以插件的形式添加到基座语言模型上,保持模型原有能力的同时提升多模态能力。
关键观点3: IAA的优势
IAA的优势在于它避免了灾难性遗忘问题,降低了部署成本。通过部署一套模型权重,可以在进行文本任务和多模态任务时灵活切换。
关键观点4: 关于360人工智能研究院的介绍
研究院在多模态理解和多模态生成大模型的研发上持续发力,陆续研发了360VL多模态大模型等一系列工作。近日,研究院在多模态理解方向的工作IAA被AI领域的top会议AAAI接收。
文章预览
冷大炜 投稿 量子位 | 公众号 QbitAI 多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办? 像文生图那样有ControlNet即可解决。 这就是由360人工智能研究院提出的 IAA 的核心思路。该研究成果已被AAAI接收,并且开源。 IAA工作的思路,就是希望能把多模态理解能力像文生图领域中的ControlNet一样, 作为插件添加到基座的语言模型之上 ,从而实现在完全不影响语言模型原有能力的前提下,实现多模态能力的插件化,并进一步形成一种全新的语言模型生态体系。 针对语言模型研究全新插件控制机制 当前的多模态大模型(LMM:Large Multimodal Model)主流采取的是以LLaVA系列为代表的桥接式结构: 视觉编码器与LLM之间通过模态桥接器projector进行连接实现多模态理解能力 。 桥接式结构的优点是结构简单,训练成本低(几十万微调数据即可实现基本的图像理解能
………………………………