文章预览
多模态大型模型(MLMs)正成为重要的研究焦点,它们结合了强大的大型语言模型和多模态学习,以在不同数据模态上执行复杂任务。本综述探讨了MLMs的最新发展和挑战,强调了它们在实现人工通用智能和作为通往世界模型的途径方面的潜力。我们提供了关键技术(如多模态思维链(M-COT)、多模态指令调整(M-IT)和多模态上下文学习(M-ICL))的概览。此外,我们讨论了多模态模型的基础和特定技术,突出了它们的应用、输入/输出模态和设计特点。尽管取得了显著进步,但开发统一的多模态模型仍然难以捉摸。我们讨论了整合3D生成和具身智能以增强世界模拟能力,并提出纳入外部规则系统以改进推理和决策制定。最后,我们概述了未来的研究方向,以解决这些挑战并推进该领域。 关键词 —— 多模态大型模型,基于规则的系统,具身智能,世
………………………………