文章预览
在NLP中语言建模的基础上,下一个token预测( Next Token Prediction , NTP )已取得了相当的成功。同样,不同模态的任务也可以有效地包含在NTP框架内,将 多模态 信息转换为tokens并根据上下文预测下一个token。 利用下一个token预测的历史发展。 具有视觉和更多模态的模型以蓝色背景设置,而支持音频模态的模型以绿色背景设置。 多模态学习与下一个token预测(MMNTP)的通用流程图 提出了一个全面的分类体系,通过NTP的视角统一多模态学习中的理解与生成,涵盖了五个关键方面: 多模态标记化、多模态NTP模型架构、统一的任务表示、数据集与评估以及开放性挑战 。 用于下一个词预测的多模态学习综述的结构(MMNTP) 多模态标记化 多模态令牌化是将来自不同源(如图像、视频、音频剪辑)的信息分解成最小、可管理的单元(令牌),以便NTP模型学习。
………………………………