今天看啥  ›  专栏  ›  PaperAgent

腾讯SEED-Story:生成丰富、叙事连贯及风格一致图文故事的大模型

PaperAgent  · 公众号  · 科技自媒体  · 2024-07-16 11:41
    

主要观点总结

SEED-Story是一个多模态长篇故事生成系统,由MLLM驱动,可以从用户提供的图片和文本开始生成故事。它包括三个阶段的训练过程,旨在生成丰富、连贯且多模态的故事。故事可以跨越多达25个序列,尽管在训练期间仅使用最多10个序列。本文还介绍了其使用的注意力机制以及数据集和实验评估。

关键观点总结

关键观点1: 系统概述

SEED-Story能够从用户提供的图片和文本开始生成多模态长篇故事,且模型、代码与数据都已开源。

关键观点2: 训练过程

SEED-Story的训练过程包括三个阶段:预训练去标记化器、训练MLLM以及调整SD-XL增强生成图片中的角色和风格一致性。

关键观点3: 注意力机制

SEED-Story在多模态故事生成中使用了多种注意力机制,包括密集型注意力图、窗口型注意力和多模态注意力汇聚,这有助于模型生成比训练序列更长的序列。

关键观点4: 数据集与实验评估

介绍了StoryStream数据集和现有多模态故事生成数据集的样本数据。实验证明了SEED-Story模型在多模态故事生成方面的先进性。


文章预览

SEED-Story 由MLLM驱动,能够从用户提供的图片和文本作为故事的开始,生成多模态长篇故事, 模型、代码与数据都已开源 。生成的故事包括 丰富且连贯的叙事文本,以及在角色和风格上保持一致的图片 。故事可以跨越多达 2 5个多模态序列 ,尽管在训练期间仅使用最多10个序列。 SEED-Story训练过程包括三个阶段: 在第一阶段,我们预训练一个基于SD-XL的去标记化器,通过接受预训练的ViT的特征作为输入来重建图片。 在第二阶段,我们采样一个随机长度的交错图像-文本序列,并通过对目标图像的ViT特征和可学习查询的输出隐藏状态之间的下一个词预测和图像特征回归来训练MLLM。 在第三阶段,从MLLM回归得到的图像特征被输入到去标记化器中,以调整SD-XL,增强生成图片中角色和风格的一致性。 左侧 :在多模态故事生成中预测下一个词时的注意力图可 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览