看啥推荐读物
专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

AIGC专题报告:从文生图到文生视频,73页ppt

专知  · 公众号  ·  · 2023-11-04 17:11
1、底层模型技术框架梳理  文生图和文生视频的底层技术框架较为相似,主要包括GAN、自回归和扩散模型三大路径,其中扩散模型(Diffusionmodel)为当前主流生成模型,多个指标对比下综合占优,能在较为可控的算力成本和较快的速度下生成具备多样性、高质量的图像:①图像质量:扩散模型>自回归模型>GAN模型。FID值(FréchetInceptionDistancescore)是用于评估模型生成的图像质量的指标,是用来计算真实图像与生成图像的特征向量间距离的一种度量。FID值越小,可以认为图像质量在一定程度上越优。从不同模型的FID得分来看,扩散模型平均数较小,反应图像质量较高。②参数量:自回归模型>扩散模型>GAN模型。GAN的参数量一般在千万级别,整体较为轻巧,扩散模型的参数量在十亿级别,自回归模型在十亿到百亿级不等。③生成速度(由快到慢):GAN ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照