比Imagen更高效！谷歌新作Muse：通过掩码生成Transformer进行文本到图像生成

CVer · 公众号 · · 2023-01-08 23:59

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>CV微信技术交流群转载自：机器之心图像生成领域越来越卷了！文本到图像生成是 2022 年最火的 AIGC 方向之一，被《science》评选为 2022 年度十大科学突破。最近，谷歌的一篇文本到图像生成新论文《Muse: Text-To-Image Generation via Masked Generative Transformers》又引起高度关注。Muse: Text-To-Image Generation via Masked Generative Transformers论文地址：https://arxiv.org/abs/2301.00704项目地址：https://muse-model.github.io/该研究提出了一种使用掩码图像建模方法进行文本到图像合成的新模型，其中的图像解码器架构以来自预训练和 frozen T5-XXL 大型语言模型 (LLM) 编码器的嵌入为条件。与谷歌先前的 Imagen 模型类似，该研究发现基于预训练 LLM 进行调整对于逼真、高质量的图像生成至关重要。Muse 模型是建立在 Transfor ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博