今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

(2024,预训练扩散模型,参考 UNet,创建引导数据集)BootPIG:在预训练扩散模型中引导零...

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-06-09 00:28
    

文章预览

BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models 公众号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 3. 方法 3.1. 基础:扩散模型  3.2. BootPIG 模型架构 3.3. 训练 3.4. 引导训练数据 3.5. 推断 4. 实验 5. 局限性 0. 摘要 最近的文本到图像生成模型已经展示了令人难以置信的成功,能够生成忠实于输入提示的图像。然而,使用单词来描述所需概念的要求,在控制生成概念的外观方面存在限制。在这项工作中,我们通过提出一种方法来解决这一缺陷,使现有的文本到图像扩散模型具备个性化能力。我们提出了一种新颖的架构(BootPIG),允许用户提供对象的参考图像,以引导生成图像中概念的外观。 BootPIG 架构对预训练的文本到图像扩散模型进行最小修改,并利用一个 独立的 UNet 模型 来引导生成图像 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览