今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

扩散模型微调:Null-text Inversion(CVPR2023)

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-06-09 00:28
    

文章预览

大致思想如下: 1)对原图做DDIM inversion,得到高斯噪声zt 2)把高斯噪声 z t 输入到扩散模型中,可以得到一个最初的图像,但是这个图像和原始输入图像还是有一定差异 3)作者发现guidance scale w通常是一个比较大的值,一般扩散模型中取值为7.5, guidance scale   w设置的比较大的情况下,最终得到的噪声zt不再服从高斯分布,导致还原后的图像变得非常差,但是 guidance scale   w设置比较小的时候,原图像和还原图像是比较相似的,但是编辑性不强 4)作者在 DDIM inversion过程中将 guidance scale   w设置为1 , 得到高斯 噪声 z t作为参考的对象,接着 把高斯噪声 z t 输入到 扩散模型中,从zt出发得到z0,得到原图像的编码,然后训练过程中缩短 DDIM inversion过程和扩散过程对应时间T下的两个编码的距离,也就是 zT ¯ 和zT   *  之间的距离 5)如果直接微调扩散模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览