文章预览
作者 :vasgaowei 链接:https://zhuanlan.zhihu.com/p/681895334 本文主要介绍AutoEncoder在图像生成(主要是自回归图像生成)以及多模态大模型中的应用。 VAE 《Auto-Encoding Variational Bayes》 https://arxiv.org/pdf/1312.6114 更多数学推导可以参见博客 VAE-1 (https://mbernste.github.io/posts/vae/) VAE-2 (https://lilianweng.github.io/posts/2018-08-12-vae/#vae-variational-autoencoder) VAE-3 (https://jaan.io/what-is-variational-autoencoder-vae-tutorial/) VAE-4 (https://liambai.com/variational-autoencoder/) VAE-5 (https://www.jeremyjordan.me/variational-autoencoders/) VQ-VAE 《Neural Discrete Representation Learning》示NeurIPS 2017的一篇文章。 https://arxiv.org/abs/1711.00937 https://avdnoord.github.io/homepage/vqvae/
理解VQ-VAE就看下面这张图。 Fig 1 首先是有一个隐特征空间 ,输入 经过一个encoder得到特征编码 ,通过look-up的方式从隐特征空间找对应关系, Fig 2 而输入 可以用隐特
………………………………