Google推出MaskGIT：革新图像生成的掩码式Transformer

FightingCV · 公众号 · · 2024-09-23 09:00

主要观点总结

本文提出了一种使用双向Transformer解码器的新型图像合成方法MaskGIT。MaskGIT通过掩蔽视觉符元建模进行训练，能够在固定迭代次数内生成样本。实验结果表明，MaskGIT在条件图像生成方面优于最先进的Transformer模型，且易于扩展到各种图像操作任务。该模型在性能上与最先进的GANs相媲美。

关键观点总结

关键观点1: 新型图像合成方法MaskGIT

MaskGIT是一种利用双向Transformer解码器进行图像合成的方法。它在掩蔽视觉符元建模方面进行训练，以生成高质量的图像样本。

关键观点2: 迭代解码过程

MaskGIT采用迭代解码过程，在每次迭代中预测所有符元，但只保留最自信的符元。剩余的符元被屏蔽，并在下一轮迭代中重新预测。这种解码过程使得图像生成能够并行化，从而提高生成速度。

关键观点3: 双向自注意力机制

MaskGIT使用双向自注意力机制，允许模型从所有方向的生成令牌中生成新的令牌。这种机制使得模型能够捕捉更丰富的上下文信息，从而提高生成图像的质量。

关键观点4: 掩蔽设计

MaskGIT的掩蔽设计对图像生成的质量有显著影响。通过精心设计的掩蔽调度函数，模型能够在不同的迭代阶段进行不同数量的符元遮蔽，从而控制生成过程。

关键观点5: 实验结果

实验结果表明，MaskGIT在条件图像生成方面优于最先进的Transformer模型，并且生成的图像样本具有高的质量和多样性。此外，MaskGIT还易于扩展到各种图像操作任务，如图像修复、外推和编辑等。

文章预览

摘要在计算机视觉领域，生成式Transformer在合成高保真度和高分辨率图像方面获得了迅速普及。然而，到目前为止，最好的生成式Transformer模型仍然将图像简单地视为一系列符元，并根据光栅扫描顺序（即逐行）对图像进行顺序解码。我们发现这种策略既不理想也不高效。本文提出了一种使用双向Transformer解码器的新型图像合成范式，我们将其称为MaskGIT。在训练期间，MaskGIT学习通过关注所有方向的符元来预测随机掩码的符元。在推理时，模型从同时生成图像的所有符元开始，然后根据之前的生成迭代地细化图像。我们的实验表明，MaskGIT在ImageNet数据集上显著优于最先进的Transformer模型，并将自回归解码速度提高了64倍。此外，我们说明MaskGIT可以轻松地扩展到各种图像编辑任务，例如修复、外推和图像操作。图1 ： MaskGIT在图像合成和操 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博