看啥推荐读物
专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

NeurIPS 2023 | 无惧图像中的文字,TextDiffuser提供更高质量文本渲染

FightingCV  · 公众号  ·  · 2023-10-10 09:00
关注“FightingCV”公众号回复“AI”即可获得超100G人工智能的教程点击进入→ FightingCV交流群©作者 | 机器之心编辑部来源 | 机器之心近几年来,Text-to-Image 领域取得了巨大的进展,特别是在 AIGC(Artificial Intelligence Generated Content)的时代。随着 DALL-E 模型的兴起,学术界涌现出越来越多的 Text-to-Image 模型,例如 Imagen,Stable Diffusion,ControlNet 等模型。然而,尽管 Text-to-Image 领域发展迅速,现有模型在稳定地生成包含文本的图像方面仍面临一些挑战。尝试过现有 SOTA 文生图模型可以发现,模型生成的文字部分基本上是不可读的,类似于乱码,这非常影响图像的整体美观度。▲ 现有SOTA文生图模型生成的文本信息可读性较差经过调研,学术界在这方面的研究较少。事实上,包含文本的图像在日常生活中十分常见,例如海报、书籍封面和路牌等。如果 AI 能 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照