看啥推荐读物
专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

CVPR 2024 | NTU联合UM提出InteractDiffusion,即插即用的HOI交互扩散模型

将门创投  · 公众号  · 科技创业  · 2024-04-29 08:22
近一段时间以来,扩散模型在各大厂商以及众多学术顶会上都受到了广泛的关注,尤其是大规模文本到图像(text-to-image,T2I)扩散模型,在生成富含语义的连贯图像方面展现出了惊人的效果。最近的一些工作开始尝试在扩散模型中引入对象定位、姿态和图像轮廓等因素的控制,这对于个性化图像生成任务具有重要意义。但是目前的方法对于生成图像中对象之间的交互关系控制的并不是很好,本文介绍一篇来自南洋理工大学和马来亚大学合作完成的论文。本文提出了一种全新的可控扩散模型框架InteractDiffusion,InteractDiffusion重点研究了如何利用人与物体交互(HOI)信息来扩展现有的扩散模型,该信息由三元组标签(人、动作、物体)和相应的边界框组成,可以灵活的嵌入到各种扩散模型中生成复杂的交互图像。本文方法生成的图像在 HOI 检测分数以及 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照