原来Veo 3早有苗头！人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

机器之心 · 公众号 · AI · 2025-05-29 11:04

文章预览

本文介绍工作由中国人民大学高瓴人工智能学院宋睿华团队、李崇轩、许洪腾与值得买科技 AI 团队共同完成。第一作者王希华是人大高瓴博士生（导师：宋睿华），他的研究兴趣主要在多模态生成，之前提出利用音频布局（audio layout）为视频生成同步声音的TiVA模型，已发表在MM 2024。宋睿华的团队主要研究方向为多模态理解、生成与交互。想象一下：只需一张静态图片，系统就能自动生成一段「动态的、有声音的」的短视频，画面中的人或物做出自然动作变化的同时，也发出对应的声音——比如小鸡抬头打鸣、手指按下快门并伴随咔嚓声，这正是「图像转有声视频（Image-to-Sounding-Video, I2SV）」的目标。近日，来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作，首次提出了一种从静态图像直接生成同步音视 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博