专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
AI前线  ·  13 年苦熬到 170 ... ·  昨天  
AI产品阿颖  ·  Sam ... ·  2 天前  
今天看啥  ›  专栏  ›  机器之心

原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

机器之心  · 公众号  · AI  · 2025-05-29 11:04
    

文章预览

本文介绍工作由中国人民大学高瓴人工智能学院宋睿华团队、李崇轩、许洪腾与值得买科技 AI 团队共同完成。第一作者王希华是人大高瓴博士生(导师:宋睿华),他的研究兴趣主要在多模态生成,之前提出利用音频布局(audio layout)为视频生成同步声音的TiVA模型,已发表在MM 2024。宋睿华的团队主要研究方向为多模态理解、生成与交互。 想象一下:只需一张静态图片,系统就能自动生成一段「动态的、有声音的」的短视频,画面中的人或物做出自然动作变化的同时,也发出对应的声音——比如小鸡抬头打鸣、手指按下快门并伴随咔嚓声,这正是「图像转有声视频(Image-to-Sounding-Video, I2SV)」的目标。 近日,来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作,首次提出了一种从静态图像直接生成同步音视 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览