专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微博RSS订阅方法

即刻RSS订阅方法

免剪辑直出！AI生成多角色同框对话视频，动态路由精准绑定音频

新智元 · 公众号 · AI · 2025-07-17 12:50

主要观点总结

Bind-Your-Avatar是一个基于扩散Transformer（MM-DiT）的框架，用于音频驱动的同场景多角色说话视频生成。该框架通过细粒度嵌入路由将语音与角色绑定，实现精准的音画同步，并支持动态背景生成。它引入了首个针对多角色对话视频生成的数据集MTCC和基准测试。

Bind-Your-Avatar能够实现音频与角色的精准绑定，生成音画同步的多角色对话视频，并支持动态背景生成。

Bind-Your-Avatar使用扩散Transformer（MM-DiT）作为基础框架，通过细粒度嵌入路由机制实现音频与角色的精确控制。模型的训练分为三个阶段，并采用了多种损失函数来增强模型的性能。

为了支持多角色视频生成，研究人员构建了MTCC数据集，并提供了端到端的数据处理流程。该框架还引入了首个针对多角色对话视频生成的完整数据集和评测基准。

与现有的基线方法相比，Bind-Your-Avatar在人脸身份保真和音画同步等指标上显著更优。

研究人员计划未来进一步优化模型的性能，增强角色动作的真实感，并考虑更大规模和在线化的多角色视频生成需求。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

爱可可-爱生活 · ComfyUI-AniSora：开源动画视频生成利器，覆盖多样二-20250718141902

21 小时前

AI产品阿颖 · ChatGPT Agent 的重要性不亚于 GPT-5

22 小时前

AI前线 · 宅男福音！定制“二次元女友”AI 火爆，马斯克开 44 万刀抢工程师

昨天

宝玉xp · 转发微博-20250716121733

2 天前

爱可可-爱生活 · 深度揭秘生成式引擎优化（GEO）如何重塑AI推荐生态，改变你的消-20250716090210

3 天前

上海高招发布 · 【资讯】上海南湖职业技术学院秋季高考招生火热进行中，欢迎报考

11 月前

蒲公英Ouryao · 百令颗粒等3品种转换非处方药公示

10 月前

iCourt法秀 · 泰和泰 × iCourt 增长公开课：五门十法，全面击破建设工程施工合同纠纷重难点｜iCourt

8 月前