通义万相视频生成重磅升级，成功登顶VBench，运镜、质感直达专业级

机器之心 · 公众号 · AI · 2025-01-09 12:29

主要观点总结

阿里旗下的通义万相视频生成模型宣布了2.1版重磅升级，新模型在文本指令遵循、场景下的字体应用、复杂运动生成、镜头语言模拟等方面取得了显著进展。该模型具备支持中文文字生成及特效生成的能力，同时长文本指令遵循方面也表现出了进步。新版通义万相还善于卡通油画等多种风格，并且支持不同长宽比，能够适应不同终端设备的显示需求。这一系列进步归功于阿里云在视频生成基础模型上的全方位优化和创新，包括模型架构、训练方法、数据构建和模型评估等方面的改进。此次升级的视频生成模型在实际体验中收获了显著的代际提升。

关键观点总结

关键观点1: 通义万相视频生成模型的升级亮点

新发布的通义万相视频生成模型有两个版本，分别注重性能表现和艺术创作能力。升级后的模型在处理复杂运动、还原真实物理规律、提升电影质感和优化指令遵循方面取得了显著进展，为AI的艺术创作打开了新的大门。

关键观点2: 模型表现能力评估

通过一系列实测，通义万相模型在表现力、特效字体应用、大幅运动生成、镜头语言模拟等方面表现出色，能够生成高质量的视频内容。

关键观点3: 模型架构和技术的创新

通义万相团队在模型架构、训练方法、数据构建和模型评估等方面进行了全方位的创新和优化，包括自研高效的VAE和DiT架构，基于线性噪声轨迹的Flow Matching方案，以及结合缓存机制与因果卷积的视频编解码方案等。

关键观点4: 模型应用领域和前景

视频生成AI已经在创作探索中发挥重要作用，随着基础模型能力的提升，AI将在更多领域得到应用，推动新一轮行业变革。

文章预览

机器之心报道机器之心编辑部 2025 才刚开始，AI 视频生成就要迎来技术突破了？今天上午，阿里旗下通义万相视频生成模型宣布了 2.1 版重磅升级。新发布的模型有两个版本，分别是通义万相 2.1 极速版和专业版，前者注重高效性能，后者瞄准卓越表现力。据介绍，通义万相此次全面升级了模型整体性能，尤其是在处理复杂运动、还原真实物理规律、提升电影质感及优化指令遵循方面取得了显著进展，为 AI 的艺术创作打开了新的大门。我们先来一睹视频生成效果，看看能不能惊艳到你。先以经典的「切牛排」为例，可以看到，牛排的纹理清晰可见，表面覆盖着一层薄薄的油脂，闪烁着光泽，刀锋沿着肌肉纤维缓缓切入，肉质 Q 弹，细节拉满。 P ‍ rompt: 在餐厅里，一个人正在切一块热气腾腾的牛排。在特写俯拍下，这个人右手拿着一把锋利的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博