今天看啥  ›  专栏  ›  阿里云

四连发!通义万相重磅开源

阿里云  · 公众号  · AI媒体  · 2025-07-28 20:25
    

主要观点总结

通义万相2.2正式开源,包括文生视频模型Wan2.2-T2V-A14B和图生视频模型Wan2.2-I2V-A14B等。该模型率先引入MoE架构视频生成模型,解决了视频生成处理Token过长导致的计算资源消耗大问题。同时,开源模型还包括一个5B小尺寸的统一视频生成模型,支持文生视频和图生视频,具有高效率和高压缩比。此外,通义万相还引入了电影美学控制系统,用户可以通过输入关键词生成特定美学的视频。

关键观点总结

关键观点1: 引入MoE架构解决视频生成处理计算资源消耗问题

通义万相2.2率先在视频生成扩散模型中引入MoE架构,有效解决了视频生成处理Token过长导致的计算资源消耗大问题,在同参数规模下可节省约50%的计算资源消耗。

关键观点2: 提出电影级美学控制系统

通义万相2.2在训练数据中引入了专门的美学精调阶段,并提出了电影级美学控制系统,通过细粒度地训练,使视频生成的美学属性与用户给定的prompt提示词相对应。

关键观点3: 开源5B小尺寸统一视频生成模型

此次开源还包括一个5B小尺寸的统一视频生成模型,该模型同时支持文生视频和图生视频,可在消费级显卡上部署。它采用了高压缩率3D VAE架构,实现了高压缩比和高生成效率。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照