今天看啥  ›  专栏  ›  阿里云开发者

通义万相新模型开源,首尾帧图一键生成特效视频!

阿里云开发者  · 公众号  · 科技公司  · 2025-04-18 10:45
    

主要观点总结

昨晚,通义万相首尾帧生视频模型正式开源,这是业界首个百亿级参数规模的开源首尾帧生视频模型。该模型可根据用户指定的开始和结束图片,生成高清视频,满足更可控、更定制化的视频生成需求。用户上传两张图片即可完成更复杂、更个性化的视频生成任务,并可通过输入提示词控制运镜衔接画面,让视频拥有更丰富的视觉效果。

关键观点总结

关键观点1: 通义万相首尾帧生视频模型正式开源

这是业界首个百亿级参数规模的开源首尾帧生视频模型,具有生成高清视频的能力。

关键观点2: 模型的功能特点

模型可根据用户指定的开始和结束图片生成视频,满足定制化的视频生成需求。用户上传两张图片即可完成更复杂的视频生成任务,并可通过输入提示词控制运镜衔接画面。

关键观点3: 模型的训练难度和技术特点

首尾帧生视频模型的训练难度较大,对模型的指令遵循、视频内容与首尾帧一致性、视频过渡自然流畅性均有高要求。基于现有的Wan2.1文生视频基础模型架构,引入了额外的条件控制机制,采用并行策略提升模型训练和生成效率,保障高分辨率视频生成的效果。

关键观点4: 模型的开源反响

通义万相Wan2.1文生视频和图生视频模型开源后,迅速成为开源社区热度最高的大模型之一。在GitHub上已斩获超10k star,模型下载量超过220万次。


文章预览

昨晚,通义万相首尾帧生视频14B模型正式开源。 作为业界首个百亿级参数规模的开源首尾帧生视频模型,该模型可根据用户指定的开始和结束图片,生成一段能衔接首尾画面的720p高清视频,满足延时摄影、变身等更可控、更定制化的视频生成需求。 基于该模型 ,用户上传两张图片即可完成更复杂、更个性化的视频生成任务 ,并实现同一主体的特效变化、不同场景的运镜控制等视频生成。 用户还可输入一段提示词,通过旋转、摇镜、推进等运镜控制衔接画面,在保证视频和预设图片一致性前提下,让视频拥有更丰富的视觉效果。 模型体验 目前,用户可在通义万相官网直接免费体验该模型,或在GitHub、Hugging Face、魔搭社区下载模型本地部署后进行二次开发。 通义万相官网: https://tongyi.aliyun.com/wanxiang/videoCreation GitHub :https://github.com/Wan-Video/Wan2.1 H ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览