通义万相新模型开源，首尾帧图一键生成特效视频！

阿里云开发者 · 公众号 · 科技公司 · 2025-04-18 10:45

主要观点总结

昨晚，通义万相首尾帧生视频模型正式开源，这是业界首个百亿级参数规模的开源首尾帧生视频模型。该模型可根据用户指定的开始和结束图片，生成高清视频，满足更可控、更定制化的视频生成需求。用户上传两张图片即可完成更复杂、更个性化的视频生成任务，并可通过输入提示词控制运镜衔接画面，让视频拥有更丰富的视觉效果。

关键观点总结

关键观点1: 通义万相首尾帧生视频模型正式开源

这是业界首个百亿级参数规模的开源首尾帧生视频模型，具有生成高清视频的能力。

关键观点2: 模型的功能特点

模型可根据用户指定的开始和结束图片生成视频，满足定制化的视频生成需求。用户上传两张图片即可完成更复杂的视频生成任务，并可通过输入提示词控制运镜衔接画面。

关键观点3: 模型的训练难度和技术特点

首尾帧生视频模型的训练难度较大，对模型的指令遵循、视频内容与首尾帧一致性、视频过渡自然流畅性均有高要求。基于现有的Wan2.1文生视频基础模型架构，引入了额外的条件控制机制，采用并行策略提升模型训练和生成效率，保障高分辨率视频生成的效果。

关键观点4: 模型的开源反响

通义万相Wan2.1文生视频和图生视频模型开源后，迅速成为开源社区热度最高的大模型之一。在GitHub上已斩获超10k star，模型下载量超过220万次。

文章预览

昨晚，通义万相首尾帧生视频14B模型正式开源。作为业界首个百亿级参数规模的开源首尾帧生视频模型，该模型可根据用户指定的开始和结束图片，生成一段能衔接首尾画面的720p高清视频，满足延时摄影、变身等更可控、更定制化的视频生成需求。基于该模型，用户上传两张图片即可完成更复杂、更个性化的视频生成任务，并实现同一主体的特效变化、不同场景的运镜控制等视频生成。用户还可输入一段提示词，通过旋转、摇镜、推进等运镜控制衔接画面，在保证视频和预设图片一致性前提下，让视频拥有更丰富的视觉效果。模型体验目前，用户可在通义万相官网直接免费体验该模型，或在GitHub、Hugging Face、魔搭社区下载模型本地部署后进行二次开发。通义万相官网： https://tongyi.aliyun.com/wanxiang/videoCreation GitHub ：https://github.com/Wan-Video/Wan2.1 H ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博