资讯配图


第四发更新来了

通义万相2.2正式开源!

具体如下

🔽🔽🔽

开源文生视频Wan2.2-T2V-A14B

图生视频Wan2.2-I2V-A14B

统一视频生成Wan2.2-TI2V-5B


文生视频模型和图生视频模型均为业界首个使用MoE架构的视频生成模型,总参数量为27B,激活参数14B;同时,首创电影美学控制系统,光影、色彩、构图、微表情等能力媲美专业电影水平。


资讯配图


即日起,用户可在GitHub、HuggingFace、魔搭社区下载模型和代码,也可在通义万相官网和通义APP直接体验。


开源地址:

  • Githubhttps://github.com/Wan-Video/Wan2.2

  • Huggingfacehttps://huggingface.co/Wan-AI

  • 魔搭社区:https://modelscope.cn/organization/Wan-AI


技术亮点


// 率先引入MoE架构视频生成模型


通义万相2.2率先在视频生成扩散模型中引入MoE架构,有效解决视频生成处理Token过长导致的计算资源消耗大问题。


资讯配图

Wan2.2模型推理示意图


Wan2.2-T2V-A14B、Wan2.2-I2V-A14B两款模型均由高噪声专家模型和低噪专家模型组成,分别负责视频的整体布局和细节完善,在同参数规模下,可节省约50%的计算资源消耗,在模型能上,通义万相2.2在复杂运动生成、人物交互、美学表达、复杂运动等维度上也取得了显著提升。


资讯配图
通义万相Wan2.2模型精准理解提示词中的美学词,并生成一段复古且富有文艺感的视频


// 数据支持与模型精调


较上一代万相2.1模型,万相2.2模型的训练数据实现了显著扩充与升级,并在训练中引入了专门的美学精调阶段,通过细粒度地训练,使得视频生成的美学属性能够与用户给定的prompt提示词相对应。


万相2.2模型在美学精调阶段创新性提出了「电影级美学控制系统」,直接将光影、色彩、镜头语言三大电影美学元素装进模型。通义团队编码了60多个直观可控的参数,并且可以随意组合,大幅提升电影级画面的制作效率。


例如,用户输入「黄昏」、「柔光」、「边缘光」、「暖色调」「中心构图」等关键词,模型可自动生成金色的落日余晖的浪漫画面;使用「冷色调」、「硬光」、「平衡图」、「低角度」的组合,则可以生成接近科幻片的画面效果。


资讯配图

左:低饱和度/右:高饱和度


资讯配图

左:高角度全景/右:低角度中景


// 高压缩与视频生成


此次,通义万相还开源了一款5B小尺寸的统一视频生成模型,单一模型同时支持文生视频和图生视频,可在消费级显卡部署。


该模型采用了高压缩率3D VAE架构,时间与空间压缩比达到高达 4×16×16,信息压缩率提升至 64,均实现了开源模型的最高水平,仅需22G显存(单张消费级显卡)即可在数分钟内生成5秒高清视频,是目前24帧每秒、720P像素级视频生成速度最快的基础模型。


Demo展示


资讯配图

提示词:特写镜头下,火箭发动机点火,火焰从喷口喷涌而出,逐渐吞没了发射台。摄像机缓缓拉远,展现出完整的发射场景。火箭矗立在发射台上,周围是白色的蒸汽和明亮的火焰。背景是蓝天和远处的地平线,火箭准备起飞。


资讯配图

提示词:中景,日光,晴天光,柔光,侧光,中心构图,暖色调,动态视角展现樱桃角色的跳跃动作。在一个由色彩鲜艳的水果构建的像素风格游戏世界中,平台由一串串紫色葡萄和切片西瓜搭建而成,障碍物包括尖锐的菠萝刺和滑溜的柠檬皮斜坡。主角是一个像素化的樱桃角色,圆润的红色身体上有一张简洁的表情脸,正在灵活地跳跃躲避障碍。空中散落着小型蓝莓,代表可收集的加分元素。背景是层次分明的草莓叶子与香蕉树叶构成的丛林环境,远处是光滑的奇异果山丘,整体呈现出充满活力与趣味性的关卡设计。


资讯配图

提示词:特写镜头下,一只穿着探险家装备的小狐狸出现在古老城堡的废墟中,它戴着一顶棕色的宽边帽,背着一个帆布背包,手持一根木制手杖。它在昏暗的环境中穿梭,周围是高耸的石墙和茂密的藤蔓,只有几缕阳光从缝隙中透射进来,照亮了它的行动路径。小狐狸的动作迅速而敏捷,它跳过断壁残垣,爬过藤蔓覆盖的墙壁,眼神专注地寻找着宝藏的线索。在紧张而神秘的氛围中,小狐狸展现出了对未知世界的渴望和对探险活动的热爱。镜头跟随小狐狸的行动,捕捉到了它每一次跳跃和探索的瞬间。


资讯配图

提示词:一名30岁出头的游泳运动员跃入水中,奋力比赛。镜头在水面和水下缓慢切换,捕捉着每一次划水时有节奏的水花。他穿着蓝色泳衣,戴着泳帽和护目镜,手臂有力地向前伸展,双腿快速踢动。水面波光粼粼,背景是其他选手和泳道线。镜头平稳跟随他的动作,展示他在水中流畅而有力的前进。


资讯配图

提示词:Retro 80s Teen Movie Scene: Color film, sunny, vibrant colors. Coastal highway, pink convertible slowly driving, two fashionable young girls laughing at camera, full of energy. Close-up capturing youthful smiles, sparkling eyes. Blue ocean, golden beach backdrop, relaxed, joyful youth vibe.


资讯配图

提示词:在这个极具创意与超现实主义手法的视频中,四位身形被缩小的滑雪者并非驰骋于真实的雪山,而是沿着一道蜿蜒的、厚重而立体的白色颜料或膏体轨迹滑行。整个背景是一个带有细微纹理的白色平面,仿佛一张画布,而那条充当雪道的白色颜料则呈现出明显的笔触感和厚涂效果,边缘和表面起伏不平,光影之下质感十足。四位滑雪者从上至下依次分布在这条奇特的“雪道”上,他们都穿着色彩各异的专业滑雪装备,包括头盔、雪镜、滑雪服和雪板,并摆出正在高速滑降或转弯的动感姿态,每个人都在颜料的“斜坡”上投下了清晰的阴影,这巧妙地增强了画面的立体感和真实错觉。整个画面通过将宏大的户外运动场景微缩并置于一个微观的、充满艺术质感的背景之上,创造出一种颠覆常规、充满想象力和视觉趣味的奇妙观感。


资讯配图

提示词:中全景,在昏暗的走廊里,一名男子手持手电筒向前走。平拍中近景镜头中,他穿着黑色的衣服,手电筒发出的光线照亮了前方的道路。两侧是一排排白色的柜子,上面有着银色的把手。虚化的背景一片漆黑,只有微弱的灯光照亮着这个走廊。


-- 完 --


机智流推荐阅读

1. Trae SOLO打造ACL 25专区, 书生Qwen3等生成3000+论文解读,SOLO模式太爽了!!!!

2. Trae Solo Code即将大放量,聊聊Kiro Spec和Trae Solo的区别,分别适合什么人使用

3. AWS AI IDE「Kiro」深度体验:免费解锁最强编程模型

4. 聊聊大模型推理系统之 MIRAGE:当KV Cache不够时,把模型参数“变”成缓存



关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有
HuggingFace每日精选论文顶会论文解读Talk分享通俗易懂的Agent知识与项目前沿AI科技资讯大模型实战教学活动等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
  • cc | 大模型技术交流群
  • hf | HuggingFace 高赞论文分享群
  • 具身 | 具身智能交流群
  • 硬件 | AI 硬件交流群
  • 智能体 | Agent 技术交流群