ICCV`25 | 定制视频革命!中科大DualReal:让身份与运动共舞的高保真定制视频引擎
- 2025-07-25 00:01:00
如您有工作需要分享,欢迎联系:aigc_to_future
作者:Wenchuan Wang等
论文链接:https://arxiv.org/abs/2505.02192
开源代码链接:https://github.com/wenc-k/DualReal
项目主页链接:https://wenc-k.github.io/dualreal-customization/
亮点直击
传统的身份—运动视频定制方法,通常对两种模态采用孤立训练范式,忽略了身份与运动特征间的内在约束与依赖,从而损害了彼此的定制性能。 DualReal在主体身份和运动动态两个模式上进行自适应联合训练,实现高质量的定制化生成任务。 DualReal是首个基于DiT架构的“身份—运动定制视频生成”范式。给定用户偏好的若干身份图像和运动视频,DualReal 经短时间训练即可生成双模式的高一致性定制视频。目前已开源所有推理与训练代码,并提供多组测试权重
总结速览
解决的问题

固定身份定制,并逐步增加运动训练步数(红框代表最佳身份一致性)。 发现:运动先验会不可逆地损害身份一致性;且针对不同身份,无法找到统一的运动训练程度来最小化身份退化。

随着去噪程度加深,模型越来越重视身份学习(橙色虚线)。 在 DiT 最深的网络层组,趋势相反:随着去噪深入,模型更侧重于运动建模(红色实线)。
提出的方案
DualReal:针对上述问题,在 DiT 框架下提出了一种基于微调的个性化身份—运动视频定制方法。
应用的技术
双域感知适配模块 (Dual‑aware Adaptation) 在每次去噪迭代前切换身份/运动训练阶段。 利用冻结分支的先验信息指导当前分支学习,并通过梯度掩码实现维度隔离与正则化。 阶段融合控制器 (StageBlender Controller) 根据不同去噪阶段及 DiT 网络各深度层次,分配细粒度权重,自适应控制身份与运动适配器输出的贡献。 有效解决多阶段、多层次的维度竞争问题。
达到的效果
高保真且流畅的定制化视频输出:结合先进的 DiT 视频生成模型,DualReal 在保持主体身份高保真的同时,实现了流畅的定制运动。 在评测基准上,身份一致性指标 CLIP-I 指标提升 21.7%,DINO-I 指标提升 31.8% ,在多项运动动态指标上均实现领先。
方法
双域感知适配模块
为了在解决维度冲突的同时实现身份和动作的联合训练,我们创新性地提出了双域感知适配模块。该方法利用一个模式的先验来引导另一个模式的训练,同时通过正则化策略防止信息泄漏,如图3下半部分所示:

联合身份-运动优化
与其余微调整个扩散模型的方法不同,DualReal 首先在每次去噪迭代前以预定义的比率动态切换训练模式(即侧重于动作或侧重于身份),然后将相应的数据送入DiT网络。第个块的输入是联合特征: ,其中分别表示文本和视觉token的数量。适配器采用具有跳跃连接的瓶颈架构: 公式
其中激活函数 对应GELU,, 和 , 分别表示身份和动作线性投影权重,均作用于隐藏维度 上。权重 是条件线性映射,将参考图像嵌入映射到潜在空间。
通过阶段融合控制器的约束(下文章节),动作适配器输出由权重系数 缩放,身份输出由互补系数 加权。调制后的特征通过残差连接聚合到DiT块的输出中。上述过程可表述为:
其中 表示第层DiT的输出,表示最终块的聚合输出。这种参数约束在网络块和去噪阶段之间平衡了特征贡献,同时在结构上强制适配器在适应过程中分别关注身份主体或动作动态。
正则化策略
在联合训练中,一个关键挑战在于主体身份与运动动态特征之间显著的分布偏移。正如先前工作所观察到的那样,如果不加约束地优化,通常会导致跨模式知识的破坏性干扰。例如用静态图像微调动作适配器,会不可逆转地降低其动态生成能力,反之亦然。为了解决这个问题,我们使用梯度掩码进行正则化,仅激活对应适配器的参数。具体而言,基于二元选择变量 (用于优化动作连贯性或保持身份一致性),我们可以将其公式化为:
其中,损失函数表示视频扩散重建损失。适配器参数被划分为动作部分 和身份部分,分别由二元掩码 和 控制。
我们在正向传播过程中,保持一个冻结的适配器处于待命状态,以告知当前适配器的模式种类,从而在数据流中实现跨模式特征参考。而来自冻结适配器的特征可以作为内在正则化,约束维度过拟合,从而促进相互参考学习,不产生干扰和损害。
阶段融合控制器
为了解决不同处理阶段的维度竞争问题,我们提出了阶段融合控制器。
该控制器通过对缩放系数进行时间感知,使双域感知适配模块能够根据下图所示的机制自适应地分配特定模式的权重,以此实现粒度解耦。

具体来说,阶段融合控制器根据去噪时间步和融合的文本-视觉特征,动态生成多组针对不同DiT深度层的缩放权重。
对于输入特征,首先通过池化提取关键特征,然后参考时间步嵌入 ,使用LayerNorm进行自适应调制。这一操作可以表述为:
其中 是权重矩阵, 是时间步嵌入的通道维度, 定义为:
计算得到的权重系数随后被集成,以实现基于时间步和视觉文本token之间的门控融合,如下所示:
通过对基于DiT的去噪架构的经验分析,我们观察到更深的块本质上擅长处理具体的细粒度特征。为了增强层次解耦,我们实现了一个向下传播的MLP,将集成特征转换为权重组,形式化如下:
其中 是投影算子:。这里表示DiT块的深度, 指定解耦权重组的数量;每个组然后通过参数分配依次控制其指定的层。
实验
实验设置
评估数据集:
对于身份定制,我们严格从先前工作和互联网平台(包括宠物、毛绒玩具等)中选择了50个主体,每个主体包含3–10张图像。 对于动作定制,我们从公共数据集中收集了21个具有挑战性动态模式的动作序列。 此外,每个案例提供了50个不同的提示词(包含不同的修饰或环境),以评估方法的可编辑性和场景多样性。
基线方法:在现有方法中,DreamVideo能够同时定制身份和动作。为了公平比较,我们在相同的DiT骨干上实现了两种方法:(1)CogVideoX-5B:按照DreamBooth范式先对身份数据、再对动作数据进行全参数顺序微调;(2)LoRA微调:分别训练两个LoRA模块用于身份和动作,然后在推理时融合其参数。此外,MotionBooth的身份模块在训练过程中引入了无关的随机视频以保留模型的动作能力,因此我们也将其与我们的方法进行比较。
评估指标:我们使用了三个维度的七项指标。
文本-视频一致性:通过CLIP-T分数衡量,计算为文本提示与所有生成帧之间的CLIP余弦相似度。 身份保真度:使用DINO-I和CLIP-I分数量化,分别通过DINO ViT-S/16和增强的CLIP嵌入评估生成帧与参考身份图像之间的特征相似度。 时间动作质量:使用四项指标评估,包括T-Cons用于时间一致性,Motion Smoothness(MS)用于整体流畅度,Temporal Flickering(TF)用于相邻帧之间的高频不一致性(通过平均绝对差衡量),以及Dynamic Degree(DD)利用RAFT光流估计来量化动作强度(我们计算方法相对于基准的偏差,来确定动作强度的一致性)。MS、TF和DD均采用综合视频基准VBench。
主要结果
定性结果:下图中的定性实验表明,虽然MotionBooth保持了身份保真度,但它无法有效建模动作模式;DreamVideo在推理过程中因模式冲突而导致身份不一致;CogVideoX-5B和LoRA由于其解耦的训练方法,也难以保持身份。相比之下,DualReal 实现了高身份一致性和连贯的动作,展示了联合训练在平衡模式冲突方面的优势。

定量结果:如下表所示,DualReal 在CLIP-I和DINO-I指标上平均提高了21.7%和31.8%,在三项动作质量指标(T-Cons、Motion Smoothness和Temporal Flickering)上取得了最佳结果,并在CLIP-T上排名第二;我们评估了所有动作数据,计算其平均DD为12.02。我们的指标与之略有偏差,证明动作幅度没有失真。总体而言,我们的方法在保持文本一致性的同时,显著增强了动作连贯性和身份保真度,进一步验证了我们的自适应联合训练方法。

消融实验
下图、表显示了DualReal 中每个关键组件对身份保真度的贡献。可以看出,缺少任何一个主要组件都会导致性能下降,其中去除双域感知适配模块的影响尤为显著,这强调了动态切换训练焦点和正则化策略在保持高一致性方面的重要性。


如下表所示,当阶段融合控制器的组数过小时或过大时性能都会有所下降,而组大小为7时性能最佳。这表明组基数过小时可能缺乏足够的上下文,过大时可能稀释关键细节,因此平衡的组基数对于最佳性能至关重要。

总结
DualReal,一种面向给定主体身份与运动动态的定制化视频生成新方法。DualReal 通过自适应地联合训练身份与运动两大维度,有效化解了二者之间的冲突,并进一步协调适配其在去噪阶段和网络结构的比例,实现对任意样本的通用定制。
参考文献
[1] DualReal: Adaptive Joint Training for Lossless Identity-Motion Fusion in Video Customization
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!


- 点赞 (0)
-
分享
微信扫一扫 -
加入群聊
扫码加入群聊