【AI】免剪辑直出!AI生成多角色同框对话视频,动态路由精准绑定音频
- 2025-07-23 08:00:00


【导读】Bind-Your-Avatar是一个基于扩散Transformer(MM-DiT)的框架,通过细粒度嵌入路由将语音与角色绑定,实现精准的音画同步,并支持动态背景生成。该框架还引入了首个针对多角色对话视频生成的数据集MTCC和基准测试,实验表明其在身份保真和音画同步上优于现有方法。
近年来随着视频生成基础模型的涌现,音频驱动的说话人视频生成领域也取得了显著进展。
但现有方法主要聚焦于单角色场景,现有可生成两个角色对话视频的方法仅能单独地生成两个分离的说话人视频。
针对这一挑战,研究人员提出了首个专注同场景多角色说话视频生成的框架Bind-Your-Avatar
该模型基于扩散Transformer(MM-DiT),通过细粒度的嵌入路由机制将「谁在说」与「说什么」绑定在一起,从而实现对音频–角色对应关系的精确控制。

论文地址:https://arxiv.org/abs/2506.19833
项目地址:https://yubo-shankui.github.io/bind-your-avatar
作者同时构建了首个针对多角色对话视频生成的完整数据集(MTCC)和评测基准,提供了端到端的数据处理流程。
大量实验表明,Bind-Your-Avatar在多角色场景下生成效果优异,在人脸身份保真和音画同步等指标上均显著优于现有基线方法。



Bind-Your-Avatar基于一个多模态文本到视频扩散Transformer(MM-DiT)搭建,模型输入包括:文本提示、多路语音音频流、多个角色的人脸参考图像,以及(可选)一帧用于绘制背景的inpainting帧。
文本、音频和人脸身份特征通过特征编码器提取,并由Embedding路由引导的交叉注意力(Cross-Attention)将人脸和音频信息选择性地注入到视觉Token中,从而实现音画同步性的关联。

模型的训练分为三个阶段:第一阶段只生成带补全帧的静音角色运动视频(不使用音频),第二阶段加入单角色语音输入学习音频驱动的精细角色运动(通过LoRA轻量化微调),第三阶段引入多角色语音输入并联合训练Embedding路由(使用教师强制方法防止掩码退化)。
Embedding路由的作用输出是一个时空掩码矩阵M,用于指示每个视觉Token对应哪个角色(或背景),从而将说话人与具体语音绑定。
在训练时,研究人员设计了交叉熵损失监督路由输出,并结合几何先验引入时空一致性损失和层一致性损失,增强掩码的准确性和平滑性。

论文中探讨了三种路由实现方式:预去噪(Pre-Denoise,用静态2D掩码)、后去噪(Post-Denoise,两阶段生成后预测3D掩码)以及内置去噪(Intra-Denoise)路由。
Intra-Denoise路由在扩散去噪过程中动态生成细粒度3D时空掩码,实现对各角色帧级独立控制。这种设计不仅提升了音频与对应角色口型的精度,还保持了角色身份的连贯性。

为了得到高质量的3D-mask,研究人员在路由的设计中提出了两个有效的方法。其中,掩码优化策略通过引入几何先验对掩码进行正则化,提高了角色与背景区域分割的准确度和时序一致性;此外,研究人员还提出了一种掩码细化流程,将初步预测的稀疏掩码进行平滑和时间一致性校正,进一步增强掩码质量。
为了支持多角色视频生成,研究人员构建了MTCC数据集(Multi-Talking-Characters-Conversations),该数据集包含200+小时的多角色对话视频。
数据处理流程包括:
视频清洗(筛选分辨率、时长、帧率;确保视频中恰有两个清晰角色;姿态差异度过滤等)、音频分离与同步筛选(使用AV-MossFormer和Sync-C指标确保音画一致)、语音与文本标注(应用Wav2Vec提取音频特征,QWen2-VL生成描述)以及SAM2生成角色区域掩码作为监督信号。
MTCC附带完整的开源处理代码,为社区提供了从原始视频到训练数据的端到端流水线。

研究人员在MTCC测试集和全新基准集(Bind-Your-Avatar-Benchmark,含40组双角色人脸和双流音频)上与多种基线方法进行了对比,包括最近的Sonic、Hallo3和Ingredients等。这些方法原本设计用于单角色或无背景场景,对本任务进行了适配。
定量指标涵盖角色身份保持(Face Similarity)、音画同步(Sync-C、Sync-D)以及视觉质量(FID、FVD)等。
结果表明,Bind-Your-Avatar在人脸相似度和音画同步度指标上均显著优于各基线(同步指标尤其优异),而在FID/FVD等视觉质量指标上也保持竞争力。
消融实验进一步验证:细粒度3D掩码比边界框或静态2D掩码能更好地应对角色运动和近距离互动,提升了动态场景下的生成质量。

Bind-Your-Avatar能自然处理多角色的交叉说话场景,同时生成统一、动态的背景,无需后期拼接。

例如,Bind-Your-Avatar能生成两个角色同时讲述不同内容的对话视频,并保持每个角色的口型与对应语音高度同步,同时人物面部和表情逼真。


Bind-Your-Avatar 首次提出了同场景多角色语音驱动视频生成任务,并提供了从算法到数据集的完整解决方案。
其主要贡献包括:细粒度Embedding路由机制(实现「谁在说什么」的精确绑定)、动态3D-mask路由设计(逐帧控制各角色),以及MTCC数据集和对应的多角色生成基准。
未来工作将聚焦于增强角色动作的真实感(如身体和手势动作)并优化模型实时性能,以适应更大规模和在线化的多角色视频生成需求。
研究人员后续将开源数据集和代码,方便社区进一步研究。
☟☟☟
☞人工智能产业链联盟筹备组征集公告☜
☝
精选报告推荐:
11份清华大学的DeepSeek教程,全都给你打包好了,直接领取:
【清华第四版】DeepSeek+DeepResearch让科研像聊天一样简单?
【清华第七版】文科生零基础AI编程:快速提升想象力和实操能力
【清华第十一版】2025AI赋能教育:高考志愿填报工具使用指南
10份北京大学的DeepSeek教程
【北京大学第五版】Deepseek应用场景中需要关注的十个安全问题和防范措施
【北京大学第九版】AI+Agent与Agentic+AI的原理和应用洞察与未来展望
【北京大学第十版】DeepSeek在教育和学术领域的应用场景与案例(上中下合集)
8份浙江大学的DeepSeek专题系列教程
浙江大学DeepSeek专题系列一--吴飞:DeepSeek-回望AI三大主义与加强通识教育
浙江大学DeepSeek专题系列二--陈文智:Chatting or Acting-DeepSeek的突破边界与浙大先生的未来图景
浙江大学DeepSeek专题系列三--孙凌云:DeepSeek:智能时代的全面到来和人机协作的新常态
浙江大学DeepSeek专题系列四--王则可:DeepSeek模型优势:算力、成本角度解读
浙江大学DeepSeek专题系列五--陈静远:语言解码双生花:人类经验与AI算法的镜像之旅
浙江大学DeepSeek专题系列六--吴超:走向数字社会:从Deepseek到群体智慧
浙江大学DeepSeek专题系列七--朱朝阳:DeepSeek之火,可以燎原
浙江大学DeepSeek专题系列八--陈建海:DeepSeek的本地化部署与AI通识教育之未来
4份51CTO的《DeepSeek入门宝典》
51CTO:《DeepSeek入门宝典》:第1册-技术解析篇
51CTO:《DeepSeek入门宝典》:第2册-开发实战篇
51CTO:《DeepSeek入门宝典》:第3册-行业应用篇
51CTO:《DeepSeek入门宝典》:第4册-个人使用篇
5份厦门大学的DeepSeek教程
【厦门大学第一版】DeepSeek大模型概念、技术与应用实践
【厦门大学第五版】DeepSeek等大模型工具使用手册-实战篇
10份浙江大学的DeepSeek公开课第二季专题系列教程
【精选报告】浙江大学公开课第二季:《DeepSeek技术溯源及前沿探索》(附PDF下载)
【精选报告】浙江大学公开课第二季:2025从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例(附PDF下载)
【精选报告】浙江大学公开课第二季:智能金融——AI驱动的金融变革(附PDF下载)
【精选报告】浙江大学公开课第二季:人工智能重塑科学与工程研究(附PDF下载)
【精选报告】浙江大学公开课第二季:生成式人工智能赋能智慧司法及相关思考(附PDF下载)
【精选报告】浙江大学公开课第二季:AI大模型如何破局传统医疗(附PDF下载)
【精选报告】浙江大学公开课第二季:2025年大模型:从单词接龙到行业落地报告(附PDF下载)
【精选报告】浙江大学公开课第二季:2025大小模型端云协同赋能人机交互报告(附PDF下载)
【精选报告】浙江大学公开课第二季:DeepSeek时代:让AI更懂中国文化的美与善(附PDF下载)
【精选报告】浙江大学公开课第二季:智能音乐生成:理解·反馈·融合(附PDF下载)
6份浙江大学的DeepSeek公开课第三季专题系列教程
【精选报告】浙江大学公开课第三季:走进海洋人工智能的未来(附PDF下载)
【精选报告】浙江大学公开课第三季:当艺术遇见AI:科艺融合的新探索(附PDF下载)
【精选报告】浙江大学公开课第三季:AI+BME,迈向智慧医疗健康——浙大的探索与实践(附PDF下载)
【精选报告】浙江大学公开课第三季:心理学与人工智能(附PDF下载)
【AI加油站】第八部:《模式识别(第四版)-模式识别与机器学习》(附下载)
人工智能产业链联盟高端社区

一次性说清楚DeepSeek,史上最全(建议收藏)
DeepSeek一分钟做一份PPT
用DeepSeek写爆款文章?自媒体人必看指南
【5分钟解锁DeepSeek王炸攻略】顶级AI玩法,解锁办公+创作新境界!
【中国风动漫】《雾山五行》大火,却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折!

免责声明:部分文章和信息来源于互联网,不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题,请立即与小编联系(微信号:913572853),我们将迅速采取适当的措施。本订阅号原创内容,转载需授权,并注明作者和出处。如需投稿请与小助理联系(微信号:AI480908961)
编辑:Zero





- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊