让“蒙娜丽莎”笑出声 | 虚拟人直播不用愁：单图生成{喜怒哀乐}，支持多人同屏不串戏。

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区，

用心写好每一篇文章！

项目主页-https://fantasy-amap.github.io/fantasy-portrait/

代码链接-https://github.com/Fantasy-AMAP/fantasy-portrait

论文链接-https://arxiv.org/pdf/2507.12956

为什么需要这个算法？--从静态图像中制作富有表现力的面部动画是一项具有挑战性的任务。之前的方法依赖于显式几何先验的方法在交叉重现中经常出现伪影，不仅难以捕捉微妙的情绪，而且缺乏对多角色动画的支持。

这个算法能做什么？-- 给定肖像图像和参考运动视频，FantasyPo rtrait在交叉重现过程中生成生动的动画肖像。它为单角色和多角色实现了高保真的面部动态和自然的头部运动。

这个算法效果如何？--大量实验结果表明：FantasyPortrait在定量指标和定性评估方面明显优于最先进的方法，特别是在具有挑战性的交叉重现和多字符上下文中表现出色。

01-FantasyPortrait核心优势

FantasyPortrait是一个基于扩散模型的框架，它能够为单角色和多角色场景生成高保真度和情感丰富的动画。

该方法引入了一种表情增强学习策略，该策略利用隐式表示来捕捉与身份无关的面部动态，增强了模型渲染细粒度情绪的能力。对于多字符控制，作者设计了一种掩码交叉注意力机制，确保独立但协调的表达式生成，有效防止特征干扰。

为了推进这个领域的研究，作者提出了Multi-Expr数据集和ExprBench，它们是专门为训练和评估多角色肖像动画而设计的数据集和基准。

02-FantasyPortrait落地场景

02.01-多角色人像动画生成

如上面的视频所示，FantasyPortrait支持使用多个单人视频或单个多人视频驱动多个角色，生成详细的表情和逼真的肖像动画。

02.02-多样化角色动画生成

如上面的视频所示，FantasyPortrait可以为各种风格的角色制作动画，生成动态、富有表现力、自然逼真的风格化视频。

02.03-语音驱动的人像动画生成

如上面的视频所示，该方法可以很容易地将视频驱动模型扩展到音频驱动的肖像动画框架。上面展示了该方法在中文、日文和阿拉伯文上的结果。

02.04-人像驱动动物动画生成

如上面的视频所示，FantasyPortrait对动物动画任务表现出很强的泛化能力，尽管没有在动物数据集上进行明确的训练。

03-FantasyPortrait基本原理

FantasyPortrait的整体架构如上图所示。给定一个参考肖像图像和一个包含面部动作的视频片段，该方法可以从视频序列中提取隐含的面部表情特征，并将其传输和融合到目标肖像中，从而生成最终的视频输出。

作者提出了一种新的表情增强隐式控制方法，该方法旨在从隐式面部表征中学习细粒度的表情特征，同时显著增强对具有挑战性的面部动态的建模，特别是在嘴部运动和情绪表达方面。

此外，作者提出了一种多肖像蒙面交叉注意机制，从而实现对多个角色面部表情的精确和协调控制。

04-FantasyPortrait性能评估

04.01-主观效果评估

上面的视频展示了该方法与多个 SOTA的人像动画方法（LivePortrait、Skyreels-AI、HunyuanPortrait、X-Potrait、FollowYE）在相同输入下的生成结果。通过仔细观察与分析，我们可以发现：该方法生成的效果更逼真、更符合驱动视频、一致性更高一些。

04.02-客观指标评估

上表展示了该方法与多个SOTA的方法在多个不同的数据集上面的多项客观指标评估结果。通过观察与分析，我们可以发现：该方法在单人和多人场景下都获得了最佳的得分，与其它方法拉开了较大的差距。

关注我，AI热点早知道，AI算法早精通，AI产品早上线！

禁止私自转载，需要转载请先征求我的同意！

欢迎你的加入，让我们一起交流、讨论与成长！

若二维码失效：关注公众号--》交流分享--》联系我们

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里