图片

image.png

该论文2025年发表于IEEE Transactions on Affective Computing(中科院1区,IF=9.8),题目为《SVFAP: Self-Supervised Video Facial Affect Perceiver》。

中国科学院大学的孙立才博士为此文的第一作者,连政副研究员、刘斌副教授和陶建华教授为此文的通讯作者。

论文链接:

https://ieeexplore.ieee.org/abstract/document/10623380

图片


图片
图片

论文概要


基于视频的面部情感分析近年来因其在人机交互中的关键作用而受到越来越多的关注。以往的研究主要集中在开发各种深度学习架构,并以完全监督的方式训练它们。尽管这些监督方法取得了显著进展,但长期以来缺乏大规模高质量标注数据严重阻碍了它们的进一步改进。受计算机视觉中自监督学习成功的启发,本文提出了一种自监督方法,称为自监督视频面部情感感知器(SVFAP),以解决监督方法面临的困境。具体而言,SVFAP利用掩码面部视频自动编码对大量未标注面部视频进行自监督预训练。考虑到面部视频中存在较大的时空冗余,本文提出了一种新的时间金字塔和空间瓶颈Transformer作为SVFAP的编码器,不仅大大降低了计算成本,还实现了优异的性能。为了验证本文方法的有效性,本文在涵盖三个下游任务的九个数据集上进行了实验,包括动态面部表情识别、维度情感识别和个性识别。综合结果表明,SVFAP可以通过大规模自监督预训练学习到强大的情感相关表示,并且在所有数据集上显著优于之前的最先进方法。

图片
图片
研究背景


基于视频的面部情感分析在人机交互中具有重要应用,但传统的监督学习方法依赖大量高质量标注数据,而这类数据的获取成本高且存在标签噪声和样本不平衡问题。为解决这些问题,受计算机视觉领域自监督学习成功的启发,作者提出了一种名为SVFAP(Self-supervised Video Facial Affect Perceiver)的自监督学习方法,通过在大规模未标注面部视频上进行预训练,以学习高效的情感相关表征。研究旨在克服监督方法的数据瓶颈,并提升模型在实际场景中的泛化能力。

图片
图片
方法与结果分析


这篇文章提出了一种新的自监督学习方法,叫做自监督视频面部情感感知器(SVFAP),用来发挥大规模自监督学习在视频面部情感分析中的作用。如图1所示,SVFAP的训练分为两个阶段:自监督预训练和下游任务微调。考虑到MAE 及其视频版本在计算机视觉领域已经取得了非常好的效果,SVFAP借鉴了它的结构,整体流程设计简单清晰。

自监督预训练目标

在预训练阶段,SVFAP使用了一种叫做“掩码面部视频自动编码”(masked facial video autoencoding)的方法,从大量未标注的面部视频中学习有用的、可以迁移的时空特征。模型采用了非对称的编码器-解码器结构,以便更高效地进行预训练。其中,能力强的编码器只处理一部分可见的输入数据(因为大部分内容被掩码掉了),而轻量级的解码器则负责处理全部信息,并尝试重建被掩码的部分。

下游任务适配与微调策略

到了微调阶段,模型会丢掉解码器,只使用之前预训练好的高容量编码器,在具体的下游任务上进行微调。这里需要注意的是,传统的MAE及其视频版本通常使用原始视觉Transformer(ViT)作为编码器。虽然这种结构在预训练时效率不错,但在实际应用(比如视频任务)中的微调过程依然计算开销很大。考虑到3D面部视频数据中存在很多冗余信息(例如左右脸的对称性以及帧与帧之间的相关性),本文提出了一种新的编码器结构——时间金字塔与空间瓶颈Transformer(Temporal Pyramid and Spatial Bottleneck Transformer, TPSBT),来替代ViT,从而在预训练和微调阶段都能保持较高的效率。

image.png

1 SVFAP的整体概述

时间金字塔与空间瓶颈TransformerTPSBT

如图2所示,为了解决传统视觉Transformer(ViT)在微调阶段计算开销大的问题,作者提出了一种新的高效编码器结构——TPSBT。该结构利用空间瓶颈机制减少冗余的空间信息,并通过时间金字塔下采样降低时间维度的冗余,从而实现从预训练到微调全过程的高效建模。

image.png

2 SVFAP的编码器结构

通道掩码策略

为了使视频重建成为一个具有挑战性的预训练任务,作者采用了通道掩码策略,即在时空维度上随机遮蔽连续的视频片段(tube-shaped patches)。相比图像任务中75%的掩码率,视频任务由于更高的时空冗余性,采用更高的掩码率(如90%),以确保模型能学习到更具代表性和泛化能力的特征。

部分数据集上的对比实验

表1 与DFEW(7分类)上最先进的方法进行比较

image.png

表2 与FERV39K(7分类)上最先进的方法进行比较

image.png

表3 与MAFW(11分类)上最先进的方法进行比较

image.png

如表1所示,本文的SVFAP-B模型在DFEW数据集上表现显著优于现有最优方法——未加权准确率(UAR)提升5.72%,加权准确率(WAR)提升5.02%,创造了该数据集的新纪录。就连轻量版的SVFAP-S也大幅超越之前的最佳模型,实现了更优的精度-复杂度平衡。具体到每个情绪类别的表现,本文的方法对多数情感类别(如开心、悲伤)都有显著提升。特别值得注意的是,对于仅占全数据集1.2%(约146个样本)的"厌恶"这类稀有情绪,基线模型基本无法正确分类,而本文的SVFAP-B却比之前最优结果提高了约10%。这说明通过大规模自监督预训练,本文的方法能学习到通用的情感表征,从而缓解少数类别样本不平衡带来的学习困难。

在其他两个数据集上本文也观察到类似优势。在最大的DFER数据集FERV39k上(表2),SVFAP-B以42.14%的UAR和52.29%的WAR刷新纪录,分别领先之前最优基线4.38%和3.75%。在MAFW数据集上(表3),SVFAP-B相比当前最优的T-ESFL模型,UAR和WAR分别提升7.91%和6.10%。当然,这两个数据集上也存在轻微的性能波动。总体而言,在三个真实场景数据集上取得的突破性成果,充分验证了SVFAP模型优异的泛化能力。

image.png

3 从VoxCeleb2的测试集中随机选择的三个视频样本的重建结果,模型掩蔽率为90%。图中展示了3个样本的原始视频(顶部),掩蔽输入视频(中间)和重建视频(底部)。

此外,图3展示了使用最佳预训练模型重建的视频样本。需要说明的是,这些样本都是从VoxCeleb2测试集中随机选取的——这些说话人与预训练使用的开发集完全无交集,也就是说,本文的模型在预训练阶段从未"见过"他们。实验发现,即使在高达90%的遮蔽率下,SVFAP仍然能生成令人满意的重建效果,特别是对动态面部表情的还原非常到位。这表明,得益于具有挑战性的遮蔽面部视频自编码任务,本文的模型能够从有限的可见输入中推理出高层次、有意义的时空语义信息,从而准确还原被遮蔽的内容。





图片
图片

结论


本文提出了一种名为自监督视频情感感知模型(SVFAP)的自监督学习方法,旨在释放大规模自监督预训练在视频面部情感分析中的潜力。SVFAP 采用遮蔽面部视频自编码作为预训练目标,利用大量无标注面部视频数据进行自监督学习。此外,该模型创新性地引入了TBSBT 编码器,从空间和时间两个维度显著降低 3D 面部视频数据的冗余度,从而在减少计算成本的同时提升性能。为验证 SVFAP 的有效性,本文在 9 个数据集上进行了广泛实验,涵盖三大主流下游任务:动态表情识别、维度情感识别 和 人格识别。实验结果表明,SVFAP 通过大规模自监督预训练,能够学习到强大的情感相关表征。具体而言,它不仅大幅超越此前基于监督和自监督的预训练模型,在小样本数据场景下也展现出极强的适应能力。更重要的是,SVFAP 在三大下游任务上均显著刷新了当前最优方法的性能,在所有测试数据集上创造了新的纪录。


撰稿人:崔江渝

审稿人:梁艳

图片


图片

脑机接口与混合智能研究团队

图片
图片
image.png

团队主页

www.scholat.com/team/hbci

图片