这篇文章提出了一种新的自监督学习方法,叫做自监督视频面部情感感知器(SVFAP),用来发挥大规模自监督学习在视频面部情感分析中的作用。如图1所示,SVFAP的训练分为两个阶段:自监督预训练和下游任务微调。考虑到MAE 及其视频版本在计算机视觉领域已经取得了非常好的效果,SVFAP借鉴了它的结构,整体流程设计简单清晰。
自监督预训练目标
在预训练阶段,SVFAP使用了一种叫做“掩码面部视频自动编码”(masked facial video autoencoding)的方法,从大量未标注的面部视频中学习有用的、可以迁移的时空特征。模型采用了非对称的编码器-解码器结构,以便更高效地进行预训练。其中,能力强的编码器只处理一部分可见的输入数据(因为大部分内容被掩码掉了),而轻量级的解码器则负责处理全部信息,并尝试重建被掩码的部分。
下游任务适配与微调策略
到了微调阶段,模型会丢掉解码器,只使用之前预训练好的高容量编码器,在具体的下游任务上进行微调。这里需要注意的是,传统的MAE及其视频版本通常使用原始视觉Transformer(ViT)作为编码器。虽然这种结构在预训练时效率不错,但在实际应用(比如视频任务)中的微调过程依然计算开销很大。考虑到3D面部视频数据中存在很多冗余信息(例如左右脸的对称性以及帧与帧之间的相关性),本文提出了一种新的编码器结构——时间金字塔与空间瓶颈Transformer(Temporal Pyramid and Spatial Bottleneck Transformer, TPSBT),来替代ViT,从而在预训练和微调阶段都能保持较高的效率。
图1 SVFAP的整体概述
时间金字塔与空间瓶颈Transformer(TPSBT)
如图2所示,为了解决传统视觉Transformer(ViT)在微调阶段计算开销大的问题,作者提出了一种新的高效编码器结构——TPSBT。该结构利用空间瓶颈机制减少冗余的空间信息,并通过时间金字塔下采样降低时间维度的冗余,从而实现从预训练到微调全过程的高效建模。
图2 SVFAP的编码器结构
通道掩码策略
为了使视频重建成为一个具有挑战性的预训练任务,作者采用了通道掩码策略,即在时空维度上随机遮蔽连续的视频片段(tube-shaped patches)。相比图像任务中75%的掩码率,视频任务由于更高的时空冗余性,采用更高的掩码率(如90%),以确保模型能学习到更具代表性和泛化能力的特征。
部分数据集上的对比实验
表1 与DFEW(7分类)上最先进的方法进行比较
表2 与FERV39K(7分类)上最先进的方法进行比较

表3 与MAFW(11分类)上最先进的方法进行比较

如表1所示,本文的SVFAP-B模型在DFEW数据集上表现显著优于现有最优方法——未加权准确率(UAR)提升5.72%,加权准确率(WAR)提升5.02%,创造了该数据集的新纪录。就连轻量版的SVFAP-S也大幅超越之前的最佳模型,实现了更优的精度-复杂度平衡。具体到每个情绪类别的表现,本文的方法对多数情感类别(如开心、悲伤)都有显著提升。特别值得注意的是,对于仅占全数据集1.2%(约146个样本)的"厌恶"这类稀有情绪,基线模型基本无法正确分类,而本文的SVFAP-B却比之前最优结果提高了约10%。这说明通过大规模自监督预训练,本文的方法能学习到通用的情感表征,从而缓解少数类别样本不平衡带来的学习困难。
在其他两个数据集上本文也观察到类似优势。在最大的DFER数据集FERV39k上(表2),SVFAP-B以42.14%的UAR和52.29%的WAR刷新纪录,分别领先之前最优基线4.38%和3.75%。在MAFW数据集上(表3),SVFAP-B相比当前最优的T-ESFL模型,UAR和WAR分别提升7.91%和6.10%。当然,这两个数据集上也存在轻微的性能波动。总体而言,在三个真实场景数据集上取得的突破性成果,充分验证了SVFAP模型优异的泛化能力。
图3 从VoxCeleb2的测试集中随机选择的三个视频样本的重建结果,模型掩蔽率为90%。图中展示了3个样本的原始视频(顶部),掩蔽输入视频(中间)和重建视频(底部)。
此外,图3展示了使用最佳预训练模型重建的视频样本。需要说明的是,这些样本都是从VoxCeleb2测试集中随机选取的——这些说话人与预训练使用的开发集完全无交集,也就是说,本文的模型在预训练阶段从未"见过"他们。实验发现,即使在高达90%的遮蔽率下,SVFAP仍然能生成令人满意的重建效果,特别是对动态面部表情的还原非常到位。这表明,得益于具有挑战性的遮蔽面部视频自编码任务,本文的模型能够从有限的可见输入中推理出高层次、有意义的时空语义信息,从而准确还原被遮蔽的内容。