摘要:【目的】 随着深度学习技术的进步,深度伪造的视觉异常变得难以察觉,而现有检测方法大多是单一的识别伪造视频中的视觉特征,忽略了深度建模和视频数据分布特性方面带来的影响。为解决单一的视觉和生成模型特征挖掘不全面的问题,本文提出了一种基于视觉和潜在空间特征融合的深度伪造视频检测模型(Deepfake Video Detection Based on Fusion of Visual and Latent Spatial Features,VLSFFD)。【方法】 首先,将伪造视频帧序列通过自编码器(AE)进行帧的重建,挖掘潜在空间特征;其次,分别将原始视频帧和重建视频帧,通过卷积视觉Transformer(Efficient-Swin)的结构进一步处理和提取特征;接着,将分别处理的特征经自适应特征融合模块(AFFM)进行特征融合;最后通过分类层检测视频真伪。【结果】 在FF++、DFDC和WildDeepfake三大数据集中进行了对比实验,对比于以往同类型最高的模型性能,本模型在三大数据集内测试的检测准确率均分别增长了0.26%、0.15%和0.17%,同时在DFDC的跨数据集测试中相较以往的最优性能也增长了2.29%,有效提高了模型检测性能和鲁棒性。【结论】 本模型充分挖掘和分析伪造视频的视觉和潜在空间特征,并将二者特征进行融合,有效的提升了深度伪造视频检测的泛化能力,显著缓解了现有方法在处理伪造视频时面临未知伪造的性能瓶颈。
文章目录
1 引言
2 模型框架
2.1 损失函数
2.2 AE帧重建
2.3 Efficient-Swin特征处理
2.4 自适应特征融合
3 实验与结果分析
3.1 数据集和视频预处理
3.2 评价指标和参数设置
3.3 实验环境
3.4 模型的时空复杂度
3.4.1 时间复杂度
3.4.2 空间复杂度
3.5 对比实验结果与分析
3.5.1 数据集内的对比实验
3.5.2 跨数据集的对比实验
3.6 消融实验结果与分析
3.7 可视化实验结果与分析
4 结论