摘要
本发明属于多媒体安全技术领域,特别涉及一种基于音视频多模态融合的深度伪造检测方法及系统。方法包括通过动态ROI裁剪从视频流中提取唇部运动时空特征,依次通过快速傅里叶变换和梅尔滤波器组处理音频流得到音频频谱特征;基于取唇部运动时空特征重构生成对应的音频特征,采用双向跨模态注意力机制对音频频谱特征与生成的音频特征进行融合得到注意力融合特征;获取音频流的梅尔频谱图,利用由卷积层构成的特征提取模型分别从梅尔频谱图、视频流中提取不同尺度的特征图进行融合得到多尺度特征;根据注意力融合特征和多尺度融合特征展平后在通道维度拼接后进行加权融合,通过多层感知机输出一个伪造概率。本发明提高视频检测性能。