一种基于音视频多模态融合的深度伪造检测方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于音视频多模态融合的深度伪造检测方法及系统
申请号:CN202510666856
申请日期:2025-05-22
公开号:CN120580481A
公开日期:2025-09-02
类型:发明专利
摘要
本发明属于多媒体安全技术领域,特别涉及一种基于音视频多模态融合的深度伪造检测方法及系统。方法包括通过动态ROI裁剪从视频流中提取唇部运动时空特征,依次通过快速傅里叶变换和梅尔滤波器组处理音频流得到音频频谱特征;基于取唇部运动时空特征重构生成对应的音频特征,采用双向跨模态注意力机制对音频频谱特征与生成的音频特征进行融合得到注意力融合特征;获取音频流的梅尔频谱图,利用由卷积层构成的特征提取模型分别从梅尔频谱图、视频流中提取不同尺度的特征图进行融合得到多尺度特征;根据注意力融合特征和多尺度融合特征展平后在通道维度拼接后进行加权融合,通过多层感知机输出一个伪造概率。本发明提高视频检测性能。
技术关键词
融合特征 频谱特征 音频特征 多尺度特征 多层感知机 视频流 特征提取模型 注意力机制 视觉 跨模态 重构 音视频 多模态 运动 光流法 动态时间规整 基频轮廓 唇动特征
系统为您推荐了相关专利信息
深度学习模型 金融 信息熵 数据 变量
监测告警方法 分布式传感器网络 周期 深度学习模型训练 电机运行数据
客户 意图识别方法 画像 大语言模型 情感反馈
岩溶隧道 控制策略 趋势预测模型 地下水 排水控制装置
风险预测方法 时间序列特征 有限元网格模型 跨模态融合特征 栓塞