一种基于帧间相似度的伪造语音片段定位方法

申请号：CN202510854656

申请日期：2025-06-24

公开号：CN120636462A

公开日期：2025-09-12

类型：发明专利

摘要

本发明公开了一种基于帧间相似度的伪造语音片段定位方法，涉及人工智能安全领域，包括：构建上下文感知特征提取网络，生成语音信号的高维特征表示；设计嵌入相似度模块，通过计算帧间余弦相似度分离真实帧与伪造帧，定义由真实帧相似性损失、伪造帧相似性损失和真实‑伪造差异损失组成的相似度损失；引入时间卷积操作，结合动态注意力机制生成局部权重掩码；通过双层卷积神经网络与全连接层进行帧级二分类，定义分类损失；基于相似度损失和分类损失设计联合优化目标函数，通过最小化联合优化目标函数进行模型训练，利用训练好的模型确定伪造语音片段的位置。本发明可以实现对伪造语音片段的高精度细粒度定位，提升复杂噪声环境下的检测稳定性。

技术关键词

定位方法双层卷积神经网络生成语音信号特征提取网络邻域特征感知特征语音特征注意力机制阈值分割算法定义输入多尺度生成多尺度全局平均池化后处理模块标签噪声预训练模型