一种基于帧间相似度的伪造语音片段定位方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于帧间相似度的伪造语音片段定位方法
申请号:CN202510854656
申请日期:2025-06-24
公开号:CN120636462A
公开日期:2025-09-12
类型:发明专利
摘要
本发明公开了一种基于帧间相似度的伪造语音片段定位方法,涉及人工智能安全领域,包括:构建上下文感知特征提取网络,生成语音信号的高维特征表示;设计嵌入相似度模块,通过计算帧间余弦相似度分离真实帧与伪造帧,定义由真实帧相似性损失、伪造帧相似性损失和真实‑伪造差异损失组成的相似度损失;引入时间卷积操作,结合动态注意力机制生成局部权重掩码;通过双层卷积神经网络与全连接层进行帧级二分类,定义分类损失;基于相似度损失和分类损失设计联合优化目标函数,通过最小化联合优化目标函数进行模型训练,利用训练好的模型确定伪造语音片段的位置。本发明可以实现对伪造语音片段的高精度细粒度定位,提升复杂噪声环境下的检测稳定性。
技术关键词
定位方法 双层卷积神经网络 生成语音信号 特征提取网络 邻域特征 感知特征 语音特征 注意力机制 阈值分割算法 定义 输入多尺度 生成多尺度 全局平均池化 后处理模块 标签 噪声 预训练模型