基于原始波形与协同理解的智能合成歌声检测方法及系统

申请号：CN202511028445

申请日期：2025-07-25

公开号：CN120526810B

公开日期：2025-09-23

类型：发明专利

摘要

本发明公开了基于原始波形与协同理解的智能合成歌声检测方法及系统，涉及信息取证安全与人工智能技术领域，使用音乐源分离模型Demucs对歌声样本进行分离，得到纯人声和伴奏声；将伴奏声送入伴奏声码器，提取伴奏序列特征；将纯人声送入人声编码器，提取人声序列特征；同步将人声原始波形送入正交编码器，提取基于原始波形的底层序列特征；并采用自注意力机制进行歌声特征聚合；将聚合后的特征送入基于图的后端，得到对应的第一样本置信度得分，同时将基于原始波形的底层特征并行送入基于图的后端，得到对应的第二样本置信度得分；对第一和第二样本置信度得分进行分数级融合，得到最终检测结果，有效地提高了模型在各种条件下的检测能力。

技术关键词

人声序列特征编码器波形样本语音活动检测音乐更新模型参数矢量量化检测损失人工智能技术数据处理模块组合模块注意力机制声码器教师