一种基于蒸馏的持续自监督多类型语音声学特征表示方法

申请号：CN202510054722

申请日期：2025-01-14

公开号：CN119832940B

公开日期：2025-10-03

类型：发明专利

摘要

本发明涉及深度学习技术领域，具体为一种基于蒸馏的持续自监督多类型语音声学特征表示方法，包括：语音数据的采集；对采集的语音数据进行预处理，并将预处理后的不同类型语音数据分配到不同训练阶段；初始化一个掩蔽自监督特征提取模型；根据模型输出的重构特征构建重演缓冲区并进行数据增强；在下一阶段更新掩蔽自监督特征提取模型，利用重演缓冲区进行特征蒸馏；得到拟提取的多类型语音的声学特征；该方法将多类型语音数据按序训练，能够防止不同数据发生数据冲突；其次，在重演缓冲区数据上利用余弦相似度作为正则项进行特征蒸馏来保留知识，可在防止旧知识遗忘的同时，增强模型的可塑性。

技术关键词

谱图特征语音声学特征特征提取模型语音特征提取蒸馏阶段数据重构样本模型训练模块更新模型参数深度学习技术频谱特征处理器语谱图序列

系统为您推荐了相关专利信息

一种基于AI的广告自动设计方法及系统

自动设计方法广告图片词语数据库数据采集终端广告特征

模型训练方法、装置、电子设备、介质及程序产品

特征提取模型表格模型训练方法样本数据

声纹相似度计算方法、系统、计算机设备和存储介质

度计算方法特征提取模型语音数据特征值

一种AI平台下多模态问题的路由方法、介质及系统

意图识别语言声音多模态可读存储介质平台

样本分配及目标检测模型训练方法、系统、介质及设备

检测模型训练方法概率密度函数样本损失函数优化实体提取方法