一种基于深度学习的协同语音手势生成方法及系统

申请号：CN202411741973

申请日期：2024-11-29

公开号：CN119577686A

公开日期：2025-03-07

类型：发明专利

摘要

本发明公开了一种基于深度学习的协同语音手势生成方法及系统，方法包括：获取初始手势序列，对初始手势序列进行前向扩散，得到扰动序列；获取语音特征、初始姿态特征和时间嵌入向量，对语音特征、初始姿态特征和时间嵌入向量进行跨模态融合，得到多模态特征；使用扩展长短期记忆网络在多模特征的指导下对扰动序列迭代去噪，得到新的手势序列。本发明结合使用扩展长短期记忆网络与扩展模型，能够有效捕捉到不同多模态特征与手势之间的相关性，帮助从条件信息中推断自然且富有表现力的手势，使得生成的协同手势具有更高的质量和多样性。

技术关键词

手势生成方法姿态特征长短期记忆网络多模态特征序列多模特征跨模态表达式语音特征提取噪声微处理器协方差矩阵生成系统可读存储介质解码器线性