摘要
本发明公开了一种基于深度学习的协同语音手势生成方法及系统,方法包括:获取初始手势序列,对初始手势序列进行前向扩散,得到扰动序列;获取语音特征、初始姿态特征和时间嵌入向量,对语音特征、初始姿态特征和时间嵌入向量进行跨模态融合,得到多模态特征;使用扩展长短期记忆网络在多模特征的指导下对扰动序列迭代去噪,得到新的手势序列。本发明结合使用扩展长短期记忆网络与扩展模型,能够有效捕捉到不同多模态特征与手势之间的相关性,帮助从条件信息中推断自然且富有表现力的手势,使得生成的协同手势具有更高的质量和多样性。