基于视觉风格特征的多样性增强协同语音动作生成系统

申请号：CN202411588620

申请日期：2024-11-08

公开号：CN119540034B

公开日期：2025-08-08

类型：发明专利

摘要

本发明公开了基于视觉风格特征的多样性增强协同语音动作生成系统，所述系统包括：特征提取多样性增强模块将参考视频输入到3D人体姿态估计网络中以获得styleclips。通过引入额外的styleclips，可以获取更多的特征信息，从而增加动作的多样性。风格编码器多样性补偿模块利用具有附加注意力机制池化层的transformer风格编码器来有效提取styleclips的深度学习表示。最后，动作预测器多样性驱动模块采用交叉注意力机制，将MFCC和风格代码进行融合，在交叉条件自回归生成动作过程中进行影响，从而调节生成的动作来增加多样性。所述方法在保持动作自然度的同时，显著提高了生成动作的多样性。

技术关键词

风格编码器身体生成系统梅尔频率倒谱系数输入解码器融合特征交叉注意力机制索引音频序列动作特征训练语音模型生成动作矩阵人体姿态估计时间卷积网络