摘要
本发明公开了基于视觉风格特征的多样性增强协同语音动作生成系统,所述系统包括:特征提取多样性增强模块将参考视频输入到3D人体姿态估计网络中以获得styleclips。通过引入额外的styleclips,可以获取更多的特征信息,从而增加动作的多样性。风格编码器多样性补偿模块利用具有附加注意力机制池化层的transformer风格编码器来有效提取styleclips的深度学习表示。最后,动作预测器多样性驱动模块采用交叉注意力机制,将MFCC和风格代码进行融合,在交叉条件自回归生成动作过程中进行影响,从而调节生成的动作来增加多样性。所述方法在保持动作自然度的同时,显著提高了生成动作的多样性。