一种可语音交互的三维数字人生成方法及系统

申请号：CN202511445211

申请日期：2025-10-11

公开号：CN120931773A

公开日期：2025-11-11

类型：发明专利

摘要

本发明属于三维重建技术领域，公开了一种可语音交互的三维数字人生成方法及系统。本发明根据输入的目标文本和采样人声音频的语言不同，自动生成不同语言的全新说话音频；使用多模型联合估计与时序损失函数保障了三维人体运动的时序稳定性与细节还原能力，利于准确估计图像中面部表情细节和手部姿态。在估计得到的高精度三维人体模型后，基于语音驱动进行人体动作表情生成，实现语音生成的动作与表情的精准同步，准确生成符合全新说话音频的面部表情运动和身体姿态运动即全身三维人体模型；最后使用三维神经渲染模型将全身三维人体模型渲染为可语音交互的真人数字人。本发明利于实现从单张人物图片输入到高精度三维数字人的生成和语音交互。

技术关键词

三维人体模型音色特征生成方法参数估计模型面部语音音频特征提取解码器编码器动作表情关节特征多层卷积网络文本图像优化身体顶点