一种可语音交互的三维数字人生成方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种可语音交互的三维数字人生成方法及系统
申请号:CN202511445211
申请日期:2025-10-11
公开号:CN120931773A
公开日期:2025-11-11
类型:发明专利
摘要
本发明属于三维重建技术领域,公开了一种可语音交互的三维数字人生成方法及系统。本发明根据输入的目标文本和采样人声音频的语言不同,自动生成不同语言的全新说话音频;使用多模型联合估计与时序损失函数保障了三维人体运动的时序稳定性与细节还原能力,利于准确估计图像中面部表情细节和手部姿态。在估计得到的高精度三维人体模型后,基于语音驱动进行人体动作表情生成,实现语音生成的动作与表情的精准同步,准确生成符合全新说话音频的面部表情运动和身体姿态运动即全身三维人体模型;最后使用三维神经渲染模型将全身三维人体模型渲染为可语音交互的真人数字人。本发明利于实现从单张人物图片输入到高精度三维数字人的生成和语音交互。
技术关键词
三维人体模型 音色特征 生成方法 参数估计模型 面部 语音 音频特征提取 解码器 编码器 动作表情 关节特征 多层卷积网络 文本 图像 优化身体 顶点