语音驱动视频合成方法、设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
语音驱动视频合成方法、设备及存储介质
申请号:CN202511495294
申请日期:2025-10-20
公开号:CN121037652A
公开日期:2025-11-28
类型:发明专利
摘要
本申请提供一种语音驱动视频合成方法、设备及存储介质,涉及计算机视觉与人工智能技术领域。该方法包括:根据原始说话视频中的多帧原始图像,分别确定多帧人脸区域图像以及对应的面部身份特征图像;采用人脸标准化模型,根据每帧面部身份特征图像,对对应的人脸区域图像进行身份特征和口型动作的解耦处理,输出对应的闭嘴人脸区域图像;采用口型合成模型,根据多帧闭嘴人脸区域图像,以及音频数据,生成多帧说话人脸区域图像;对多帧说话人脸区域图像和多帧原始图像进行融合处理,得到音频数据匹配的目标说话视频。消除原始口型的干扰,说话口型和音频数据的同步质量更高,进而显著提升了目标说话视频中口型与音频数据的同步性。
技术关键词
人脸 图像 视频 样本 身份 真实面部 音频 高清 语音 数据 人工智能技术 计算机视觉 处理器 同步性 可读存储介质 存储器 参数 尺寸