语音驱动视频合成方法、设备及存储介质

申请号：CN202511495294

申请日期：2025-10-20

公开号：CN121037652A

公开日期：2025-11-28

类型：发明专利

摘要

本申请提供一种语音驱动视频合成方法、设备及存储介质，涉及计算机视觉与人工智能技术领域。该方法包括：根据原始说话视频中的多帧原始图像，分别确定多帧人脸区域图像以及对应的面部身份特征图像；采用人脸标准化模型，根据每帧面部身份特征图像，对对应的人脸区域图像进行身份特征和口型动作的解耦处理，输出对应的闭嘴人脸区域图像；采用口型合成模型，根据多帧闭嘴人脸区域图像，以及音频数据，生成多帧说话人脸区域图像；对多帧说话人脸区域图像和多帧原始图像进行融合处理，得到音频数据匹配的目标说话视频。消除原始口型的干扰，说话口型和音频数据的同步质量更高，进而显著提升了目标说话视频中口型与音频数据的同步性。

技术关键词

人脸图像视频样本身份真实面部音频高清语音数据人工智能技术计算机视觉处理器同步性可读存储介质存储器参数尺寸