摘要
本申请公开了一种视频生成方法、模型训练方法、装置及计算机程序产品,视频生成方法包括:获取用于生成视频的目标音频以及参考图片,参考图片中包括发声对象;根据目标音频对应的一个或多个音频片段的片段特征以及参考图像,确定音频片段对应的各待生成视频帧的全局视觉特征;根据目标音频各音频帧的发音特征以及参考图片中发声对象的唇部特征,确定音频帧对应的待生成视频帧中发声对象的唇部特征;根据待生成视频帧对应的唇部特征和全局视觉特征,生成各视频帧。通过本申请提供的方案既能够使得所生成的视频中人物的表达更加生动自然,也能够很准确地使得唇部动作和音频同步,提高用户的视觉体验。