视频生成方法、模型训练方法、装置及计算机程序产品

申请号：CN202510538730

申请日期：2025-04-27

公开号：CN120658921A

公开日期：2025-09-16

类型：发明专利

摘要

本申请公开了一种视频生成方法、模型训练方法、装置及计算机程序产品，视频生成方法包括：获取用于生成视频的目标音频以及参考图片，参考图片中包括发声对象；根据目标音频对应的一个或多个音频片段的片段特征以及参考图像，确定音频片段对应的各待生成视频帧的全局视觉特征；根据目标音频各音频帧的发音特征以及参考图片中发声对象的唇部特征，确定音频帧对应的待生成视频帧中发声对象的唇部特征；根据待生成视频帧对应的唇部特征和全局视觉特征，生成各视频帧。通过本申请提供的方案既能够使得所生成的视频中人物的表达更加生动自然，也能够很准确地使得唇部动作和音频同步，提高用户的视觉体验。

技术关键词

全局视觉特征唇部特征音频视频生成方法发声发音特征视频帧视频生成模型对象图片样本计算机程序产品模型训练方法图像脸部特征视频生成装置关键点基础

系统为您推荐了相关专利信息

音频处理方法及装置

音频序列计算机可执行指令计算机程序产品处理器

音频声音事件检测方法、装置、可读存储介质及设备

音频特征声音事件检测方法特征提取网络事件检测模型交叉注意力机制

一种用于高速公路中电缆断裂位置的检测装置及方法

数据处理模块输出放大器高通滤波器音频探测器

一种教师课堂教学行为智能分析与反馈方法及系统

教师课堂教学视频帧信息多视角反馈方法音频

基于大模型的回复信息生成方法、装置、设备及介质

语音特征回复信息生成方法声学特征对象偏好特征