视频生成模型的训练方法、装置、电子设备及存储介质

申请号：CN202410999837

申请日期：2024-07-24

公开号：CN118658032A

公开日期：2024-09-17

类型：发明专利

摘要

本申请涉及计算机技术领域，提供了一种视频生成模型的训练方法、装置、电子设备及存储介质。该方法包括：将各个训练样本输入视频生成模型，对各个训练视频帧、时间步进行特征嵌入，得到训练视频帧的特征图和时间步的特征图；将训练视频帧的特征图和时间步的特征图输入视频生成模型的多个多层感知机多次迭代扩散处理并进行解码得到预测视频的各个视频帧；基于预测视频的各个视频帧和训练视频的各个训练视频帧计算视频生成模型的损失值，并根据损失值更新视频生成模型的参数。解决了现有技术中基于注意力机制的扩散模型训练耗费大量计算资源且训练速度慢的问题，实现以较低计算成本生成高质量的视觉内容。

技术关键词

视频生成模型多层感知机视频帧混合层融合特征时序非线性训练集文本解码器电子设备噪声可读存储介质处理器注意力机制解码模块训练装置编码模块