摘要
本申请涉及计算机技术领域,提供了一种视频生成模型的训练方法、装置、电子设备及存储介质。该方法包括:将各个训练样本输入视频生成模型,对各个训练视频帧、时间步进行特征嵌入,得到训练视频帧的特征图和时间步的特征图;将训练视频帧的特征图和时间步的特征图输入视频生成模型的多个多层感知机多次迭代扩散处理并进行解码得到预测视频的各个视频帧;基于预测视频的各个视频帧和训练视频的各个训练视频帧计算视频生成模型的损失值,并根据损失值更新视频生成模型的参数。解决了现有技术中基于注意力机制的扩散模型训练耗费大量计算资源且训练速度慢的问题,实现以较低计算成本生成高质量的视觉内容。