摘要
本申请公开了一种模型训练方法、装置、电子设备及计算机存储介质。其中,该模型训练方法包括:基于预设训练样本集中的第一训练样本集对初始基线模型进行监督微调,得到监督微调模型以及偏好数据样本;基于偏好数据样本对初始奖励模型进行优化训练,得到目标奖励模型,以及基于偏好数据样本对监督微调模型进行优化训练,得到偏好优化模型;基于偏好优化模型和第一训练样本集生成第一奖励信号,以及基于偏好优化模型、目标奖励模型和预设训练样本集中的第二训练样本集生成第二奖励信号;基于第一奖励信号、第二奖励信号以及第二训练样本集对偏好优化模型进行优化训练,得到目标对象生成式预训练模型。采用该方法能够提升模型的泛化能力。