摘要
本公开涉及一种模型训练方法、装置、存储介质和程序产品。所述方法包括:在前向传播阶段,对于任一检查点模块,在显存中保存所述检查点模块的输入和输出,并释放显存中的所述检查点模块的中间激活值;所述检查点模块的输入用于重计算中间激活值,所述检查点模块的输出用于所述检查点模块的后续模块的前向计算;在反向传播阶段,对于任一检查点模块,响应于所述检查点模块的最后一层为线性层,跳过所述最后一层的前向计算,根据所述最后一层对应的梯度公式计算梯度,并根据所述检查点模块中各层的梯度,完成对所述检查点模块的反向传播。本公开能够在与标准重计算方案相同的计算精度和显存节省量的同时,显著降低计算开销。