模型训练方法、装置、存储介质和程序产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
模型训练方法、装置、存储介质和程序产品
申请号:CN202510798377
申请日期:2025-06-13
公开号:CN120654764A
公开日期:2025-09-16
类型:发明专利
摘要
本公开涉及一种模型训练方法、装置、存储介质和程序产品。所述方法包括:在前向传播阶段,对于任一检查点模块,在显存中保存所述检查点模块的输入和输出,并释放显存中的所述检查点模块的中间激活值;所述检查点模块的输入用于重计算中间激活值,所述检查点模块的输出用于所述检查点模块的后续模块的前向计算;在反向传播阶段,对于任一检查点模块,响应于所述检查点模块的最后一层为线性层,跳过所述最后一层的前向计算,根据所述最后一层对应的梯度公式计算梯度,并根据所述检查点模块中各层的梯度,完成对所述检查点模块的反向传播。本公开能够在与标准重计算方案相同的计算精度和显存节省量的同时,显著降低计算开销。
技术关键词
检查点 模型训练方法 线性 模型训练装置 阶段 多层感知机 计算机程序产品 处理器 组合模块 网络模块 矩阵 可读存储介质 存储器 机制
系统为您推荐了相关专利信息
负荷转供 辅助决策方法 有源配电网 电设备 风险
履带运输机 偏差 生成控制指令 数据获取单元 轨迹形状
制导飞行器 无人机飞行高度 无人机飞行速度 非线性动力学模型 飞行器控制技术
移动机械臂 轨迹 机器人运动规划 启发式搜索算法 综合性
精密单点定位方法 北斗导航系统 卡尔曼滤波模型 电离层延迟误差 建立定位模型