一种大规模神经网络训练的低秩矩阵梯度估计方法及系统
申请号:CN202511566040
申请日期:2025-10-30
公开号:CN121031696A
公开日期:2025-11-28
类型:发明专利
摘要
本发明属于神经网络模型训练优化技术领域,公开一种大规模神经网络训练的低秩矩阵梯度估计方法及系统,该方法包括:基于预设采样规则,采样满足等距或各向同性约束的低秩随机子空间;将矩阵梯度估计算法嵌入至低秩随机子空间中执行,在低维辅助变量上进行累加与更新;当低维辅助变量累积到预设步数后,对矩阵梯度估计算法的参数进行惰性更新;基于惰性更新后的矩阵梯度估计算法的全参数,计算加权矩阵,并根据加权矩阵的谱信息,优化下一轮低秩随机子空间的预设采样规则,以实现对低秩矩阵梯度估计。本发明提出包含估计阶段低秩化、投影分布最优化及惰性更新的方案,在工程上显著降低显存和步时门槛,在大模型微调中体现出可观的性价比。
技术关键词
神经网络训练
估计算法
矩阵
估计方法
特征值
变量
神经网络模型训练
参数
噪声信息
策略
迭代算法
采样模块
平方根
数值
门槛
阶段
密度