一种大规模神经网络训练的低秩矩阵梯度估计方法及系统

申请号：CN202511566040

申请日期：2025-10-30

公开号：CN121031696A

公开日期：2025-11-28

类型：发明专利

摘要

本发明属于神经网络模型训练优化技术领域，公开一种大规模神经网络训练的低秩矩阵梯度估计方法及系统，该方法包括：基于预设采样规则，采样满足等距或各向同性约束的低秩随机子空间；将矩阵梯度估计算法嵌入至低秩随机子空间中执行，在低维辅助变量上进行累加与更新；当低维辅助变量累积到预设步数后，对矩阵梯度估计算法的参数进行惰性更新；基于惰性更新后的矩阵梯度估计算法的全参数，计算加权矩阵，并根据加权矩阵的谱信息，优化下一轮低秩随机子空间的预设采样规则，以实现对低秩矩阵梯度估计。本发明提出包含估计阶段低秩化、投影分布最优化及惰性更新的方案，在工程上显著降低显存和步时门槛，在大模型微调中体现出可观的性价比。

技术关键词

神经网络训练估计算法矩阵估计方法特征值变量神经网络模型训练参数噪声信息策略迭代算法采样模块平方根数值门槛阶段密度