一种大规模神经网络训练的低秩矩阵梯度估计方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种大规模神经网络训练的低秩矩阵梯度估计方法及系统
申请号:CN202511566040
申请日期:2025-10-30
公开号:CN121031696A
公开日期:2025-11-28
类型:发明专利
摘要
本发明属于神经网络模型训练优化技术领域,公开一种大规模神经网络训练的低秩矩阵梯度估计方法及系统,该方法包括:基于预设采样规则,采样满足等距或各向同性约束的低秩随机子空间;将矩阵梯度估计算法嵌入至低秩随机子空间中执行,在低维辅助变量上进行累加与更新;当低维辅助变量累积到预设步数后,对矩阵梯度估计算法的参数进行惰性更新;基于惰性更新后的矩阵梯度估计算法的全参数,计算加权矩阵,并根据加权矩阵的谱信息,优化下一轮低秩随机子空间的预设采样规则,以实现对低秩矩阵梯度估计。本发明提出包含估计阶段低秩化、投影分布最优化及惰性更新的方案,在工程上显著降低显存和步时门槛,在大模型微调中体现出可观的性价比。
技术关键词
神经网络训练 估计算法 矩阵 估计方法 特征值 变量 神经网络模型训练 参数 噪声信息 策略 迭代算法 采样模块 平方根 数值 门槛 阶段 密度