基于结构性稀疏化的大语言模型联邦微调方法及相关设备
申请号:CN202511579029
申请日期:2025-10-31
公开号:CN121031799A
公开日期:2025-11-28
类型:发明专利
摘要
本申请属于模型训练技术领域,提供一种基于结构性稀疏化的大语言模型联邦微调方法及相关设备。本申请实施例通过本地样本数据对大语言模型和适配器模型进行训练,获得适配器模型的模型参数,模型参数包括低秩的第一参数矩阵和第二参数矩阵;分别对第一参数矩阵和第二参数矩阵进行结构性稀疏化处理,再对第一稀疏化矩阵和第二稀疏化矩阵相乘所得的稀疏适应矩阵进行元素级压缩处理,获得压缩矩阵信息;基于服务器发送的基于多个客户端的压缩矩阵信息进行聚合的目标压缩矩阵更新大语言模型的下一轮模型参数,并重复执行模型训练步骤,直至获得训练后的大语言模型。本申请能够减少应用于联邦LoRA微调场景下的压缩误差,且降低对LLM的微调产生负面影响。
技术关键词
矩阵
微调方法
参数
大语言模型
适配器
元素
客户端
误差函数
度量
模型训练技术
服务器
通信带宽
微调装置
样本
比率
模块
处理器
索引
存储器
数据