基于结构性稀疏化的大语言模型联邦微调方法及相关设备

申请号：CN202511579029

申请日期：2025-10-31

公开号：CN121031799A

公开日期：2025-11-28

类型：发明专利

摘要

本申请属于模型训练技术领域，提供一种基于结构性稀疏化的大语言模型联邦微调方法及相关设备。本申请实施例通过本地样本数据对大语言模型和适配器模型进行训练，获得适配器模型的模型参数，模型参数包括低秩的第一参数矩阵和第二参数矩阵；分别对第一参数矩阵和第二参数矩阵进行结构性稀疏化处理，再对第一稀疏化矩阵和第二稀疏化矩阵相乘所得的稀疏适应矩阵进行元素级压缩处理，获得压缩矩阵信息；基于服务器发送的基于多个客户端的压缩矩阵信息进行聚合的目标压缩矩阵更新大语言模型的下一轮模型参数，并重复执行模型训练步骤，直至获得训练后的大语言模型。本申请能够减少应用于联邦LoRA微调场景下的压缩误差，且降低对LLM的微调产生负面影响。

技术关键词

矩阵微调方法参数大语言模型适配器元素客户端误差函数度量模型训练技术服务器通信带宽微调装置样本比率模块处理器索引存储器数据