基于结构性稀疏化的大语言模型联邦微调方法及相关设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于结构性稀疏化的大语言模型联邦微调方法及相关设备
申请号:CN202511579029
申请日期:2025-10-31
公开号:CN121031799A
公开日期:2025-11-28
类型:发明专利
摘要
本申请属于模型训练技术领域,提供一种基于结构性稀疏化的大语言模型联邦微调方法及相关设备。本申请实施例通过本地样本数据对大语言模型和适配器模型进行训练,获得适配器模型的模型参数,模型参数包括低秩的第一参数矩阵和第二参数矩阵;分别对第一参数矩阵和第二参数矩阵进行结构性稀疏化处理,再对第一稀疏化矩阵和第二稀疏化矩阵相乘所得的稀疏适应矩阵进行元素级压缩处理,获得压缩矩阵信息;基于服务器发送的基于多个客户端的压缩矩阵信息进行聚合的目标压缩矩阵更新大语言模型的下一轮模型参数,并重复执行模型训练步骤,直至获得训练后的大语言模型。本申请能够减少应用于联邦LoRA微调场景下的压缩误差,且降低对LLM的微调产生负面影响。
技术关键词
矩阵 微调方法 参数 大语言模型 适配器 元素 客户端 误差函数 度量 模型训练技术 服务器 通信带宽 微调装置 样本 比率 模块 处理器 索引 存储器 数据
系统为您推荐了相关专利信息
网络任务调度方法 指标 硬盘 矩阵 内存
电流闭环控制 缠绕方法 非线性补偿算法 代表 缠绕机
家居管理系统 设备运行数据 协同控制策略 数据采集模块 分析模块
3DCNN模型 空间特征提取 结垢位置 动态 反馈控制器
冷水机组 模型更新方法 增量学习算法 数据 采集现场