一种基于低秩压缩的大语言模型加速方法及实现装置

申请号：CN202410865324

申请日期：2024-07-01

公开号：CN118396068B

公开日期：2024-10-08

类型：发明专利

摘要

本发明涉及大语言模型技术领域，特别涉及一种基于低秩压缩的大语言模型加速方法及实现装置。该基于低秩压缩的大语言模型加速方法，使用自适应交叉近似算法对大语言模型的权重矩阵进行矩阵压缩分解，并得到权重矩阵的秩；然后再将权重矩阵的秩应用到基于LoRA微调过程中的低秩参数化更新矩阵上，作为其设定的秩进行微调训练，实现更新矩阵秩的自适应设置。该基于低秩压缩的大语言模型加速方法及实现装置，不仅降低了大语言模型在部署过程中的存储资源需求，还实现了微调过程中低秩参数化更新矩阵秩取值的自适应匹配，提高了应用的普适性，降低了大语言模型的使用算力门槛，加速了大语言模型的落地应用。

技术关键词

矩阵模型加速方法近似误差近似算法元素大语言模型索引模型预训练深度神经网络存储模块可读存储介质存储计算机程序加速设备复杂度格式参数门槛处理器存储器

系统为您推荐了相关专利信息

一种中医药文献信息中循证证据的自动选择和推荐系统

中医药推荐系统文本训练语言模型 LSTM模型

一种可审计的个性化智能电网数据隐私保护方法

智能电网数据列表隐私保护方法拉普拉斯椭圆曲线算法

基于模糊坐标补偿的桩基预埋区域智能测绘方法及装置

智能测绘方法桩基坐标网格模糊规则库

一种生产过程数据采集分析系统及方法

多孔砖数据采集分析系统干燥室数据采集分析方法动态变化特征

一种基于信息瓶颈的方面级情感分析方法

情感分析方法信息瓶颈理论分析解释方法自然语言数据