摘要
本发明涉及大语言模型技术领域,特别涉及一种基于低秩压缩的大语言模型加速方法及实现装置。该基于低秩压缩的大语言模型加速方法,使用自适应交叉近似算法对大语言模型的权重矩阵进行矩阵压缩分解,并得到权重矩阵的秩;然后再将权重矩阵的秩应用到基于LoRA微调过程中的低秩参数化更新矩阵上,作为其设定的秩进行微调训练,实现更新矩阵秩的自适应设置。该基于低秩压缩的大语言模型加速方法及实现装置,不仅降低了大语言模型在部署过程中的存储资源需求,还实现了微调过程中低秩参数化更新矩阵秩取值的自适应匹配,提高了应用的普适性,降低了大语言模型的使用算力门槛,加速了大语言模型的落地应用。