一种基于正交特征的大语言模型量化方法及加速器架构

申请号：CN202511587377

申请日期：2025-11-03

公开号：CN121031687A

公开日期：2025-11-28

类型：发明专利

摘要

本发明属于大语言模型量化技术领域，具体涉及一种基于正交特征的大语言模型量化方法及加速器架构，量化方法将大语言模型的激活张量分割为多个列块，并以列块为粒度为整个激活张量分配FP4量化格式。本发明列块的概念定义为：将激活张量的矩阵分割为多个元素数量相同的段，其中段中各元素连续排列在矩阵的第一维度的同一行中，且排列在第二维度的连续的多个列中；列块包括第二维度的多个列，每个列块中列的数量与段中元素的数量一致。本发明克服了现有大语言模型分组量化技术中存在的缺陷，解决了大语言模型精度与硬件效率之间的矛盾。

技术关键词

格式地址生成器加速器索引大语言模型数据缩放单元指数执行矩阵乘法元素阵列乘法器核心符号处理单元因子模块分割方法周期