摘要
本发明属于大语言模型量化技术领域,具体涉及一种基于正交特征的大语言模型量化方法及加速器架构,量化方法将大语言模型的激活张量分割为多个列块,并以列块为粒度为整个激活张量分配FP4量化格式。本发明列块的概念定义为:将激活张量的矩阵分割为多个元素数量相同的段,其中段中各元素连续排列在矩阵的第一维度的同一行中,且排列在第二维度的连续的多个列中;列块包括第二维度的多个列,每个列块中列的数量与段中元素的数量一致。本发明克服了现有大语言模型分组量化技术中存在的缺陷,解决了大语言模型精度与硬件效率之间的矛盾。