一种大语言模型的安全对齐方法及装置

申请号：CN202511038055

申请日期：2025-07-25

公开号：CN120910391A

公开日期：2025-11-07

类型：发明专利

摘要

本说明书实施例提供了一种大语言模型的安全对齐方法及装置，该方法包括：获取第一大模型的第一权重参数矩阵和第二大模型的第二权重参数矩阵，第一大模型为已安全对齐的大模型，第二大模型为未安全对齐的大模型；基于第一权重参数矩阵和第二权重参数矩阵之间的差异，确定安全向量；计算得到第一权重参数矩阵和低秩矩阵之间的映射关系，低秩矩阵包括第一权重参数矩阵在其对应的低秩子空间中的分量特征；基于映射关系，提取安全向量在低秩子空间中对应的低秩主成分；将低秩主成分与待安全对齐的第三大模型的第三权重参数矩阵进行融合，得到安全对齐后的第三大模型，第三大模型为使用目标任务数据集对第一大模型进行微调后的大模型。

技术关键词

矩阵参数大语言模型分量特征对齐方法关系对齐装置对齐模块因子数据存储器处理器校准线性