一种大模型间接提示注入防御方法及相关装置

申请号：CN202510951932

申请日期：2025-07-10

公开号：CN120874045A

公开日期：2025-10-31

类型：发明专利

摘要

本发明属于人工智能技术领域，公开了一种大模型间接提示注入防御方法及相关装置；其中，所述大模型间接提示注入防御方法包括：步骤1，获取系统提示、用户指令、工具调用、结果返回并输入大模型，获得注意力分数并利用IPI攻击检测器进行IPI攻击检测，获得攻击检测结果并进行判断：攻击检测结果为未检测到攻击时，将大模型基于用户指令生成的初始回复作为最终回复输出；攻击检测结果为检测到攻击时，跳转执行步骤2；步骤2，基于各部分注意力分数赋予不同的权重以实现注意力重分布并生成处理后回复，将处理后回复作为最终回复输出。本发明公开的技术方案，能够保留大模型自身有用性能，且可普适于各参数量级的大模型。

技术关键词

注意力分布特征检测器样本分类器超参数非暂态计算机可读存储介质指令人工智能技术支持向量机防御系统处理器搜索算法模块元素存储器训练集电子设备总量