摘要
本发明属于人工智能技术领域,公开了一种大模型间接提示注入防御方法及相关装置;其中,所述大模型间接提示注入防御方法包括:步骤1,获取系统提示、用户指令、工具调用、结果返回并输入大模型,获得注意力分数并利用IPI攻击检测器进行IPI攻击检测,获得攻击检测结果并进行判断:攻击检测结果为未检测到攻击时,将大模型基于用户指令生成的初始回复作为最终回复输出;攻击检测结果为检测到攻击时,跳转执行步骤2;步骤2,基于各部分注意力分数赋予不同的权重以实现注意力重分布并生成处理后回复,将处理后回复作为最终回复输出。本发明公开的技术方案,能够保留大模型自身有用性能,且可普适于各参数量级的大模型。