大语言模型越狱攻击的风险防御方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大语言模型越狱攻击的风险防御方法及装置
申请号:CN202411849245
申请日期:2024-12-16
公开号:CN119808883B
公开日期:2025-06-03
类型:发明专利
摘要
本申请提供了一种大语言模型越狱攻击的风险防御方法及装置,从大语言模型的输入侧、模型侧、输出侧进行了风险防御。风险防御方法包括:步骤S1,接收输入的文本信息;步骤S2,在大语言模型的输入侧,建立动态恶意关键词库;步骤S3,在大语言模型的模型侧,基于步骤S2传送过来的训练数据,训练学习模型运行反馈信息和模型内部状态信息,基于动态调整策略对大语言模型进行调整;步骤S4,在大语言模型的输出侧,基于步骤S3传送过来的预输出文本信息和步骤S2的动态恶意关键词库,构建输出审核库。本申请通过这种协同工作,每个层面的防御措施都能在整个安全框架中发挥最大效用,从而有效地预防和应对各种潜在的攻击,共同提升模型的整体防御能力。
技术关键词
风险防御方法 大语言模型 关键词 生成对抗网络模型 交互历史 意图识别 动态 命名实体识别 样本 策略 文本情感倾向 内部网络结构 生成对抗模型 数据 频率 神经网络结构