一种基于多层次风格表征的语言模型风格后门防御方法

申请号：CN202510665106

申请日期：2025-05-22

公开号：CN120744911A

公开日期：2025-10-03

类型：发明专利

摘要

本发明公开了一种基于多层次风格表征的语言模型风格后门防御方法，该方法通过构建多层次风格表征框架与自适应多尺度带宽选择方法，实现文本风格特征的全面覆盖与高维空间的高效建模，采用多维度可疑度评分机制与风格‑语义平衡修复技术，结合敏感神经元动态调制与适应性防御学习机制，在模型内部构建了可进化的防御体系，实现了从样本级到模型级、从静态防护到动态适应的立体化防御，其技术手段突破了传统单维度表征的局限性，显著提升了后门检测的准确率与语义保真度，且使防御过程兼具精准性和实用性，创新性强、资源消耗低、防御效果持续稳定，可有效应对复杂多变的文本风格后门攻击场景。

技术关键词

风格样本多层次后门预训练语言模型动态更新语义特征提取高斯混合模型文本策略评分机制修复技术定义度函数对抗性同义词

系统为您推荐了相关专利信息

一种基于人工智能的对讲系统

对讲机关键词识别模块加密算法故障特征

运检机器人的作业决策方法、装置、系统及介质

查询关键词机器人语义样本多模态

水稻耐盐碱分子育种液相芯片的开发与应用

分子育种染色体液相水稻种质资源芯片

一种基于机器学习的建筑结构健康监测方法

建筑结构健康监测编码器样本 Softmax函数裂缝监测传感器

一种基于邀约机制和联邦学习的数据处理方法及相关设备

数据处理方法节点算法样本方针