一种基于多层次风格表征的语言模型风格后门防御方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多层次风格表征的语言模型风格后门防御方法
申请号:CN202510665106
申请日期:2025-05-22
公开号:CN120744911A
公开日期:2025-10-03
类型:发明专利
摘要
本发明公开了一种基于多层次风格表征的语言模型风格后门防御方法,该方法通过构建多层次风格表征框架与自适应多尺度带宽选择方法,实现文本风格特征的全面覆盖与高维空间的高效建模,采用多维度可疑度评分机制与风格‑语义平衡修复技术,结合敏感神经元动态调制与适应性防御学习机制,在模型内部构建了可进化的防御体系,实现了从样本级到模型级、从静态防护到动态适应的立体化防御,其技术手段突破了传统单维度表征的局限性,显著提升了后门检测的准确率与语义保真度,且使防御过程兼具精准性和实用性,创新性强、资源消耗低、防御效果持续稳定,可有效应对复杂多变的文本风格后门攻击场景。
技术关键词
风格 样本 多层次 后门 预训练语言模型 动态更新 语义特征提取 高斯混合模型 文本 策略 评分机制 修复技术 定义 度函数 对抗性 同义词
系统为您推荐了相关专利信息
对讲机 关键词 识别模块 加密算法 故障特征
查询关键词 机器人 语义 样本 多模态
分子育种 染色体 液相 水稻种质资源 芯片
建筑结构健康监测 编码器 样本 Softmax函数 裂缝监测传感器
数据处理方法 节点 算法 样本 方针