一个指令误导智能模型!北航等首创3D语义攻击框架,成功率暴涨119%
一个指令误导智能模型!北航等首创3D语义攻击框架,成功率暴涨119%人工智能模型的安全对齐问题,一直像悬在头顶的达摩克利斯之剑。 自对抗样本被发现以来,这一安全对齐缺陷,广泛、长期地存在与不同的深度学习模型中。
来自主题: AI资讯
7963 点击 2025-10-23 16:00
搜索
人工智能模型的安全对齐问题,一直像悬在头顶的达摩克利斯之剑。 自对抗样本被发现以来,这一安全对齐缺陷,广泛、长期地存在与不同的深度学习模型中。