你有没有想过,如果你和 AI 聊天,无意中把自己的生日、住址或照片告诉了它,这些信息会不会被它记住?以及我们是否可以像删除微信聊天记录一样,让 AI 忘记这些隐私?
近日,合肥工业大学教授时增林团队打造出一款机器遗忘技术,能让 AI 安全地忘记你的隐私,同时还能确保其他看家本领完全不受影响,等于给 AI 做了一场脑部手术,只切除有害的记忆肿瘤,而完好的大脑功能完全保留下来。
本次机器遗忘技术是一种良性遗忘技术,依赖于一个名为雕刻性记忆遗忘适配器,英文简称为 SMFA。时增林告诉 DeepTech:“我们首次在多模态大模型遗忘问题上,提出有益遗忘这一概念,并首次定义了对于多模态大模型而言,什么是有益的遗忘能力。同时,我们也首次提供了能够实现这种有益遗忘的方法,即我们的 SMFA。”
研究中,时增林团队首先让 AI 在需要忘记的隐私数据上进行训练。不过,这次训练的目标不是学习知识,而是学习拒绝回答。他和团队把原本正确的答案比如这个人的名字叫张三替换成“我不知道”“我无法提供该信息”等拒绝性回答。通过训练 AI 就能学会针对这些特定问题守口如瓶。这个过程中产生的参数更新,被单独打包成为一个叫做记忆遗忘适配器的小模块。
但是,只学习拒绝容易让 AI 变得对什么都一问三不知。为了防止这种过度泛化,时增林等人同时使用了保留锚点。他们使用一小部分必须保留的正常知识比如一些无害的图片和描述针对 AI 进行微调,借此产生另一组参数更新。这个锚点就像灯塔,指明了哪些知识结构和能力是需要被牢牢保护和坚决不能动摇的。
那么现在有两个力量在影响 AI:一个是要它忘记,一个是要它记住。SMFA 的工作就是仔细分析这两组参数更新,找出其中打架的部分。比如,遗忘更新试图改变某个参数,而这个参数的改变方向恰恰会损害锚点想要保护的知识。
SMFA 则会使用一个巧妙的掩码机制,精准地屏蔽掉那些有害且强势的遗忘更新,只保留那些能够有效实现隐私遗忘但是又不过度的更新。最后,将这个雕刻好的更新模块,轻轻安装回原始的 AI 模型之中。
结果就是:AI 成功忘记了指定的隐私,问起的时候它会礼貌拒绝或者回答其他无关内容,但是它的看图视力和理解能力丝毫没有受损,对于其他该记住的知识也依然可以对答如流。
为了公平、严格地测试各种遗忘方法的优劣,时增林团队还构建了世界上第一个针对多模态大模型选择性遗忘的综合测试基准,命名为 S-MLLMUn Bench。
这个基准包含了 1,000 个完全虚构的虚拟人物档案,每份档案都有 AI 生成的人物图片和详细的文本信息,比如姓名、职业、工资,甚至还有一份眼科医学图像和诊断描述。这样做既测试了隐私保护,又保证了研究能够完全符合伦理。
测试分为三个核心部分:
第一个部分是图象记忆遗忘,测试 AI 是否忘记了指定人物的隐私信息;第二个部分是文本记忆遗忘,测试 AI 是否忘记了与图片相关的文本隐私;第三个部分是图像理解保留,测试 AI 在动完手术之后基本的看图说话能力是否依然在线。
在这个高标准考场中,相比其他方法 SMFA 在成功擦除隐私记忆的同时,在图像理解保留项目上得分最高,而且生成的拒绝回答通顺、自然、有意义。而一些传统方法要么下手太狠导致 AI 智力严重下降以至于输出乱码,要么力度不够隐私没删干净。
总的来说,SMFA 这项研究向我们说明了人类和 AI 的共处完全可以建立在更安全、更尊重彼此权利的基础之上。“此外,还可以用于更新过时信息。比如模型现在将特朗普与美国总统绑定,但几年后总统更迭,模型若仍回答特朗普就错了,这时就需要遗忘过时的信息。”时增林补充称。
他继续说道:“我们觉得仅实现遗忘对于现实问题可能还不够,未来我们希望能在遗忘的同时,实现对模型的知识注入。例如,为新的概念提供多样化解释,融入文化多样性。比如 666 这个词,模型可能只知道它是吉利数字,但网络用语中它还有做事顺滑的意思。我们希望能将这类新知识高效注入模型,可能只需少量数据,而非重新训练整个模型。”
参考资料:
https://arxiv.org/abs/2511.20196
文章来自于“DeepTech深科技”,作者 “胡巍巍”。