AI资讯新闻榜单内容搜索-AI安全

OpenAI首个GPT-5找Bug智能体：全自动读代码找漏洞写修复

AI Coding火了大半年，AI Debugging也来了！刚刚，OpenAI发布由GPT-5驱动的“白帽”Agent——Aardvark（土豚）。这只“AI安全研究员”能帮助开发者和安全团队，在大规模代码库中自动发现并修复安全漏洞。

来自主题: AI资讯

8213 点击 2025-10-31 09:07

TPAMI 2025 | AI对抗迁移性评估的「拨乱反正」：那些年效果虚高的攻防算法们

对抗样本（adversarial examples）的迁移性（transferability）—— 在某个模型上生成的对抗样本能够同样误导其他未知模型 —— 被认为是威胁现实黑盒深度学习系统安全的核心因素。尽管现有研究已提出复杂多样的迁移攻击方法，却仍缺乏系统且公平的方法对比分析：（1）针对攻击迁移性，未采用公平超参设置的同类攻击对比分析；（2）针对攻击隐蔽性，缺乏多样指标。

来自主题: AI技术研报

6423 点击 2025-10-29 16:05

可攻可防，越狱成功率近90%！六大主流模型全中招 | EMNLP'25

聚焦大型语言模型（LLMs）的安全漏洞，研究人员提出了全新的越狱攻击范式与防御策略，深入剖析了模型在生成过程中的注意力变化规律，为LLMs安全研究提供了重要参考。论文已被EMNLP2025接收

来自主题: AI技术研报

5491 点击 2025-10-27 10:25

AI黑化如恶魔附体！LARGO攻心三步，潜意识种子瞬间开花 | NeurIPS 2025

看似无害的「废话」，也能让AI越狱？在NeurIPS 2025，哥大与罗格斯提出LARGO：不改你的提问，直接在模型「潜意识」动手脚，让它生成一段温和自然的文本后缀，却能绕过安全防护，输出本不该说的话。

来自主题: AI技术研报

6398 点击 2025-10-27 09:40

AI模型守法率提升11%，港科大首次用法案构建安全benchmark

香港科技大学KnowComp实验室提出基于《欧盟人工智能法案》和《GDPR》的LLM安全新范式，构建合规测试基准并训练出性能优异的推理模型，为大语言模型安全管理提供了新方向。

来自主题: AI技术研报

8863 点击 2025-10-23 12:20

大模型中毒记

那个叫大模型的高手，被下毒了

来自主题: AI资讯

7659 点击 2025-10-21 10:09

阿里云神秘团队曝光：AI时代的新蓝军

想象这样一个场景：一个AI智能体在帮你处理邮件，一封看似正常的邮件里，却用一张图片的伪装暗藏指令。AI在读取图片时被悄然感染，之后它发给其他AI或人类的所有信息里，都可能携带上这个病毒，导致更大范围的感染和信息泄露。

来自主题: AI资讯

7276 点击 2025-10-20 14:45

你的Agent可能在“错误进化”！上海AI Lab联合顶级机构揭示自进化智能体失控风险

当Agent学会了自我进化，我们距离AGI还有多远？从自动编写代码、做实验到扮演客服，能够通过与环境的持续互动，不断学习、总结经验、创造工具的“自进化智能体”（Self-evolving Agent）实力惊人。

来自主题: AI技术研报

7355 点击 2025-10-17 15:38

LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉

可惜，目前 LLM 越狱攻击（Jailbreak）的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标，要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象，无法覆盖得分的要点，导致评估容易出现偏差，很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

来自主题: AI技术研报

8199 点击 2025-10-17 15:33

当Search Agent遇上不靠谱搜索结果，清华团队祭出自动化红队框架SafeSearch

在 AI 发展的新阶段，大模型不再局限于静态知识，而是可以通过「Search Agent」的形式实时连接互联网。搜索工具让模型突破了训练时间的限制，但它们返回的并非总是高质量的资料：一个低质量网页、一条虚假消息，甚至是暗藏诱导的提示，都可能在用户毫无察觉的情况下被模型「采纳」，进而生成带有风险的回答。

来自主题: AI技术研报

7706 点击 2025-10-17 09:33