ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法
ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法大语言模型(LLM)已经在多项自然语言处理任务中展现出卓越能力,但其潜在安全风险仍然是阻碍规模化落地的关键瓶颈。目前社区用于安全对齐的公开数据集,往往偏重于「词汇多样性」,即让同一种风险指令尽可能用不同的表达方式出现,却很少系统考虑指令背后的「恶意意图多样性」以及「越狱策略多样性」。
大语言模型(LLM)已经在多项自然语言处理任务中展现出卓越能力,但其潜在安全风险仍然是阻碍规模化落地的关键瓶颈。目前社区用于安全对齐的公开数据集,往往偏重于「词汇多样性」,即让同一种风险指令尽可能用不同的表达方式出现,却很少系统考虑指令背后的「恶意意图多样性」以及「越狱策略多样性」。
近日,一位开发者在 GitHub 上公开警告称,字节跳动旗下 AI 编程环境 Trae IDE 存在在用户未明确知情的情况下,将数据上传至字节服务器的行为,即便用户已在设置中手动关闭遥测(Telemetry)功能。
几百年前开普勒通过观测数据,总结出了行星运动的规律,例如行星沿椭圆轨道运行,这让他能精确预测行星未来的位置。这就像今天的基础模型,通过学习海量数据,可以很好地进行序列预测(比如接下一句话)。
在用 AI 做数据分析的时候,你有没有遇到过这样的场景?
ShowMeAI 参与了腾讯新闻热问年中《DeepSeek半年之后》专题策划,回顾上半年 AI 发展以及对多个行业的影响。
测试结果显示,分析水平有点飘忽不定。
习以为常的语音输入功能,焕发第二春?
WebAgent 续作《WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization》中
收入正在成为衡量竞争力的新门槛 最近,数据机构CB Insights 发布了一份备受关注的榜单:“全球营收最高的20家 AI Agent 初创公司”。
在人工智能模型规模持续扩大的今天,数据集蒸馏(Dataset Distillation,DD)方法能够通过使用更少的数据,达到接近完整数据的训练效果,提升模型训练效率,降低训练成本。