ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法
ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法大语言模型(LLM)已经在多项自然语言处理任务中展现出卓越能力,但其潜在安全风险仍然是阻碍规模化落地的关键瓶颈。目前社区用于安全对齐的公开数据集,往往偏重于「词汇多样性」,即让同一种风险指令尽可能用不同的表达方式出现,却很少系统考虑指令背后的「恶意意图多样性」以及「越狱策略多样性」。
大语言模型(LLM)已经在多项自然语言处理任务中展现出卓越能力,但其潜在安全风险仍然是阻碍规模化落地的关键瓶颈。目前社区用于安全对齐的公开数据集,往往偏重于「词汇多样性」,即让同一种风险指令尽可能用不同的表达方式出现,却很少系统考虑指令背后的「恶意意图多样性」以及「越狱策略多样性」。
本周四,知名初创公司 Manus 推出了一项重要新功能,可以通过向上百协同工作的 AI 智能体分配任务来进行广泛的研究。今年早些时候,Manus 的多智能体平台改变了人们应用 AI 工具的方式。不过现在,这家创业公司正在试图开发一种与大模型深度思考 Deep Research 同样重要的新能力。
总部位于硅谷致力于构建Agentic OS (AOS)的初创公司Creao AI宣布已连续完成两轮融资。
近期,AI 编程领域又一匹 AI Coding 黑马正在快速崛起。
大模型时代,AI基建的重要性已经不言而喻。
在人工智能领域,对比语言 - 图像预训练(CLIP) 是一种流行的基础模型,由 OpenAI 提出
谷歌DeepMind开启「上帝视角」,全新力作AlphaEarth Foundations震撼上线,10米级分辨率,打造出前所未有的地球数字画像。网友直呼:这不就是「地球版ChatGPT」?
Meta 联合创始人兼首席执行官马克・扎克伯格从 OpenAI、谷歌和苹果等公司挖走了众多顶尖 AI 研究人员,并开出了数亿美元的薪酬,此举震惊了整个科技行业。现在,他正在更多地分享他对超级智能的愿景。
《新智核》独家获悉,阿里健康推出了一款全新的医学助手App“氢原子”。据悉,这款AI产品收录千万级医学核心期刊文献,查阅权威指南;大模型辅助语义搜索、AI总结、全文翻译和智能问答,同时也可以查到相关专业的医疗健康解读。
几百年前开普勒通过观测数据,总结出了行星运动的规律,例如行星沿椭圆轨道运行,这让他能精确预测行星未来的位置。这就像今天的基础模型,通过学习海量数据,可以很好地进行序列预测(比如接下一句话)。