ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法
ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法大语言模型(LLM)已经在多项自然语言处理任务中展现出卓越能力,但其潜在安全风险仍然是阻碍规模化落地的关键瓶颈。目前社区用于安全对齐的公开数据集,往往偏重于「词汇多样性」,即让同一种风险指令尽可能用不同的表达方式出现,却很少系统考虑指令背后的「恶意意图多样性」以及「越狱策略多样性」。
搜索
大语言模型(LLM)已经在多项自然语言处理任务中展现出卓越能力,但其潜在安全风险仍然是阻碍规模化落地的关键瓶颈。目前社区用于安全对齐的公开数据集,往往偏重于「词汇多样性」,即让同一种风险指令尽可能用不同的表达方式出现,却很少系统考虑指令背后的「恶意意图多样性」以及「越狱策略多样性」。
本周四,知名初创公司 Manus 推出了一项重要新功能,可以通过向上百协同工作的 AI 智能体分配任务来进行广泛的研究。今年早些时候,Manus 的多智能体平台改变了人们应用 AI 工具的方式。不过现在,这家创业公司正在试图开发一种与大模型深度思考 Deep Research 同样重要的新能力。
大模型时代,AI基建的重要性已经不言而喻。
最近,国产模型开源非常多。 MiniMax、Kimi、Qwen、混元、智谱、昆仑万维等等,都在疯狂开源。
在人工智能领域,对比语言 - 图像预训练(CLIP) 是一种流行的基础模型,由 OpenAI 提出
科研是 AI 最早实现广泛落地的行业之一。在 ChatGPT 掀起这一轮生成式 AI 热潮之前,甚至可以追溯到上一轮由机器学习主导的技术浪潮中,AI 就已被用于气候模型参数校准、分子动力学模拟加速等科研任务。尤其在 2018 年前后,DeepMind 推出的 AlphaFold 在蛋白质结构预测方面实现突破,不仅引发了医药行业的技术革命,更被《自然》杂志评价为「解决了生物学五十年来的重大挑战」。
Meta 联合创始人兼首席执行官马克・扎克伯格从 OpenAI、谷歌和苹果等公司挖走了众多顶尖 AI 研究人员,并开出了数亿美元的薪酬,此举震惊了整个科技行业。现在,他正在更多地分享他对超级智能的愿景。
《新智核》独家获悉,阿里健康推出了一款全新的医学助手App“氢原子”。据悉,这款AI产品收录千万级医学核心期刊文献,查阅权威指南;大模型辅助语义搜索、AI总结、全文翻译和智能问答,同时也可以查到相关专业的医疗健康解读。
几百年前开普勒通过观测数据,总结出了行星运动的规律,例如行星沿椭圆轨道运行,这让他能精确预测行星未来的位置。这就像今天的基础模型,通过学习海量数据,可以很好地进行序列预测(比如接下一句话)。
Anthropic 联合创始人 Jared Kaplan 是一名理论物理学家,研究兴趣广泛,涉及有效场论、粒子物理、宇宙学、散射振幅以及共形场论等。过去几年,他还与物理学家、计算机科学家们合作开展机器学习研究,包括神经模型以及 GPT-3 语言模型的 Scaling Law。