NeurIPS 2025 | ARGRE框架实现高效LLM解毒:自回归奖励引导,安全对齐更快、更准、更轻
NeurIPS 2025 | ARGRE框架实现高效LLM解毒:自回归奖励引导,安全对齐更快、更准、更轻近期,来自北航等机构的研究提出了一种新的解决思路:自回归奖励引导表征编辑(ARGRE)框架。该方法首次在 LLM 的潜在表征空间中可视化了毒性从高到低的连续变化路径,实现了在测试阶段进行高效「解毒」。
近期,来自北航等机构的研究提出了一种新的解决思路:自回归奖励引导表征编辑(ARGRE)框架。该方法首次在 LLM 的潜在表征空间中可视化了毒性从高到低的连续变化路径,实现了在测试阶段进行高效「解毒」。
500 万用户、八位数年经常性收入、日均新增 2 万用户——对于 2024 年初由两名 20 岁大学生 Rudy Arora 与 Sarthak Dhawan 创办的初创公司 Turbo AI 而言,这些数据堪称亮眼。对于刚达到法定饮酒年龄(美国为 21 岁)的年轻人来说,这样的成绩更显不可思议。
刚面世时的 Sora 有多红火,现在就有多麻烦。这个月,日本政府正式呼吁 OpenAI 在推出 Sora 2 的过程中「应避免侵犯版权」,并强调「漫画与动画角色是日本引以为傲、不可替代的文化瑰宝」。
自 2023 年起,AIGC 平台迅速演进,用户从生成一张图走向创造一个“人”。捏Ta 2.0就想成为让这个拐点发生的那款产品。这次升级的意义不在更快的渲染或更新的 UI,而在于正面回答了那个关键问题:AI 的幻想世界,如何真正“长出生命力”。
刚刚,计算机科学家 Yoshua Bengio 创造了新的历史,成为 Google Scholar 上首个引用量超过 100 万的人!打个直观的比方,如果我们将每一篇引用论文打印成册(假设平均厚度为 1 毫米),然后将它们垂直堆叠起来,这座由知识构成的纸塔将高达 1000 米。这是什么概念?它将轻松超越目前的世界最高建筑,即 828 米的迪拜哈利法塔。
在这片喧嚣和迷雾之中,我们迫切需要一个清晰的导航图。而Jason Wei正是提供这份地图的最佳人选之一。他现任Meta超级智能实验室(Meta Super Intelligence Labs)的研究科学家,此前在OpenAI工作了两年,o1研发的主导者,更早之前是Google Brain的科学家。
最近,曾任字节智慧教育业务线 CEO 的李可佳(Ethan KJ Li)也入局了“AI 播客”,只不过它的思路与前两位并不相同。李可佳的产品名为 Aibrary,于今年 4 月 23 日上线美区 App Store 进行测试,9 月 23 日正式上线。从官网上的介绍来看,Aibrary 的核心功能是把书籍转化/重塑为个性化播客,并通过定制学习路径、互动式辅导,服务于个人学习场景。
本周,LangChain 宣布完成 1.25 亿美元融资,投后估值 12.5 亿美元。除了宣布其独角兽地位外,该公司还发布了里程碑式更新:经过 3 年迭代,LangChain 1.0 正式登场。而且,这并非一次常规的版本升级,而是一场从零开始的重写。
全球最牛的提示工程师Riley Goodside,官宣入职谷歌DeepMind了。Riley前后斟酌了两个月的时间,才拿下了这个决定。 2022年ChatGPT诞生之后,他仅凭和AI聊天,就能年入百万美金,引起全网关注。
鹅厂就给旗下AI原生产品知识库工作台ima过了一周岁生日。还趁热打铁放出了ima 2.0版本,主打任务模式。于是,这个能把微信文件、公众号文章等资源一键变成可提问式知识库的鹅厂版NotebookLM,从只会问答升级到了能生成报告和播客的进阶版。