加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐
加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐近期,北京大学与字节团队提出了名为 BranchGRPO 的新型树形强化学习方法。不同于顺序展开的 DanceGRPO,BranchGRPO 通过在扩散反演过程中引入分叉(branching)与剪枝(pruning),让多个轨迹共享前缀、在中间步骤分裂,并通过逐层奖励融合实现稠密反馈。
近期,北京大学与字节团队提出了名为 BranchGRPO 的新型树形强化学习方法。不同于顺序展开的 DanceGRPO,BranchGRPO 通过在扩散反演过程中引入分叉(branching)与剪枝(pruning),让多个轨迹共享前缀、在中间步骤分裂,并通过逐层奖励融合实现稠密反馈。
最新消息,英伟达计划向OpenAI投资最高1000亿美元,OpenAI则要用这笔钱构建至少10GW的AI数据中心,全用英伟达的系统。10GW,相当于400-500万个GPU了,并且,黄仁勋8月份曾表示,建成1GW的数据中心的成本大约在500-600亿美元。
在AI热潮中,大模型最「渴求」的究竟是什么?是算力、是存储,还是复杂的网络互联?在Hot Chips 2025 上,Transformer发明者之一、谷歌Gemini联合负责人Noam Shazeer给出了答案。
这家由 Khosla Ventures 领投的AI原生财务规划与分析(FP&A)平台公司,正在彻底改变企业财务团队的工作方式。自从 A 轮融资以来,Aleph 的增长速度达到了惊人的 10 倍,为 Zapier、Turo、Harvey、Chess.com 等行业领先公司的财务工作流程提供支持。但更重要的是,他们不仅仅在创造一个软件产品,而是在塑造一种全新的财务专业人员工作模式
上个月,国务院发布了《关于深入实施“人工智能+”行动的意见》。文件设定了到 2027、2030 乃至 2035 年的目标:AI 要全面嵌入科研、产业等领域,加快探索 AI 驱动的新型科研范式,成为推动中国社会全面跃迁的关键力量。
没有永恒的同盟,只有永恒的资本和利益
Tool-Calling作为Agent的核心模块,智能体的双手,这项关键能力允许 LLM 调用外部函数,例如应用程序接口(APIs)、数据库、计算器和搜索引擎,决定了AI Agent的可执行边界。
和大模型聊天如今也有了开盲盒的体验,只不过开的不是大模型的性能高低,而是哪家大模型更有性格。
9月20日,在AI创造者嘉年华的主舞台,硅星人创始人兼CEO骆轶航,与金沙江创投管理合伙人朱啸虎,在露天主舞台进行了一场对话。
抖音vlog,正成为一部部自制穿越短剧