AI资讯新闻榜单内容搜索-PPO

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

近期，阿里巴巴 ROLL 团队（淘天未来生活实验室与阿里巴巴智能引擎团队）联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构（Asynchronous Training）、Asymmetric PPO（AsyPPO）与 Attention 机制（Attention-based Reasoning Rhythm），

来自主题: AI技术研报

9680 点击 2025-11-11 10:24

医疗AI独角兽Hippocratic AI拿下8亿融资，估值250亿，谷歌英伟达都投了

智东西11月4日消息，11月3日，美国生成式AI医疗独角兽Hippocratic AI宣布完成1.26亿美元（约合人民币8.97亿元）的C轮融资，谷歌母公司Alphabet旗下独立成长基金CapitalG参投。此轮融资也让该公司的估值达35亿美元（约合人民币249.24亿元），总融资额达到4.04亿美元（约合人民币28.77亿美元）。

来自主题: AI资讯

9048 点击 2025-11-05 11:54

让LLM不再话痨，快手HiPO框架来了

当用户向大语言模型提出一个简单问题，比如「单词 HiPPO 里有几个字母 P？」，它却正襟危坐，开始生成一段冗长的推理链：

来自主题: AI技术研报

9318 点击 2025-11-04 10:44

多轮Agent训练遇到级联失效？熵控制强化学习来破局

在训练多轮 LLM Agent 时（如需要 30 + 步交互才能完成单个任务的场景），研究者遇到了一个严重的训练不稳定问题：标准的强化学习方法（PPO/GRPO）在稀疏奖励环境下表现出剧烈的熵值震荡，导致训练曲线几乎不收敛。

来自主题: AI技术研报

7621 点击 2025-10-19 12:06

OPPO新AI操作系统，走出屏幕“指哪答哪”，嘈杂环境只听你声音

OPPO新一代AIOS来了！ColorOS 16当中，“一键闪记”和“一键问屏”两项功能有了新玩法。你点餐时产生的取餐码和账单，只要按下按钮就能帮你记住，不用再忘记之后反复查找。

来自主题: AI资讯

11248 点击 2025-10-15 12:41

拜托了，AI！帮忙解决「看病难、看病贵」吧｜对谈王国鑫：京东健康探索研究院首席科学家

最近，美国多家 AI+医疗明星公司接连传来进展：OpenEvidence（医学知识搜索）的 ARR 已突破 1000 万美元，每天有上万名医生付费使用；Abridge（临床文档转写）完成 2.5 亿美元融资；Tempus AI（肿瘤学与精准医疗）已在纳斯达克上市，市值一度超过 60 亿美元；Hippocratic AI（医疗专属大模型）估值也已达数十亿美元。

来自主题: AI资讯

12381 点击 2025-10-09 20:05

开源RL框架Verlog来了，专为LLM智能体打造，400回合不成问题

具体而言，Verlog 是一个多轮强化学习框架，专为具有高度可变回合（episode）长度的长时程（long-horizon） LLM-Agent 任务而设计。它在继承 VeRL 和 BALROG 的基础上，并遵循 pytorch-a2c-ppo-acktr-gail 的成熟设计原则，引入了一系列专门优化手段，从而在任务跨度从短暂交互到数百回合时，依然能够实现稳定而高效的训练。

来自主题: AI技术研报

7648 点击 2025-10-09 11:16