AI资讯新闻榜单内容搜索-PPO

从繁杂技巧到极简方案：ROLL团队带来RL4LLM新实践

近年来，强化学习（Reinforcement Learning, RL）在提升大语言模型（LLM）复杂推理能力方面展现出显著效果，广泛应用于数学解题、代码生成等任务。通过 RL 微调的模型常在推理性能上超越仅依赖监督微调或预训练的模型。

来自主题: AI技术研报

8180 点击 2025-08-22 16:35

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。

来自主题: AI技术研报

7763 点击 2025-08-13 16:03

AI Agent 第一波浪潮过后，OPPO 是怎么闷声做出第一个爆款的？

庸笔下的乔峰，在聚贤庄单挑群雄时，用一套人人会使的「太祖长拳」，打出了震慑全场的必杀效果。这门功夫看似平平无奇，却因使用者内力深厚、大巧不工，而威力无穷。

来自主题: AI资讯

7802 点击 2025-07-27 13:52

Agent KB：经验池让Agents互相学习！GAIA新开源SOTA，Pass@1性能最高提升6.66

近日，来自 OPPO、耶鲁大学、斯坦福大学、威斯康星大学麦迪逊分校、北卡罗来纳大学教堂山分校等多家机构的研究团队联合发布了 Agent KB 框架。这项工作通过构建一个经验池并且通过两阶段的检索机制实现了 AI Agent 之间的有效经验共享。Agent KB 通过层级化的经验检索，让智能体能够从其他任务的成功经验中学习，显著提升了复杂推理和问题解决能力。

来自主题: AI技术研报

9477 点击 2025-07-25 16:50

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

最近，关于大模型推理的测试时间扩展（Test time scaling law ）的探索不断涌现出新的范式，包括① 结构化搜索结（如 MCTS），② 过程奖励模型（Process Reward Model ）+ PPO，③ 可验证奖励（Verifiable Reward）+ GRPO（DeepSeek R1）。

来自主题: AI技术研报

9486 点击 2025-07-04 09:44