AI资讯新闻榜单内容搜索-强化学习

打造全球首个强化学习云平台，九章云极是如何做到的？

从 ChatGPT 引发的通用聊天机器人热潮，到如今正迅猛发展的智能体模型，AI 正在经历一次深刻的范式转变：从被动响应的「语言模型」，走向具备自主决策能力的「智能体」。我们也正在进入所谓的「经验时代」或「软件 3.0 时代」。

来自主题: AI资讯

6514 点击 2025-07-16 15:53

用动作分块突破RL极限，伯克利引入模仿学习，超越离线/在线SOTA

如今，强化学习（Reinforcement Learning，RL）在多个领域已取得显著成果。

来自主题: AI技术研报

6913 点击 2025-07-14 15:16

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

强化学习改变了大语言模型的后训练范式，可以说，已成为AI迈向AGI进程中的关键技术节点。然而，其中奖励模型的设计与训练，始终是制约后训练效果、模型能力进一步提升的瓶颈所在。

来自主题: AI技术研报

7605 点击 2025-07-12 11:51

感知错误率降低30.5%：隐式感知损失让模型主动“睁大眼睛” | UIUC＆阿里通义

让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校（UIUC）与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。

来自主题: AI技术研报

7901 点击 2025-07-11 16:23

2025上半年，AI Agent领域有什么变化和机会？| 峰瑞研究所

2025上半年AI Agent领域经历模型竞争加剧和范式演进，DeepSeek等新模型打破垄断，推动Tool Use和强化学习突破。Agent从Prompt、Workflow发展为自主决策、环境感知和工具使用的智能体。编程领域验证PMF，落地机会集中于垂直场景和C端创新，但商业壁垒和技术挑战仍待解决。

来自主题: AI资讯

8908 点击 2025-07-11 09:22

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方：通过Scaling RL，Polaris让4B模型的数学推理能力（AIME25上取得79.4，AIME24上取得81.2）超越了一众商业大模型，如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

来自主题: AI资讯

7289 点击 2025-07-09 12:10