AI资讯新闻榜单内容搜索-强化学习

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

过去几年，随着基于人类偏好的强化学习（Reinforcement Learning from Human Feedback，RLHF）的兴起，强化学习（Reinforcement Learning，RL）已成为大语言模型（Large Language Model，LLM）后训练阶段的关键技术。

来自主题: AI技术研报

7045 点击 2025-06-25 16:55

基础模型严重依赖大规模、高质量人工标注数据来学习适应新任务、领域。为解决这一难题，来自北京大学、MIT等机构的研究者们提出了一种名为「合成数据强化学习」（Synthetic Data RL）的通用框架。该框架仅需用户提供一个简单的任务定义，即可全自动地生成高质量合成数据。

来自主题: AI技术研报

9076 点击 2025-06-24 16:13

最近，强化学习领域出现了一个颠覆性发现：研究人员不再需要大量数学训练样本，仅仅让 AI 玩简单游戏，就能显著提升其数学推理能力。

来自主题: AI技术研报

8227 点击 2025-06-24 15:25

只训练数学，却在物理化学生物战胜o1！强化学习提升模型推理能力再添例证。

来自主题: AI技术研报

8730 点击 2025-06-23 14:29

强化学习可以提升LLM推理吗？英伟达ProRL用超2000步训练配方给出了响亮的答案。仅15亿参数模型，媲美Deepseek-R1-7B，数学、代码等全面泛化。

来自主题: AI技术研报

7434 点击 2025-06-22 16:32

只靠强化学习，AGI就能实现？Claude-4核心成员放话「5年内AI干掉白领」，却被Karpathy等联手泼冷水！持续学习真的可能吗？RL的真正边界、下一代智能的关键转折点到底在哪儿？

来自主题: AI资讯

7785 点击 2025-06-22 16:13

强化学习（RL）已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报

7250 点击 2025-06-22 16:08

大语言模型（LLMs）在决策场景中常因贪婪性、频率偏差和知行差距表现欠佳。研究者提出强化学习微调（RLFT），通过自我生成的推理链（CoT）优化模型，提升决策能力。实验表明，RLFT可增加模型探索性，缩小知行差距，但探索策略仍有改进空间。

来自主题: AI技术研报

7165 点击 2025-06-22 11:34

这款 Agent 擅长多轮搜索和推理，平均每项任务执行 23 个推理步骤，访问超过 200 个网址。它是基于 Kimi k 系列模型的内部版本构建，并完全通过端到端智能体强化学习进行训练，也是国内少有的基于自研模型打造的 Agent。

来自主题: AI资讯

7972 点击 2025-06-21 19:42

随着语言模型在强化学习和 agentic 领域的进步，agent 正在从通用领域快速渗透到垂直领域，科学和生物医药这类高价值领域尤其受到关注。

来自主题: AI资讯

7960 点击 2025-06-21 18:43