AI资讯新闻榜单内容搜索-强化学习

仅靠5000+样本，全新强化学习范式让30B轻松击败671B的DeepSeek V3

蚂蚁技术研究院联合浙江大学开源全新强化学习范式 Rubicon，通过构建业界最大规模的 10,000+ 条「评分标尺」，成功将强化学习的应用范围拓展至更广阔的主观任务领域。用 5000 样本即超越 671B 模型，让 AI 告别「机械味」。

来自主题: AI技术研报

6760 点击 2025-08-25 10:08

快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

在大语言模型的竞争中，数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练，到 DeepSeek 提出 GRPO 算法，我们见证了强化学习在推理模型领域的巨大潜力。

来自主题: AI技术研报

7543 点击 2025-08-22 17:23

从繁杂技巧到极简方案：ROLL团队带来RL4LLM新实践

近年来，强化学习（Reinforcement Learning, RL）在提升大语言模型（LLM）复杂推理能力方面展现出显著效果，广泛应用于数学解题、代码生成等任务。通过 RL 微调的模型常在推理性能上超越仅依赖监督微调或预训练的模型。

来自主题: AI技术研报

7356 点击 2025-08-22 16:35

突破Agent长程推理效率瓶颈！MIT&新加坡国立联合推出强化学习新训练方法

AI Agent正在被要求处理越来越多复杂的任务。但当它要不停地查资料、跳页面、筛选信息时，显存狂飙、算力吃紧的问题就来了。

来自主题: AI技术研报

7820 点击 2025-08-21 11:33

4o-mini华人领队也离职了，这次不怪小扎

哦豁，OpenAI奥特曼又痛失一员大将。 Kevin Lu，领导4o-mini发布，并参与o1-mini、o3发布，主要研究强化学习、小模型和合成数据。

来自主题: AI资讯

7440 点击 2025-08-19 11:20

混合数学编程逻辑数据，一次性提升AI多领域强化学习能力 | 上海AI Lab

近年来，AI大模型在数学计算、逻辑推理和代码生成领域的推理能力取得了显著突破。特别是DeepSeek-R1等先进模型的出现，可验证强化学习（RLVR）技术展现出强大的性能提升潜力。

来自主题: AI技术研报

7710 点击 2025-08-16 16:45

首个开源多模态Deep Research智能体，超越多个闭源方案

首个开源多模态Deep Research Agent来了。整合了网页浏览、图像搜索、代码解释器、内部 OCR 等多种工具，通过全自动流程生成高质量推理轨迹，并用冷启动微调和强化学习优化决策，使模型在任务中能自主选择合适的工具组合和推理路径。

来自主题: AI资讯

7755 点击 2025-08-15 20:26

OpenAI没开源的gpt-oss基础模型，他去掉强化学习逆转出来了

前些天，OpenAI 少见地 Open 了一回，发布了两个推理模型 gpt-oss-120b 和 gpt-oss-20b。

来自主题: AI资讯

7306 点击 2025-08-13 18:19

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

强化学习（RL）是锻造当今顶尖大模型（如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5）推理能力与对齐的核心 “武器”，但它也像一把双刃剑，常常导致模型行为脆弱、风格突变，甚至出现 “欺骗性对齐”、“失控” 等危险倾向。

来自主题: AI技术研报

8575 点击 2025-08-13 16:29

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。

来自主题: AI技术研报

7087 点击 2025-08-13 16:03