AI资讯新闻榜单内容搜索-强化学习

从繁杂技巧到极简方案：ROLL团队带来RL4LLM新实践

近年来，强化学习（Reinforcement Learning, RL）在提升大语言模型（LLM）复杂推理能力方面展现出显著效果，广泛应用于数学解题、代码生成等任务。通过 RL 微调的模型常在推理性能上超越仅依赖监督微调或预训练的模型。

来自主题: AI技术研报

8186 点击 2025-08-22 16:35

突破Agent长程推理效率瓶颈！MIT&新加坡国立联合推出强化学习新训练方法

AI Agent正在被要求处理越来越多复杂的任务。但当它要不停地查资料、跳页面、筛选信息时，显存狂飙、算力吃紧的问题就来了。

来自主题: AI技术研报

8289 点击 2025-08-21 11:33

4o-mini华人领队也离职了，这次不怪小扎

哦豁，OpenAI奥特曼又痛失一员大将。 Kevin Lu，领导4o-mini发布，并参与o1-mini、o3发布，主要研究强化学习、小模型和合成数据。

来自主题: AI资讯

8247 点击 2025-08-19 11:20

混合数学编程逻辑数据，一次性提升AI多领域强化学习能力 | 上海AI Lab

近年来，AI大模型在数学计算、逻辑推理和代码生成领域的推理能力取得了显著突破。特别是DeepSeek-R1等先进模型的出现，可验证强化学习（RLVR）技术展现出强大的性能提升潜力。

来自主题: AI技术研报

8572 点击 2025-08-16 16:45

首个开源多模态Deep Research智能体，超越多个闭源方案

首个开源多模态Deep Research Agent来了。整合了网页浏览、图像搜索、代码解释器、内部 OCR 等多种工具，通过全自动流程生成高质量推理轨迹，并用冷启动微调和强化学习优化决策，使模型在任务中能自主选择合适的工具组合和推理路径。

来自主题: AI资讯

8603 点击 2025-08-15 20:26

OpenAI没开源的gpt-oss基础模型，他去掉强化学习逆转出来了

前些天，OpenAI 少见地 Open 了一回，发布了两个推理模型 gpt-oss-120b 和 gpt-oss-20b。

来自主题: AI资讯

8126 点击 2025-08-13 18:19

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

强化学习（RL）是锻造当今顶尖大模型（如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5）推理能力与对齐的核心 “武器”，但它也像一把双刃剑，常常导致模型行为脆弱、风格突变，甚至出现 “欺骗性对齐”、“失控” 等危险倾向。

来自主题: AI技术研报

9281 点击 2025-08-13 16:29

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。

来自主题: AI技术研报

7768 点击 2025-08-13 16:03

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

在今年三月份，清华 AIR 和字节联合 SIA Lab 发布了 DAPO，即 Decoupled Clip and Dynamic sAmpling Policy Optimization（解耦剪辑和动态采样策略优化）。

来自主题: AI技术研报

8900 点击 2025-08-13 11:27

具身智能体主动迎战对抗攻击，清华团队提出主动防御框架

面对对抗攻击，具身智能体除了被动防范，也能主动出击！在人类视觉系统启发下，清华朱军团队在TPMAI 2025中提出了强化学习驱动的主动防御框架REIN-EAD。

来自主题: AI技术研报

8585 点击 2025-08-13 11:21