AI资讯新闻榜单内容搜索-GRPO

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: GRPO

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

近年来，强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力，其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。

来自主题: AI技术研报

9408 点击 2025-06-20 10:53

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点，读完会对 GRPO 及其改进算法有更深的理解，进而启发构建推理模型的新思路。

来自主题: AI技术研报

12205 点击 2025-05-24 14:33

泛化性暴涨47%！首个意图检测奖励范式，AI工具爆炸时代意图识别新解法

泛化性暴涨47%！首个意图检测奖励范式，AI工具爆炸时代意图识别新解法

泛化性暴涨47%！首个意图检测奖励范式，AI工具爆炸时代意图识别新解法

近日，腾讯 PCG 社交线的研究团队针对这一问题，采用强化学习（RL）训练方法，通过分组相对策略优化（Group Relative Policy Optimization, GRPO）算法，结合基于奖励的课程采样策略（Reward-based Curriculum Sampling, RCS），将其创新性地应用在意图识别任务上，

来自主题: AI技术研报

7888 点击 2025-05-16 15:25

DanceGRPO：首个统一视觉生成的强化学习框架

DanceGRPO：首个统一视觉生成的强化学习框架

DanceGRPO：首个统一视觉生成的强化学习框架

R1 横空出世，带火了 GRPO 算法，RL 也随之成为 2025 年的热门技术探索方向，近期，字节 Seed 团队就在图像生成方向进行了相关探索。

来自主题: AI技术研报

9376 点击 2025-05-15 10:47

首次！流匹配模型引入GRPO，GenEval几近满分，组合生图能力远超GPT-4o

首次！流匹配模型引入GRPO，GenEval几近满分，组合生图能力远超GPT-4o

首次！流匹配模型引入GRPO，GenEval几近满分，组合生图能力远超GPT-4o

流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能，已成为图像生成（Stable Diffusion, Flux）和视频生成（可灵，WanX，Hunyuan）领域最先进模型的训练方法。然而，这些最先进的模型在处理包含多个物体、属性与关系的复杂场景，以及文本渲染任务时仍存在较大困难。

来自主题: AI技术研报

11678 点击 2025-05-14 10:19

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

当前，强化学习（RL）方法在最近模型的推理任务上取得了显著的改进，比如 DeepSeek-R1、Kimi K1.5，显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过，基于 RL 的后训练进展主要受限于自回归的大语言模型（LLM），它们通过从左到右的序列推理来运行。

来自主题: AI技术研报

7536 点击 2025-04-22 08:39

语音合成突破：F5R-TTS首次实现非自回归模型的GRPO优化，零样本克隆性能显著提升

语音合成突破：F5R-TTS首次实现非自回归模型的GRPO优化，零样本克隆性能显著提升

语音合成突破：F5R-TTS首次实现非自回归模型的GRPO优化，零样本克隆性能显著提升

在人工智能技术日新月异的今天，语音合成（TTS）领域正经历着一场前所未有的技术革命。最新一代文本转语音系统不仅能够生成媲美真人音质的高保真语音，更实现了「只听一次」就能完美复刻目标音色的零样本克隆能力。

来自主题: AI技术研报

8787 点击 2025-04-19 14:08

从思考到行动：大模型自主工具调用能力的深度实现

从思考到行动：大模型自主工具调用能力的深度实现

从思考到行动：大模型自主工具调用能力的深度实现

GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力：理解上下文关联、拆解多步骤问题、甚至通过思维链（Chain - of - Thought）进行自我验证、自我反思等推理过程。

来自主题: AI技术研报

8037 点击 2025-04-17 10:00

视频推理R1时刻，7B模型反超GPT-4o！港中文清华推出首个Video-R1

视频推理R1时刻，7B模型反超GPT-4o！港中文清华推出首个Video-R1

视频推理R1时刻，7B模型反超GPT-4o！港中文清华推出首个Video-R1

港中文和清华团队推出Video-R1模型，首次将强化学习的R1范式应用于视频推理领域。通过升级的T-GRPO算法和混合图像视频数据集，Video-R1在视频空间推理测试中超越了GPT-4o，展现了强大的推理能力，并且全部代码和数据集均已开源。

来自主题: AI技术研报

10098 点击 2025-04-16 14:42

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

DeepSeek-R1 的成功离不开一种强化学习算法：GRPO（组相对策略优化）。

来自主题: AI技术研报

7940 点击 2025-04-01 16:16

上一页当前第4页,共6页下一页