AI资讯新闻榜单内容搜索-GRPO

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: GRPO
苹果出手!改进GRPO,让dLLM也能高效强化学习

苹果出手!改进GRPO,让dLLM也能高效强化学习

苹果出手!改进GRPO,让dLLM也能高效强化学习

最近,扩散语言模型(dLLM)有点火。现在,苹果也加入这片新兴的战场了。

来自主题: AI技术研报
7167 点击    2025-06-27 16:21
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报
5773 点击    2025-06-22 16:08
DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

近年来,强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力,其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。

来自主题: AI技术研报
7233 点击    2025-06-20 10:53
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文

DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文

DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文

本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点,读完会对 GRPO 及其改进算法有更深的理解,进而启发构建推理模型的新思路。

来自主题: AI技术研报
8930 点击    2025-05-24 14:33
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法

泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法

泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法

近日,腾讯 PCG 社交线的研究团队针对这一问题,采用强化学习(RL)训练方法,通过分组相对策略优化(Group Relative Policy Optimization, GRPO)算法,结合基于奖励的课程采样策略(Reward-based Curriculum Sampling, RCS),将其创新性地应用在意图识别任务上,

来自主题: AI技术研报
5912 点击    2025-05-16 15:25
DanceGRPO:首个统一视觉生成的强化学习框架

DanceGRPO:首个统一视觉生成的强化学习框架

DanceGRPO:首个统一视觉生成的强化学习框架

R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。

来自主题: AI技术研报
6981 点击    2025-05-15 10:47
首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o

首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o

首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o

流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能,已成为图像生成(Stable Diffusion, Flux)和视频生成(可灵,WanX,Hunyuan)领域最先进模型的训练方法。然而,这些最先进的模型在处理包含多个物体、属性与关系的复杂场景,以及文本渲染任务时仍存在较大困难。

来自主题: AI技术研报
8961 点击    2025-05-14 10:19
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

当前,强化学习(RL)方法在最近模型的推理任务上取得了显著的改进,比如 DeepSeek-R1、Kimi K1.5,显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过,基于 RL 的后训练进展主要受限于自回归的大语言模型(LLM),它们通过从左到右的序列推理来运行。

来自主题: AI技术研报
5113 点击    2025-04-22 08:39
语音合成突破:F5R-TTS首次实现非自回归模型的GRPO优化,零样本克隆性能显著提升

语音合成突破:F5R-TTS首次实现非自回归模型的GRPO优化,零样本克隆性能显著提升

语音合成突破:F5R-TTS首次实现非自回归模型的GRPO优化,零样本克隆性能显著提升

在人工智能技术日新月异的今天,语音合成(TTS)领域正经历着一场前所未有的技术革命。最新一代文本转语音系统不仅能够生成媲美真人音质的高保真语音,更实现了「只听一次」就能完美复刻目标音色的零样本克隆能力。

来自主题: AI技术研报
6373 点击    2025-04-19 14:08
从思考到行动:大模型自主工具调用能力的深度实现

从思考到行动:大模型自主工具调用能力的深度实现

从思考到行动:大模型自主工具调用能力的深度实现

GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力:理解上下文关联、拆解多步骤问题、甚至通过思维链(Chain - of - Thought)进行自我验证、自我反思等推理过程。

来自主题: AI技术研报
5913 点击    2025-04-17 10:00