AI资讯新闻榜单内容搜索-强化学习

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

基于规则的强化学习（RL/RFT）已成为替代 SFT 的高效方案，仅需少量样本即可提升模型在特定任务中的表现。

来自主题: AI技术研报

6220 点击 2025-04-09 09:14

首次引入强化学习！火山引擎Q-Insight让画质理解迈向深度思考

Q-Insight不再简单地让模型拟合人眼打分，而是将评分视作一种引导信号，促使模型深度思考图像质量的本质原因。有了会思考的“大脑”，视频云技术栈不仅得以重塑也让用户体验有了跃迁。

来自主题: AI技术研报

5174 点击 2025-04-08 14:30

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

图文大模型通常采用「预训练 + 监督微调」的两阶段范式进行训练，以强化其指令跟随能力。受语言领域的启发，多模态偏好优化技术凭借其在数据效率和性能增益方面的优势，被广泛用于对齐人类偏好。目前，该技术主要依赖高质量的偏好数据标注和精准的奖励模型训练来提升模型表现。然而，这一方法不仅资源消耗巨大，训练过程仍然极具挑战。

来自主题: AI技术研报

10762 点击 2025-04-08 14:18

DeepMind闭关修炼「我的世界」，自学成才挖钻登Nature！人类玩家瑟瑟发抖

谷歌DeepMind研发的DreamerV3实现重大突破：无需任何人类数据，通过强化学习与「世界模型」，自主完成《我的世界》中极具挑战的钻石收集任务。该成果被视为通往AGI的一大步，并已登上Nature。

来自主题: AI技术研报

7806 点击 2025-04-03 16:56

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

一个7B奖励模型搞定全学科，大模型强化学习不止数学和代码。

来自主题: AI技术研报

9524 点击 2025-04-03 09:58

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

DeepSeek-R1 的成功离不开一种强化学习算法：GRPO（组相对策略优化）。

来自主题: AI技术研报

7239 点击 2025-04-01 16:16

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

在视觉强化学习中，许多方法未考虑序列决策过程，导致所学表征缺乏关键的长期信息的空缺被填补上了。

来自主题: AI技术研报

3551 点击 2025-03-31 15:16

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

由于 DeepSeek R1 和 OpenAI o1 等推理模型（LRM，Large Reasoning Model）带来了新的 post-training scaling law，强化学习（RL，Reinforcement Learning）成为了大语言模型能力提升的新引擎。然而，针对大语言模型的大规模强化学习训练门槛一直很高：

来自主题: AI技术研报

10955 点击 2025-03-31 15:07

田渊栋和Sergey Levine参与开发新型RL算法，能通过多轮训练让智能体学会协作推理

强化学习提升了 LLM 各方面的能力，而强化学习本身也在进化。

来自主题: AI技术研报

8377 点击 2025-03-28 10:09

人形机器人优雅漫步，强化学习新成果！独角兽Figure创始人：之前大家吐槽太猛

注意看，机器人像人一样从容地走出大门了！人形机器人独角兽Figure，再次带来他们的新成果——利用强化学习实现自然人形行走。跟之前版本的机器人相比，确实更像人了许多，而且步态更加轻盈，速度也更快。

来自主题: AI资讯

8545 点击 2025-03-26 21:18

AI资讯新闻榜单内容搜索-强化学习

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

首次引入强化学习！火山引擎Q-Insight让画质理解迈向深度思考

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

DeepMind闭关修炼「我的世界」，自学成才挖钻登Nature！人类玩家瑟瑟发抖

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科， 不用思维链也能做题

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

田渊栋和Sergey Levine参与开发新型RL算法，能通过多轮训练让智能体学会协作推理

人形机器人优雅漫步，强化学习新成果！独角兽Figure创始人：之前大家吐槽太猛

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题