AI资讯新闻榜单内容搜索-强化学习

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

尽管这些论文的结论统统指向了强化学习带来的显著性能提升，但来自图宾根大学和剑桥大学的研究者发现，强化学习导致的许多「改进」可能只是噪音。「受推理领域越来越多不一致的经验说法的推动，我们对推理基准的现状进行了严格的调查，特别关注了数学推理领域评估算法进展最广泛使用的测试平台之一 HuggingFaceH4，2024；AI - MO。」

来自主题: AI技术研报

5176 点击 2025-04-13 15:59

魔改AlphaZero后，《我的世界》AI老玩家问世，干活不用下指令

人和智能体共享奖励参数，这才是强化学习正确的方向？

来自主题: AI技术研报

7843 点击 2025-04-12 21:59

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

基于规则的强化学习（RL/RFT）已成为替代 SFT 的高效方案，仅需少量样本即可提升模型在特定任务中的表现。

来自主题: AI技术研报

5775 点击 2025-04-09 09:14

首次引入强化学习！火山引擎Q-Insight让画质理解迈向深度思考

Q-Insight不再简单地让模型拟合人眼打分，而是将评分视作一种引导信号，促使模型深度思考图像质量的本质原因。有了会思考的“大脑”，视频云技术栈不仅得以重塑也让用户体验有了跃迁。

来自主题: AI技术研报

4807 点击 2025-04-08 14:30

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

图文大模型通常采用「预训练 + 监督微调」的两阶段范式进行训练，以强化其指令跟随能力。受语言领域的启发，多模态偏好优化技术凭借其在数据效率和性能增益方面的优势，被广泛用于对齐人类偏好。目前，该技术主要依赖高质量的偏好数据标注和精准的奖励模型训练来提升模型表现。然而，这一方法不仅资源消耗巨大，训练过程仍然极具挑战。

来自主题: AI技术研报

10320 点击 2025-04-08 14:18

DeepMind闭关修炼「我的世界」，自学成才挖钻登Nature！人类玩家瑟瑟发抖

谷歌DeepMind研发的DreamerV3实现重大突破：无需任何人类数据，通过强化学习与「世界模型」，自主完成《我的世界》中极具挑战的钻石收集任务。该成果被视为通往AGI的一大步，并已登上Nature。

来自主题: AI技术研报

7277 点击 2025-04-03 16:56

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

一个7B奖励模型搞定全学科，大模型强化学习不止数学和代码。

来自主题: AI技术研报

9113 点击 2025-04-03 09:58

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

DeepSeek-R1 的成功离不开一种强化学习算法：GRPO（组相对策略优化）。

来自主题: AI技术研报

6835 点击 2025-04-01 16:16

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

在视觉强化学习中，许多方法未考虑序列决策过程，导致所学表征缺乏关键的长期信息的空缺被填补上了。

来自主题: AI技术研报

3213 点击 2025-03-31 15:16

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

由于 DeepSeek R1 和 OpenAI o1 等推理模型（LRM，Large Reasoning Model）带来了新的 post-training scaling law，强化学习（RL，Reinforcement Learning）成为了大语言模型能力提升的新引擎。然而，针对大语言模型的大规模强化学习训练门槛一直很高：

来自主题: AI技术研报

10493 点击 2025-03-31 15:07

AI资讯新闻榜单内容搜索-强化学习

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

魔改AlphaZero后，《我的世界》AI老玩家问世，干活不用下指令

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

首次引入强化学习！火山引擎Q-Insight让画质理解迈向深度思考

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

DeepMind闭关修炼「我的世界」，自学成才挖钻登Nature！人类玩家瑟瑟发抖

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科， 不用思维链也能做题

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题