AI资讯新闻榜单内容搜索-RLVR

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

大模型可以不再依赖人类调教，真正“自学成才”啦？新研究仅通过RLVR（可验证奖励的强化学习），成功让模型自主进化出通用的探索、验证与记忆能力，让模型学会“自学”！

来自主题: AI技术研报

6932 点击 2025-07-01 10:06

突破通用领域推理的瓶颈！清华NLP实验室强化学习新研究RLPR

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR（Reinforcement Learning with Verifiable Reward

来自主题: AI技术研报

9412 点击 2025-06-27 10:03

RLHF已死，RLVR引爆AGI革命！Claude 4核心成员万字对谈

AI顶流Claude升级了，程序员看了都沉默：不仅能写代码能力更强了，还能连续干活7小时不出大差错！AGI真要来了？这背后到底发生了什么？现在，还有机会加入AI行业吗？如今做哪些准备，才能在未来立足？

来自主题: AI技术研报

7288 点击 2025-06-07 10:43

奖励是假的，能让Qwen提升25%性能却是真的！

即使RLVR（可验证奖励强化学习）使用错误的奖励信号，Qwen性能也能得到显著提升？

来自主题: AI技术研报

8947 点击 2025-05-29 15:01

Claude 4如何思考？资深研究员回应：RLHF范式已过，RLVR已在编程/数学得到验证

惊艳全球的Claude 4，但它到底是如何思考？来自Anthropic两位研究员最新一期博客采访，透露了很多细节。这两天大家可以说是试玩了不少，有人仅用一个提示就搞定了个浏览器Agent，包括API和前端……直接一整个大震惊，与此同时关于Claude 4可能有意识并试图干坏事的事情同样被爆出。

来自主题: AI资讯

9301 点击 2025-05-24 17:43

绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世

在人工智能领域，推理能力的进化已成为通向通用智能的核心挑战。近期，Reinforcement Learning with Verifiable Rewards（RLVR）范式下涌现出一批「Zero」类推理模型，摆脱了对人类显式推理示范的依赖，通过强化学习过程自我学习推理轨迹，显著减少了监督训练所需的人力成本。

来自主题: AI技术研报

7974 点击 2025-05-08 14:49