AI资讯新闻榜单内容搜索-RL

强化学习之父当头一棒：RL版「苦涩的教训」来了！通往ASI，绝非靠人类数据

强化学习之父Richard Sutton和DeepMind强化学习副总裁David Silver对我们发出了当头棒喝：如今，人类已经由数据时代踏入经验时代。通往ASI之路要靠RL，而非人类数据！

来自主题: AI技术研报

9745 点击 2025-04-21 10:52

OpenAI爆出硬伤，强化学习是祸首！o3越强越「疯」，幻觉率狂飙

o3编码直逼全球TOP 200人类选手，却存在一个致命问题：幻觉率高达33%，是o1的两倍。Ai2科学家直指，RL过度优化成硬伤。

来自主题: AI技术研报

8639 点击 2025-04-21 09:41

迈向推理时代：900+篇参考文献揭示长链思维的前世今生，最全综述来了

近年来，大模型（Large Language Models, LLMs）在数学、编程等复杂任务上取得突破，OpenAI-o1、DeepSeek-R1 等推理大模型（Reasoning Large Language Models，RLLMs）表现尤为亮眼。但它们为何如此强大呢？

来自主题: AI技术研报

9899 点击 2025-04-16 15:00

智能体版《苦涩的教训》，图灵奖得主Sutton、谷歌RL大佬Silver新作：超人智能靠经验

人类生成的数据推动了人工智能的惊人进步，但接下来会怎样呢？

来自主题: AI资讯

10410 点击 2025-04-16 14:48

移动GUI智能体迈向实用化！全新验证器架构V-Droid，刷新成功率纪录

移动GUI自动化智能体V-Droid采用「验证器驱动」架构，通过离散化动作空间并利用LLM评估候选动作，实现了高效决策。在AndroidWorld等多个基准测试中任务成功率分别达到59.5%、38.3%和49%，决策延迟仅0.7秒，接近实时响应。

来自主题: AI技术研报

7320 点击 2025-04-15 14:53

什么样的偏好，才叫好的偏好？——揭秘偏好对齐数据的「三驾马车」

近年来，大语言模型（LLMs）的对齐研究成为人工智能领域的核心挑战之一，而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习（RLHF），还是基于「RL-Free」的各类直接偏好优化方法（例如 DPO），都离不开高质量偏好数据集的构建。

来自主题: AI技术研报

9092 点击 2025-04-15 14:29

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

世界模型领域最新进展，要比拼“世界生成”了。

来自主题: AI技术研报

11174 点击 2025-04-10 12:15

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

基于规则的强化学习（RL/RFT）已成为替代 SFT 的高效方案，仅需少量样本即可提升模型在特定任务中的表现。

来自主题: AI技术研报

6571 点击 2025-04-09 09:14

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

一个7B奖励模型搞定全学科，大模型强化学习不止数学和代码。

来自主题: AI技术研报

9845 点击 2025-04-03 09:58

自动学会工具解题，RL扩展催化奥数能力激增17%

在大模型推理能力提升的探索中，工具使用一直是克服语言模型计算局限性的关键路径。不过，当今的大模型在使用工具方面还存在一些局限，比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。

来自主题: AI技术研报

10028 点击 2025-04-02 10:09

AI资讯新闻榜单内容搜索-RL

强化学习之父当头一棒：RL版「苦涩的教训」来了！通往ASI，绝非靠人类数据

OpenAI爆出硬伤，强化学习是祸首！o3越强越「疯」，幻觉率狂飙

迈向推理时代：900+篇参考文献揭示长链思维的前世今生，最全综述来了

智能体版《苦涩的教训》，图灵奖得主Sutton、谷歌RL大佬Silver新作：超人智能靠经验

移动GUI智能体迈向实用化！全新验证器架构V-Droid，刷新成功率纪录

什么样的偏好，才叫好的偏好？——揭秘偏好对齐数据的「三驾马车」

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科， 不用思维链也能做题

自动学会工具解题，RL扩展催化奥数能力激增17%

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题