AI资讯新闻榜单内容搜索-RL

迈向推理时代：900+篇参考文献揭示长链思维的前世今生，最全综述来了

近年来，大模型（Large Language Models, LLMs）在数学、编程等复杂任务上取得突破，OpenAI-o1、DeepSeek-R1 等推理大模型（Reasoning Large Language Models，RLLMs）表现尤为亮眼。但它们为何如此强大呢？

来自主题: AI技术研报

8263 点击 2025-04-16 15:00

智能体版《苦涩的教训》，图灵奖得主Sutton、谷歌RL大佬Silver新作：超人智能靠经验

人类生成的数据推动了人工智能的惊人进步，但接下来会怎样呢？

来自主题: AI资讯

9123 点击 2025-04-16 14:48

移动GUI智能体迈向实用化！全新验证器架构V-Droid，刷新成功率纪录

移动GUI自动化智能体V-Droid采用「验证器驱动」架构，通过离散化动作空间并利用LLM评估候选动作，实现了高效决策。在AndroidWorld等多个基准测试中任务成功率分别达到59.5%、38.3%和49%，决策延迟仅0.7秒，接近实时响应。

来自主题: AI技术研报

6120 点击 2025-04-15 14:53

什么样的偏好，才叫好的偏好？——揭秘偏好对齐数据的「三驾马车」

近年来，大语言模型（LLMs）的对齐研究成为人工智能领域的核心挑战之一，而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习（RLHF），还是基于「RL-Free」的各类直接偏好优化方法（例如 DPO），都离不开高质量偏好数据集的构建。

来自主题: AI技术研报

7160 点击 2025-04-15 14:29

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

世界模型领域最新进展，要比拼“世界生成”了。

来自主题: AI技术研报

9211 点击 2025-04-10 12:15

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

基于规则的强化学习（RL/RFT）已成为替代 SFT 的高效方案，仅需少量样本即可提升模型在特定任务中的表现。

来自主题: AI技术研报

4940 点击 2025-04-09 09:14

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

一个7B奖励模型搞定全学科，大模型强化学习不止数学和代码。

来自主题: AI技术研报

8248 点击 2025-04-03 09:58

自动学会工具解题，RL扩展催化奥数能力激增17%

在大模型推理能力提升的探索中，工具使用一直是克服语言模型计算局限性的关键路径。不过，当今的大模型在使用工具方面还存在一些局限，比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。

来自主题: AI技术研报

9104 点击 2025-04-02 10:09

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

由于 DeepSeek R1 和 OpenAI o1 等推理模型（LRM，Large Reasoning Model）带来了新的 post-training scaling law，强化学习（RL，Reinforcement Learning）成为了大语言模型能力提升的新引擎。然而，针对大语言模型的大规模强化学习训练门槛一直很高：

来自主题: AI技术研报

9315 点击 2025-03-31 15:07

卷积网络又双叒叕行了？OverLoCK:一种仿生的卷积神经网络视觉基础模型

你是否注意过人类观察世界的独特方式？

来自主题: AI技术研报

2715 点击 2025-03-31 09:15

AI资讯新闻榜单内容搜索-RL

迈向推理时代：900+篇参考文献揭示长链思维的前世今生，最全综述来了

智能体版《苦涩的教训》，图灵奖得主Sutton、谷歌RL大佬Silver新作：超人智能靠经验

移动GUI智能体迈向实用化！全新验证器架构V-Droid，刷新成功率纪录

什么样的偏好，才叫好的偏好？——揭秘偏好对齐数据的「三驾马车」

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科， 不用思维链也能做题

自动学会工具解题，RL扩展催化奥数能力激增17%

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

卷积网络又双叒叕行了？OverLoCK:一种仿生的卷积神经网络视觉基础模型

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题