AI资讯新闻榜单内容搜索-强化学习

UIUC联手谷歌发布Search-R1：大模型学会「边想边查」，推理、搜索无缝切换

DeepSeek-R1 展示了强化学习在提升模型推理能力方面的巨大潜力，尤其是在无需人工标注推理过程的设定下，模型可以学习到如何更合理地组织回答。然而，这类模型缺乏对外部数据源的实时访问能力，一旦训练语料中不存在某些关键信息，推理过程往往会因知识缺失而失败。

来自主题: AI技术研报

7947 点击 2025-04-22 09:02

本文对DeepMind两位泰斗级科学家David Silver和Richard Sutton的重磅论文《Welcome to the Era of Experience》进行了深度解读，我将其视为AI发展方向的一份战略瞭望图。

来自主题: AI技术研报

8227 点击 2025-04-22 08:43

当前，强化学习（RL）方法在最近模型的推理任务上取得了显著的改进，比如 DeepSeek-R1、Kimi K1.5，显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过，基于 RL 的后训练进展主要受限于自回归的大语言模型（LLM），它们通过从左到右的序列推理来运行。

来自主题: AI技术研报

6261 点击 2025-04-22 08:39

强化学习之父Richard Sutton和DeepMind强化学习副总裁David Silver对我们发出了当头棒喝：如今，人类已经由数据时代踏入经验时代。通往ASI之路要靠RL，而非人类数据！

来自主题: AI技术研报

9020 点击 2025-04-21 10:52

o3编码直逼全球TOP 200人类选手，却存在一个致命问题：幻觉率高达33%，是o1的两倍。Ai2科学家直指，RL过度优化成硬伤。

来自主题: AI技术研报

7924 点击 2025-04-21 09:41

还在用搜索和规则训练AI游戏？现在直接「看回放」学打宝可梦了！德州大学奥斯汀分校的研究团队用Transformer和离线强化学习打造出一个智能体，不靠规则、没用启发式算法，纯靠47.5万场人类对战回放训练出来，居然打上了Pokémon Showdown全球前10%！

来自主题: AI技术研报

9413 点击 2025-04-20 22:19

港中文和清华团队推出Video-R1模型，首次将强化学习的R1范式应用于视频推理领域。通过升级的T-GRPO算法和混合图像视频数据集，Video-R1在视频空间推理测试中超越了GPT-4o，展现了强大的推理能力，并且全部代码和数据集均已开源。

来自主题: AI技术研报

8910 点击 2025-04-16 14:42

近年来，大语言模型（LLMs）的对齐研究成为人工智能领域的核心挑战之一，而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习（RLHF），还是基于「RL-Free」的各类直接偏好优化方法（例如 DPO），都离不开高质量偏好数据集的构建。

来自主题: AI技术研报

8235 点击 2025-04-15 14:29

Figure公司通过强化学习，成功实现机器人的自然步态。利用高效物理模拟器，仅用几小时完成相当于多年训练的数据，训练出的策略无需额外调整即可「零样本」迁移至真实机器人。

来自主题: AI资讯

5987 点击 2025-04-14 17:14

今天早些时候，著名研究者和技术作家 Sebastian Raschka 发布了一条推文，解读了一篇来自 Wand AI 的强化学习研究，其中分析了推理模型生成较长响应的原因。

来自主题: AI技术研报

8454 点击 2025-04-14 14:17