AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
谷歌联合强化学习之父:通过经验学习的4大核心,Agent将获得超人能力 |最新战略瞭望

谷歌联合强化学习之父:通过经验学习的4大核心,Agent将获得超人能力 |最新战略瞭望

谷歌联合强化学习之父:通过经验学习的4大核心,Agent将获得超人能力 |最新战略瞭望

本文对DeepMind两位泰斗级科学家David Silver和Richard Sutton的重磅论文《Welcome to the Era of Experience》进行了深度解读,我将其视为AI发展方向的一份战略瞭望图。

来自主题: AI技术研报
7122 点击    2025-04-22 08:43
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

当前,强化学习(RL)方法在最近模型的推理任务上取得了显著的改进,比如 DeepSeek-R1、Kimi K1.5,显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过,基于 RL 的后训练进展主要受限于自回归的大语言模型(LLM),它们通过从左到右的序列推理来运行。

来自主题: AI技术研报
5126 点击    2025-04-22 08:39
强化学习之父当头一棒:RL版「苦涩的教训」来了!通往ASI,绝非靠人类数据

强化学习之父当头一棒:RL版「苦涩的教训」来了!通往ASI,绝非靠人类数据

强化学习之父当头一棒:RL版「苦涩的教训」来了!通往ASI,绝非靠人类数据

强化学习之父Richard Sutton和DeepMind强化学习副总裁David Silver对我们发出了当头棒喝:如今,人类已经由数据时代踏入经验时代。通往ASI之路要靠RL,而非人类数据!

来自主题: AI技术研报
8131 点击    2025-04-21 10:52
OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙

OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙

OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙

o3编码直逼全球TOP 200人类选手,却存在一个致命问题:幻觉率高达33%,是o1的两倍。Ai2科学家直指,RL过度优化成硬伤。

来自主题: AI技术研报
6997 点击    2025-04-21 09:41
AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

还在用搜索和规则训练AI游戏?现在直接「看回放」学打宝可梦了!德州大学奥斯汀分校的研究团队用Transformer和离线强化学习打造出一个智能体,不靠规则、没用启发式算法,纯靠47.5万场人类对战回放训练出来,居然打上了Pokémon Showdown全球前10%!

来自主题: AI技术研报
7912 点击    2025-04-20 22:19
视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

港中文和清华团队推出Video-R1模型,首次将强化学习的R1范式应用于视频推理领域。通过升级的T-GRPO算法和混合图像视频数据集,Video-R1在视频空间推理测试中超越了GPT-4o,展现了强大的推理能力,并且全部代码和数据集均已开源。

来自主题: AI技术研报
7958 点击    2025-04-16 14:42
什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」

什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」

什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」

近年来,大语言模型(LLMs)的对齐研究成为人工智能领域的核心挑战之一,而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习(RLHF),还是基于「RL-Free」的各类直接偏好优化方法(例如 DPO),都离不开高质量偏好数据集的构建。

来自主题: AI技术研报
7026 点击    2025-04-15 14:29
一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路

一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路

一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路

Figure公司通过强化学习,成功实现机器人的自然步态。利用高效物理模拟器,仅用几小时完成相当于多年训练的数据,训练出的策略无需额外调整即可「零样本」迁移至真实机器人。

来自主题: AI资讯
4830 点击    2025-04-14 17:14
更长思维并不等于更强推理性能,强化学习可以很简洁

更长思维并不等于更强推理性能,强化学习可以很简洁

更长思维并不等于更强推理性能,强化学习可以很简洁

今天早些时候,著名研究者和技术作家 Sebastian Raschka 发布了一条推文,解读了一篇来自 Wand AI 的强化学习研究,其中分析了推理模型生成较长响应的原因。

来自主题: AI技术研报
8069 点击    2025-04-14 14:17
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

尽管这些论文的结论统统指向了强化学习带来的显著性能提升,但来自图宾根大学和剑桥大学的研究者发现,强化学习导致的许多「改进」可能只是噪音。「受推理领域越来越多不一致的经验说法的推动,我们对推理基准的现状进行了严格的调查,特别关注了数学推理领域评估算法进展最广泛使用的测试平台之一 HuggingFaceH4,2024;AI - MO。」

来自主题: AI技术研报
3954 点击    2025-04-13 15:59