AI资讯新闻榜单内容搜索-Sutton

智能体版《苦涩的教训》，图灵奖得主Sutton、谷歌RL大佬Silver新作：超人智能靠经验

人类生成的数据推动了人工智能的惊人进步，但接下来会怎样呢？

来自主题: AI资讯

10687 点击 2025-04-16 14:48

刚刚，2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto

强化学习先驱 Andrew Barto 与 Richard Sutton 获得今年的 ACM 图灵奖。

来自主题: AI资讯

7745 点击 2025-03-06 10:48

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

自然智能（Natural intelligence）过程就像一条连续的流，可以实时地感知、行动和学习。流式学习是 Q 学习和 TD 等经典强化学习 (RL) 算法的运作方式，它通过使用最新样本而不存储样本来模仿自然学习。这种方法也非常适合资源受限、通信受限和隐私敏感的应用程序。

来自主题: AI技术研报

7520 点击 2024-11-29 15:18

强化学习之父Richard Sutton给出一个简单思路，大幅增强所有RL算法

在奖励中减去平均奖励

来自主题: AI技术研报

8853 点击 2024-11-01 12:43

从数据增强的隐藏作用出发，揭示视觉强化学习可塑性损失的独特机制

Sutton 等研究人员近期在《Nature》上发表的研究《Loss of Plasticity in Deep Continual Learning》揭示了一个重要发现：在持续学习环境中，标准深度学习方法的表现竟不及浅层网络。研究指出，这一现象的主要原因是 "可塑性损失"（Plasticity Loss）：深度神经网络在面对非平稳的训练目标持续更新时，会逐渐丧失从新数据中学习的能力。

来自主题: AI资讯

5993 点击 2024-09-29 14:39

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature

人工神经网络、深度学习方法和反向传播算法构成了现代机器学习和人工智能的基础。但现有方法往往是一个阶段更新网络权重，另一个阶段在使用或评估网络时权重保持不变。这与许多需要持续学习的应用程序形成鲜明对比。

来自主题: AI技术研报

9582 点击 2024-08-29 17:01

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

Richard Sutton 在「The Bitter Lesson」中做过这样的评价：「从70年的人工智能研究中可以得出的最重要教训是，那些利用计算的通用方法最终是最有效的，而且优势巨大。」

来自主题: AI技术研报

7200 点击 2024-05-12 11:26