AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

在今年三月份,清华 AIR 和字节联合 SIA Lab 发布了 DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。

来自主题: AI技术研报
6541 点击    2025-08-13 11:27
具身智能体主动迎战对抗攻击,清华团队提出主动防御框架

具身智能体主动迎战对抗攻击,清华团队提出主动防御框架

具身智能体主动迎战对抗攻击,清华团队提出主动防御框架

面对对抗攻击,具身智能体除了被动防范,也能主动出击! 在人类视觉系统启发下,清华朱军团队在TPMAI 2025中提出了强化学习驱动的主动防御框架REIN-EAD。

来自主题: AI技术研报
6735 点击    2025-08-13 11:21
联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。

来自主题: AI技术研报
6067 点击    2025-08-11 10:17
ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步

ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步

ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步

在可验证强化学习(RLVR)的推动下,大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中,LLM 往往需要结合外部工具进行多轮交互,现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。

来自主题: AI技术研报
5852 点击    2025-08-10 13:29
LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」!

LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」!

LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」!

AlphaStar等证明强化学习在游戏等复杂任务上,表现出色,远超职业选手!那强化学习怎么突然就不行了呢?强化学习到底是怎么走上歧路的?

来自主题: AI技术研报
6254 点击    2025-08-05 13:46
ICLR25|打开RL黑盒,首次证明强化学习存在内在维度瓶颈

ICLR25|打开RL黑盒,首次证明强化学习存在内在维度瓶颈

ICLR25|打开RL黑盒,首次证明强化学习存在内在维度瓶颈

一句话概括,原来强化学习的“捷径”是天生的,智能体能去的地方(流形)被动作维度(低维流形)限制得死死的,根本没机会去那些没用的高维空间瞎逛。

来自主题: AI资讯
5625 点击    2025-08-05 11:59
图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

不知道大家是否还记得,人工智能先驱、强化学习之父、图灵奖获得者 Richard S. Sutton,在一个多月前的演讲。 Sutton 认为,LLM 现在学习人类数据的知识已经接近极限,依靠「模仿人类」很难再有创新。

来自主题: AI技术研报
7278 点击    2025-08-04 12:25
多模态后训练反常识:长思维链SFT和RL的协同困境

多模态后训练反常识:长思维链SFT和RL的协同困境

多模态后训练反常识:长思维链SFT和RL的协同困境

在语言模型领域,长思维链监督微调(Long-CoT SFT)与强化学习(RL)的组合堪称黄金搭档 —— 先让模型学习思考模式,再用奖励机制优化输出,性能通常能实现叠加提升。

来自主题: AI技术研报
6637 点击    2025-08-02 12:49