AI资讯新闻榜单内容搜索-RL

ICLR25|打开RL黑盒，首次证明强化学习存在内在维度瓶颈

一句话概括，原来强化学习的“捷径”是天生的，智能体能去的地方（流形）被动作维度（低维流形）限制得死死的，根本没机会去那些没用的高维空间瞎逛。

来自主题: AI资讯

7265 点击 2025-08-05 11:59

6小时复刻AI IMO金牌成果，蚂蚁多智能体新进展已开源

2025年的IMO，好戏不断。 7月19日，全世界顶尖大模型在2025年的IMO赛场上几乎全军覆没。时隔1天，OpenAI、DeepMind等顶尖实验室就在IMO 2025赛场斩获5/6题，震惊数学圈。

来自主题: AI资讯

7429 点击 2025-08-03 12:47

多模态后训练反常识：长思维链SFT和RL的协同困境

在语言模型领域，长思维链监督微调（Long-CoT SFT）与强化学习（RL）的组合堪称黄金搭档 —— 先让模型学习思考模式，再用奖励机制优化输出，性能通常能实现叠加提升。

来自主题: AI技术研报

8347 点击 2025-08-02 12:49

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像"人"

近年来, 大语言模型 (LLM) 在数学、编程等 "有标准答案" 的任务上取得了突破性进展, 这背后离不开 "可验证奖励" (Reinforcement Learning with Verifiable Rewards, RLVR) 技术的加持。RLVR 依赖于参考信号, 即通过客观标准答案来验证模型响应的可靠性。

来自主题: AI资讯

8546 点击 2025-07-31 11:02

LeCun出手，造出视频世界模型，挑战英伟达COSMOS

2018 年，LSTM 之父 Jürgen Schmidhuber 在论文中（ Recurrent world models facilitate policy evolution ）推广了世界模型（world model）的概念，这是一种神经网络，它能够根据智能体过去的观察与动作，预测环境的未来状态。

来自主题: AI技术研报

7705 点击 2025-07-30 10:23