AI资讯新闻榜单内容搜索-RL

强化学习+MCP=王炸？开源框架教AI在MCP中玩转工具解决任务，实测效果超越GPT！

强化学习+任意一张牌，往往就是王炸。专注于LLM+RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。

来自主题: AI资讯

7682 点击 2025-08-08 10:53

Meta华人新秀毕树超，重磅爆料下一代LLM路线！RL+预训练直通AGI

OpenAI前研究员、Meta「AI梦之队员」毕书超在哥大指出：AGI就在眼前，突破需高质数据、好奇驱动探索与高效算法；Scaling Law依旧有效，规模决定智能，终身学习才是重点。

来自主题: AI资讯

7307 点击 2025-08-05 12:58

ICLR25|打开RL黑盒，首次证明强化学习存在内在维度瓶颈

一句话概括，原来强化学习的“捷径”是天生的，智能体能去的地方（流形）被动作维度（低维流形）限制得死死的，根本没机会去那些没用的高维空间瞎逛。

来自主题: AI资讯

6938 点击 2025-08-05 11:59

6小时复刻AI IMO金牌成果，蚂蚁多智能体新进展已开源

2025年的IMO，好戏不断。 7月19日，全世界顶尖大模型在2025年的IMO赛场上几乎全军覆没。时隔1天，OpenAI、DeepMind等顶尖实验室就在IMO 2025赛场斩获5/6题，震惊数学圈。

来自主题: AI资讯

7216 点击 2025-08-03 12:47

多模态后训练反常识：长思维链SFT和RL的协同困境

在语言模型领域，长思维链监督微调（Long-CoT SFT）与强化学习（RL）的组合堪称黄金搭档 —— 先让模型学习思考模式，再用奖励机制优化输出，性能通常能实现叠加提升。

来自主题: AI技术研报

7941 点击 2025-08-02 12:49

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像"人"

近年来, 大语言模型 (LLM) 在数学、编程等 "有标准答案" 的任务上取得了突破性进展, 这背后离不开 "可验证奖励" (Reinforcement Learning with Verifiable Rewards, RLVR) 技术的加持。RLVR 依赖于参考信号, 即通过客观标准答案来验证模型响应的可靠性。

来自主题: AI资讯

7965 点击 2025-07-31 11:02

LeCun出手，造出视频世界模型，挑战英伟达COSMOS

2018 年，LSTM 之父 Jürgen Schmidhuber 在论文中（ Recurrent world models facilitate policy evolution ）推广了世界模型（world model）的概念，这是一种神经网络，它能够根据智能体过去的观察与动作，预测环境的未来状态。

来自主题: AI技术研报

7297 点击 2025-07-30 10:23