AI资讯新闻榜单内容搜索-强化学习

为这一个Tab键，我愿意单独付费：Cursor用在线强化学习优化代码建议，护城河有了？

Cursor Tab 是 Cursor 的核心功能之一，它通过分析开发者的编码行为，智能预测并推荐后续代码，开发者仅需按下 Tab 键即可采纳。然而，它也面临着一个 AI 普遍存在的难题：「过度热情」。有时，它提出的建议不仅毫无用处，甚至会打断开发者的思路。

来自主题: AI技术研报

8961 点击 2025-09-14 21:34

交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL，昇腾加持，开创智能体训练新范式

强化学习之父、2024 年 ACM 图灵奖得主 Richard Sutton 曾指出，人工智能正在迈入「经验时代」—— 在这个时代，真正的智能不再仅仅依赖大量标注数据的监督学习，而是来源于在真实环境中主动探索、不断积累经验的能力。

来自主题: AI技术研报

8333 点击 2025-09-11 18:53

从「会说」迈向「会做」，LLM下半场：Agentic强化学习范式综述

过去几年，大语言模型（LLM）的训练大多依赖于基于人类或数据偏好的强化学习（Preference-based Reinforcement Fine-tuning, PBRFT）：输入提示、输出文本、获得一个偏好分数。这一范式催生了 GPT-4、Llama-3 等成功的早期大模型，但局限也日益明显：缺乏长期规划、环境交互与持续学习能力。

来自主题: AI技术研报

8926 点击 2025-09-09 10:49

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

来自斯坦福的研究者们最近发布的一篇论文（https://arxiv.org/abs/2509.01684）直指RL强化学习在机器学习工程（Machine Learning Engineering）领域的两个关键问题，并克服了它们，最终仅通过Qwen2.5-3B便在MLE任务上超越了仅依赖提示（prompting）的、规模更大的静态语言模型Claude3.5。

来自主题: AI资讯

7868 点击 2025-09-06 11:35

告别海量标注！浙大团队提出GUI-RCPO，让GUI定位在无标签数据上自我进化

无需海量数据标注，智能体也能精确识别定位目标元素了！来自浙大等机构的研究人员提出GUI-RCPO——一种自我监督的强化学习方法，可以让模型在没有标注的数据上自主提升GUI grounding（图形界面定位）能力。

来自主题: AI技术研报

8260 点击 2025-09-05 15:28

首个为具身智能而生的大规模强化学习框架RLinf！清华、北京中关村学院、无问芯穹等重磅开源

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf：首个面向具身智能的“渲训推一体化”大规模强化学习框架。

来自主题: AI技术研报

6666 点击 2025-09-01 16:49

波士顿动力机器狗侧空翻炸场！穿轮滑鞋照样能翻

刚刚，风头被中国机器人盖过的波士顿动力，又整了个大活！前后空翻我还能理解，这侧空翻？（不是哥们，你真会啊！）他们先在仿真环境中进行强化学习，一旦策略出现问题，那么他们就将其部署在真机上进行测试，观察问题，然后反复测试迭代，加强Spot的稳定性。

来自主题: AI资讯

7219 点击 2025-08-29 14:00

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死

强化学习核心是什么？Karpathy一语道破——环境。全新开源Environments Hub横空出世，为强化学习训练带去革命性突破。

来自主题: AI资讯

7166 点击 2025-08-29 13:07

We-Math 2.0：全新多模态数学推理数据集 × 首个综合数学知识体系

近期，多模态大模型在图像问答与视觉理解等任务中进展迅速。随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理，数学推理也得到了一定提升。

来自主题: AI技术研报

9186 点击 2025-08-28 12:20

手把手教机器人：斯坦福大学提出RTR框架，让机械臂助力人形机器人真机训练

人形机器人的运动控制，正成为强化学习（RL）算法应用的下一个热点研究领域。当前，主流方案大多遵循 “仿真到现实”（Sim-to-Real）的范式。研究者们通过域随机化（Domain Randomization）技术，在成千上万个具有不同物理参数的仿真环境中训练通用控制模型，期望它能凭借强大的泛化能力，直接适应动力学特性未知的真实世界。

来自主题: AI技术研报

7934 点击 2025-08-27 11:05