AI资讯新闻榜单内容搜索-强化学习

全球强化学习+VLA范式，PI*0.6背后都有这家中国公司技术伏笔

在 Physical Intelligence 最新的成果 π0.6 论文里，他们介绍了 π0.6 迭代式强化学习的思路来源：

来自主题: AI技术研报

8662 点击 2025-12-15 09:58

全球首个！灵巧手真实世界具身数采引擎Psi-SynEngine来了，灵初智能发布

灵初智能发布全球首个具身原生人类数据采集方案 Psi-SynEngine。该方案由灵初智能全栈自研，包含便携式外骨骼触觉手套数采套装、大规模 in the wild 数采数据管线、基于世界模型和强化学习的跨本体数据迁移模型，并已率先将采集到的人类数据应用于物流等真实场景。

来自主题: AI资讯

7262 点击 2025-12-11 11:29

只用512张H200！106B模型靠分布式RL杀出重围，全网开源

最近，Prime Intellect正式发布了INTELLECT-3。这是一款拥有106B参数的混合专家（Mixture-of-Experts）模型，基于Prime Intellect的强化学习（RL）技术栈训练。在数学、代码、科学与推理的各类基准测试上，它达成了同规模中最强的成绩，甚至超越了不少更大的前沿模型。

来自主题: AI资讯

8733 点击 2025-12-10 16:14

LLM强化学习不稳定之谜，被Qwen团队从「一阶近似」视角解开

如今，强化学习（RL）已成为提升大语言模型（LLM）复杂推理与解题能力的关键技术范式，而稳定的训练过程对于成功扩展 RL 至关重要。由于语言具有强烈的上下文属性，LLM 的 RL 通常依赖序列级奖励 —— 即根据完整生成序列给一个标量分数。

来自主题: AI技术研报

5637 点击 2025-12-08 10:27

对话陈佳玉：从核聚变到机器人，是攀登AI珠峰的过程

本科毕业于北大工学院，早期研究聚焦于自动驾驶；博士后期间在卡内基梅隆大学，利用强化学习解决核聚变反应堆控制问题。陈佳玉的科研生涯，始终围绕着复杂系统的智能控制展开。

来自主题: AI资讯

7267 点击 2025-12-08 09:45

超越π0.5，复旦团队首创「世界模型+具身训练+强化学习」闭环框架

Vision–Language–Action（VLA）策略正逐渐成为机器人迈向通用操作智能的重要技术路径：这类策略能够在统一模型内同时处理视觉感知、语言指令并生成连续控制信号。

来自主题: AI技术研报

8805 点击 2025-12-05 09:27

月之暗面公开强化学习训练加速方法：训练速度暴涨97%，长尾延迟狂降93%

u1s1，现在模型能力是Plus了，但Rollout阶段的速度却越来越慢……

来自主题: AI技术研报

8188 点击 2025-11-27 15:29

Z Tech ｜ LMSYS 团队发布大规模 MoE 强化学习框架 Miles，不积跬步无以至千里

继轻量级强化学习（RL）框架 slime 在社区中悄然流行并支持了包括 GLM-4.6 在内的大量 Post-training 流水线与 MoE 训练任务之后，LMSYS 团队正式推出 Miles——一个专为企业级大规模 MoE 训练及生产环境工作负载设计的强化学习框架。

来自主题: AI资讯

8264 点击 2025-11-20 15:26

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

当我们谈论大型语言模型（LLM）的"强化学习"（RL）时，我们在谈论什么？从去年至今，RL可以说是当前AI领域最炙手可热的词汇。

来自主题: AI技术研报

10069 点击 2025-11-18 15:11

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习，数据代码模型权重已开源

长期以来，多模态代码生成（Multimodal Code Generation）的训练严重依赖于特定任务的监督微调（SFT）。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功，但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力，阻碍了通用视觉代码智能（Generalized VIsioN Code Intelligence）的发展。

来自主题: AI技术研报

9096 点击 2025-11-17 14:32