智能体终于拥有了可以海量复制的“实战演练场”。
阿里此次开源的新项目ROCK,解决了无法在真实环境中规模化训练的难题。
有了ROCK,开发者想要训练AI执行复杂任务时可以不再“手搓”环境,直接进行标准化的一键部署。
它与阿里此前的RL训练框架ROLL形成了绝妙配合——
ROLL负责教AI怎么思考(训练算法),ROCK负责提供AI练习的场所(环境沙箱)。

两者协同作战,构成了完整的智能体训练闭环。
这套组合打通了智能体训练的链路,让开发者不再被底层基建困扰,实现从单机实验到集群大规模训练的跨越,推开了Agentic AI规模化应用的大门。
当下大语言模型正在经历一场深刻的范式转变,最前沿的模型已经进化为能够与外部环境深度交互的Agentic模型。
这种演化不仅仅是技术上的进步,更代表了AI应用场景的根本性扩展。当前几乎所有的SOTA级模型都具备了多轮交互能力,能够通过工具调用、代码执行、外部API调用等方式与环境进行交互。
简单说就是,模型只是“能说”已经无法满足需求,现在还要会做,它们需要调用工具、跑代码、调API,跟外部环境真刀真枪地交互。
从业务价值角度来看,这一转变意义重大。许多企业的自动化链路需要的不仅仅是文本建议或分析报告,而是能够直接执行的动作。
不过要训练好这样的Agent,光有聪明的大模型大脑只是基础,后续还需要对模型进行训练,让模型学会在特定任务环境中规划并执行正确的决策序列。
这是一个系统工程,得凑齐四块拼图:大脑(LLM)、考卷(任务描述)、教练(RL框架),以及最容易被忽视的一块——训练场(环境服务)。
很多从业者面临的困境,往往就和这个“训练场”有关。
如果把RL框架比作发动机,那么训练环境就是燃料。对于Agentic模型而言,环境服务的稳定性和效率直接决定了模型的Scaling潜力,也就是能否通过大规模交互数据持续突破性能瓶颈。
一个高效稳定的环境服务需要同时处理数千乃至数万训练实例,需要毫秒级的快速反馈,需要可靠地维护、回溯和重置环境状态,还需要适配多样化任务类型与复杂度。
环境服务的性能瓶颈往往直接成为整个训练流程的“卡脖子”问题。
为突破这一制约,开发者需要双轨并行——既要构建高度可定制化与高性能的强化学习训练框架,也要建立高效稳定、弹性伸缩的环境管理运行体系,两者协同才能释放Agentic模型的真正潜力。
ROLL基于Ray构建,专门为了大规模LLM强化学习打造,覆盖从小规模预研到数千卡百亿参数生产环境的完整RL优化流程。
ROLL提供了丰富的功能特性,涵盖了强化学习训练的各个方面——
为了让Agent训练得更快,ROLL专门搞了环境异步交互和冗余采样。而且,它用了一套非常简洁的标准接口——GEM。
ROLL采用GEM通过极简的env.reset和env.step两个核心方法,大幅简化了Agentic RL的交互过程。
这种简洁的设计使得任何新的业务应用都能快速适配,无需复杂的接口转换。
环境开发者只需实现标准的reset/step方法,即可无缝接入ROLL的训练体系,实现从简单游戏到复杂工具调用等各类Agentic任务的统一管理。
ROLL作为驱动引擎,在Agentic RL训练过程中的Scaling能力对环境服务提出了极高的具体要求——
现在,虽然训练引擎准备好了,但环境还没完善,就是在这个背景下,ROCK登场了。

ROCK(Reinforcement Open Construction Kit),名字一听就很硬核。
它的核心使命就一个词——规模化。
一个聪明的Agent,其智能的广度与深度,取决于它所能探索世界的规模与多样性。
但传统训练里,复杂的环境太吃资源了,单机跑几个就满载,成为了限制Agent训练规模的硬性天花板。
ROCK的诞生,正是为了击碎这块天花板。
它的底座也是Ray,这让它能把一堆杂乱的计算集群,抽象成一个整齐划一、弹性伸缩的“环境资源池”。
以前你要配置一套集群环境,可能得折腾好几天。现在用ROCK,只需修改配置参数,就能在分钟级别内,自动调度和拉起成千上万个并行训练环境。
开发者不必再关心繁琐的节点管理和资源分配,可以完全聚焦于算法本身。
而且它还支持前所未有的训练灵活性,支持在同一集群中,同时运行同构(来自同一镜像)与异构(来自不同镜像)的环境。
这既满足了大规模重复探索的需求,也为提升Agent在网页浏览、代码编写等不同任务间的泛化能力提供了至关重要的保障。
除了规模大,ROCK还解决了一个让开发者抓狂的问题——环境是个“黑盒”。
Agent跑着跑着动作变形了,到底是因为环境出bug了,还是Agent自身出现了问题?以前很难知道。
ROCK直接给开发者开了一个“上帝视角”——程序化的Bash交互能力。
它把Linux Shell的能力通过SDK和HTTP API开放了出来,让开发者可以像操作本地终端一样,与成百上千个远程Sandbox进行深度交互。
不论想查某个Sandbox里的文件,还是查看实时日志或者进程状态,甚至想动态改动环境变量都没问题。
这种调试体验,既保留了单机开发的直观,又实现了分布式的规模。
为了打通开发和生产那“最后一公里”,ROCK还设计了一套“一次编写,随处运行”的方案。
在刚开始写代码的时候,你可以用本地独立运行模式。把它当个纯净的“环境实验室”,跑跑单元测试,验证下你的Chrome浏览器装没装好,文件系统能不能写。
这时候不需要启动庞大的训练流程,先确保环境本身是健康的。
代码写差不多了,就可以进行本地集成调试。用ROLL一键拉起ROCK Sandbox,跑通整个端到端链路。从发指令到收反馈,全流程“所见即所得”,不需要去集群上排队等待。
等一切就绪,便能直接云端规模化部署。配置都不用改,ROCK帮你屏蔽掉底层的复杂度,自动扩展到成千上万个实例。
这样就能够杜绝“在我电脑上能跑,上去就挂”的玄学问题。
对于动辄运行数小时甚至数天的Agent训练任务而言,环境的稳定性也至关重要。
在这方面,ROCK也是按阿里内部核心基础设施的标准来的。
故障隔离做得非常死,每个Sandbox都关在自己的笼子里,一个崩了绝不会连累邻居,更不会拖垮整个服务。
资源调度也非常精细,消除了“吵闹邻居”带来的资源争抢。环境性能稳定了,采集的数据质量才高,模型收敛才能稳。
状态管理则主打一个快,环境挂了秒级拉起重置,保证训练流水线不中断。
在Agentic AI的开发与训练中,开发者长期面临一个棘手的矛盾。
Agent自己有一套业务逻辑(比如怎么拼Prompt,怎么管理对话历史),而训练框架为了介入训练,又难免会插手这个过程。
以前的笨办法是,训练框架把Agent的逻辑重写一遍。结果就是两边代码打架,Agent一改逻辑,训练代码就得跟着改,维护过程极其繁琐。
ROCK用ModelService做了一个“中间人”,完美实现了解耦。
ModelService本质上是一个部署在ROCK内部的智能模型代理。它通过“提问-拦截-回答”三步,让Agent和ROLL各司其职,完美协同。
这一招至少带来了四个好处:
ModelService让ROCK不仅仅是个执行环境,更是一个懂训练的智能基础设施。
随着ROCK的开源,阿里在Agentic AI训练领域的版图终于拼完了。
ROLL提供强大的训练引擎,ROCK则注入源源不断的环境燃料。
这套组合从根本上解决了Agentic模型训练中的两大核心挑战——高效的学习算法和可规模化的环境服务。
现在,通过ROCK,开发者拥有了一套标准化的解法:
ROCK与ROLL的协同,让Agentic模型训练不再是少数顶尖团队的黑科技,而是变成了一套每个开发者都能上手的标准工业流程。
ROCK正式开源,并将持续更新,诚邀您加入这场AI革命。
不管你是想发顶会paper的研究员,还是想给公司搭自动化系统的架构师,或者是想自己搓个Agent玩玩的技术宅,ROCK都会是你绕不开的基础设施。
感兴趣的话,项目地址我们已经替大家找好了:https://github.com/alibaba/ROCKhttps://github.com/alibaba/ROLL
快速开始文档:5分钟完成首个Agent训练
https://alibaba.github.io/ROCK/docs/Getting%20Started/rockroll/
文章来自于微信公众号 “量子位”,作者 “量子位”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0