ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源
7628点击    2025-11-27 10:57

智能体终于拥有了可以海量复制的“实战演练场”。


阿里此次开源的新项目ROCK,解决了无法在真实环境中规模化训练的难题。


有了ROCK,开发者想要训练AI执行复杂任务时可以不再“手搓”环境,直接进行标准化的一键部署。


它与阿里此前的RL训练框架ROLL形成了绝妙配合——


ROLL负责教AI怎么思考(训练算法),ROCK负责提供AI练习的场所(环境沙箱)。


ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源


两者协同作战,构成了完整的智能体训练闭环


这套组合打通了智能体训练的链路,让开发者不再被底层基建困扰,实现从单机实验到集群大规模训练的跨越,推开了Agentic AI规模化应用的大门。


环境服务,智能体进化的缺失一环


当下大语言模型正在经历一场深刻的范式转变,最前沿的模型已经进化为能够与外部环境深度交互的Agentic模型。


这种演化不仅仅是技术上的进步,更代表了AI应用场景的根本性扩展。当前几乎所有的SOTA级模型都具备了多轮交互能力,能够通过工具调用、代码执行、外部API调用等方式与环境进行交互。


简单说就是,模型只是“能说”已经无法满足需求,现在还要会做,它们需要调用工具、跑代码、调API,跟外部环境真刀真枪地交互。


从业务价值角度来看,这一转变意义重大。许多企业的自动化链路需要的不仅仅是文本建议或分析报告,而是能够直接执行的动作。


不过要训练好这样的Agent,光有聪明的大模型大脑只是基础,后续还需要对模型进行训练,让模型学会在特定任务环境中规划并执行正确的决策序列。


这是一个系统工程,得凑齐四块拼图:大脑(LLM)、考卷(任务描述)、教练(RL框架),以及最容易被忽视的一块——训练场(环境服务)。


很多从业者面临的困境,往往就和这个“训练场”有关。


如果把RL框架比作发动机,那么训练环境就是燃料。对于Agentic模型而言,环境服务的稳定性和效率直接决定了模型的Scaling潜力,也就是能否通过大规模交互数据持续突破性能瓶颈。


一个高效稳定的环境服务需要同时处理数千乃至数万训练实例,需要毫秒级的快速反馈,需要可靠地维护、回溯和重置环境状态,还需要适配多样化任务类型与复杂度。


环境服务的性能瓶颈往往直接成为整个训练流程的“卡脖子”问题。


为突破这一制约,开发者需要双轨并行——既要构建高度可定制化与高性能的强化学习训练框架,也要建立高效稳定、弹性伸缩的环境管理运行体系,两者协同才能释放Agentic模型的真正潜力。


ROLL框架,高性能的驱动引擎


ROLL基于Ray构建,专门为了大规模LLM强化学习打造,覆盖从小规模预研到数千卡百亿参数生产环境的完整RL优化流程。


ROLL提供了丰富的功能特性,涵盖了强化学习训练的各个方面——


  • 支持数学、代码、推理等多领域任务联合训练;
  • 原生支持Agentic RL,灵活适配游戏、多轮对话、工具调用、CodeAgent等多步决策场景;
  • 深度集成Megatron-Core、Deepspeed等主流框架,支持先进的5D并行策略;
  • 具备样本级生成管理、异步推理、异步训练加速等核心机制。


为了让Agent训练得更快,ROLL专门搞了环境异步交互和冗余采样。而且,它用了一套非常简洁的标准接口——GEM


ROLL采用GEM通过极简的env.reset和env.step两个核心方法,大幅简化了Agentic RL的交互过程。


这种简洁的设计使得任何新的业务应用都能快速适配,无需复杂的接口转换。


环境开发者只需实现标准的reset/step方法,即可无缝接入ROLL的训练体系,实现从简单游戏到复杂工具调用等各类Agentic任务的统一管理。


ROLL作为驱动引擎,在Agentic RL训练过程中的Scaling能力对环境服务提出了极高的具体要求——


  • 它能并发处理数万个实例,这就要求环境服务得扛得住这么大的吞吐量;
  • 它有容错机制,这就要求环境得有足够的冗余;
  • 它支持异步Rollout,这就要求环境拉起要快,生命周期管理要细。


现在,虽然训练引擎准备好了,但环境还没完善,就是在这个背景下,ROCK登场了。


ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源


打造智能体训练的标准化工厂


ROCK(Reinforcement Open Construction Kit),名字一听就很硬核。


智能体训练轻松实现规模化


它的核心使命就一个词——规模化


一个聪明的Agent,其智能的广度与深度,取决于它所能探索世界的规模与多样性。


但传统训练里,复杂的环境太吃资源了,单机跑几个就满载,成为了限制Agent训练规模的硬性天花板。


ROCK的诞生,正是为了击碎这块天花板。


它的底座也是Ray,这让它能把一堆杂乱的计算集群,抽象成一个整齐划一、弹性伸缩的“环境资源池”。


以前你要配置一套集群环境,可能得折腾好几天。现在用ROCK,只需修改配置参数,就能在分钟级别内,自动调度和拉起成千上万个并行训练环境。


开发者不必再关心繁琐的节点管理和资源分配,可以完全聚焦于算法本身。


而且它还支持前所未有的训练灵活性,支持在同一集群中,同时运行同构(来自同一镜像)与异构(来自不同镜像)的环境。


这既满足了大规模重复探索的需求,也为提升Agent在网页浏览、代码编写等不同任务间的泛化能力提供了至关重要的保障。


告别环境“黑盒”


除了规模大,ROCK还解决了一个让开发者抓狂的问题——环境是个“黑盒”。


Agent跑着跑着动作变形了,到底是因为环境出bug了,还是Agent自身出现了问题?以前很难知道。


ROCK直接给开发者开了一个“上帝视角”——程序化的Bash交互能力


它把Linux Shell的能力通过SDK和HTTP API开放了出来,让开发者可以像操作本地终端一样,与成百上千个远程Sandbox进行深度交互。


不论想查某个Sandbox里的文件,还是查看实时日志或者进程状态,甚至想动态改动环境变量都没问题。


这种调试体验,既保留了单机开发的直观,又实现了分布式的规模。


灵活部署与企业级稳定


为了打通开发和生产那“最后一公里”,ROCK还设计了一套“一次编写,随处运行”的方案。


在刚开始写代码的时候,你可以用本地独立运行模式。把它当个纯净的“环境实验室”,跑跑单元测试,验证下你的Chrome浏览器装没装好,文件系统能不能写。


这时候不需要启动庞大的训练流程,先确保环境本身是健康的。


代码写差不多了,就可以进行本地集成调试。用ROLL一键拉起ROCK Sandbox,跑通整个端到端链路。从发指令到收反馈,全流程“所见即所得”,不需要去集群上排队等待。


等一切就绪,便能直接云端规模化部署。配置都不用改,ROCK帮你屏蔽掉底层的复杂度,自动扩展到成千上万个实例。


这样就能够杜绝“在我电脑上能跑,上去就挂”的玄学问题。


对于动辄运行数小时甚至数天的Agent训练任务而言,环境的稳定性也至关重要。


在这方面,ROCK也是按阿里内部核心基础设施的标准来的。


故障隔离做得非常死,每个Sandbox都关在自己的笼子里,一个崩了绝不会连累邻居,更不会拖垮整个服务。


资源调度也非常精细,消除了“吵闹邻居”带来的资源争抢。环境性能稳定了,采集的数据质量才高,模型收敛才能稳。


状态管理则主打一个快,环境挂了秒级拉起重置,保证训练流水线不中断。


ModelService,解耦的神来之笔


在Agentic AI的开发与训练中,开发者长期面临一个棘手的矛盾。


Agent自己有一套业务逻辑(比如怎么拼Prompt,怎么管理对话历史),而训练框架为了介入训练,又难免会插手这个过程。


以前的笨办法是,训练框架把Agent的逻辑重写一遍。结果就是两边代码打架,Agent一改逻辑,训练代码就得跟着改,维护过程极其繁琐。


ROCK用ModelService做了一个“中间人”,完美实现了解耦


ModelService本质上是一个部署在ROCK内部的智能模型代理。它通过“提问-拦截-回答”三步,让Agent和ROLL各司其职,完美协同。


  • 提问:Agent在Sandbox里,按自己的逻辑拼好Prompt,发起调用;
  • 拦截:ModelService把这个请求拦下来,它不直接调大模型,而是把这个“原汁原味”的Prompt通过反向通道传递给外面的ROLL;
  • 回答:ROLL拿到了Prompt,也就拿到了思考过程的控制权。它通过中心化的推理服务,算奖励、做优化,最后返回答案。


这一招至少带来了四个好处:


  • 彻底解耦:Agent只管问,ROLL只管答。两边代码互不干扰;
  • 控制权在手:ROLL虽然不干涉Prompt怎么生成的,但它掌握了最终的Prompt,依然握着训练的主动权;
  • 节约成本:将昂贵的GPU资源集中用于ROLL的中心推理服务,ROCK Sandbox在低成本的CPU实例上大规模运行,极大降低了训练成本;
  • 兼容性强:这种架构天然开放,解耦的设计具有天然的泛化能力,能够轻松支持任何自定义逻辑的Agent。


ModelService让ROCK不仅仅是个执行环境,更是一个懂训练的智能基础设施。


推开Agentic AI规模化应用的大门


随着ROCK的开源,阿里在Agentic AI训练领域的版图终于拼完了。


ROLL提供强大的训练引擎,ROCK则注入源源不断的环境燃料。


这套组合从根本上解决了Agentic模型训练中的两大核心挑战——高效的学习算法和可规模化的环境服务。


现在,通过ROCK,开发者拥有了一套标准化的解法:


  • 弹性扩展:从1到10K,分钟级拉起海量环境;
  • 无缝衔接:本地代码直接上云,开发生产一气呵成;
  • 极致稳定:故障隔离,快速恢复,性能可预期;
  • 架构革新:ModelService让业务逻辑和训练框架彻底分手。


ROCK与ROLL的协同,让Agentic模型训练不再是少数顶尖团队的黑科技,而是变成了一套每个开发者都能上手的标准工业流程。


ROCK正式开源,并将持续更新,诚邀您加入这场AI革命。


不管你是想发顶会paper的研究员,还是想给公司搭自动化系统的架构师,或者是想自己搓个Agent玩玩的技术宅,ROCK都会是你绕不开的基础设施。


感兴趣的话,项目地址我们已经替大家找好了:https://github.com/alibaba/ROCKhttps://github.com/alibaba/ROLL


快速开始文档:5分钟完成首个Agent训练

https://alibaba.github.io/ROCK/docs/Getting%20Started/rockroll/


文章来自于微信公众号 “量子位”,作者 “量子位”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0