当机器人成为各大科技展会最受瞩目的焦点,当具身智能论坛场场爆满、一票难求,我们不难发现:这个领域正在经历前所未有的关注热潮。
然而,热潮之下,仍有诸多关键议题悬而未决:面对数据稀缺,有人寄希望于合成数据的突破,有人坚持真机数据才是根本;在技术路线之争中,有人押注端到端的整体范式,有人则认为分层架构更符合演进规律;至于模型形态,有人视 VLA 为智能的最终归宿,也有人认为世界模型才是真正的未来。
现阶段出现这种分歧非常正常,因为整个行业的发展路径尚未收敛。有些问题甚至还没有来得及系统讨论,比如量产之后会出现哪些新的卡点,谁来解决?
正是因为存在这些问题,业界迫切需要一个开放的对话平台。在今年云栖大会的具身智能论坛上,我们见证了这样一场深度交锋:不同派系的代表坐到同一张桌子前,将技术分歧、商业思考和基础设施需求一并摊开讨论,试图在碰撞中寻找新的共识。
论坛过后,我们也和这场论坛的发起者 —— 阿里云聊了聊。这家云计算巨头选择在此时深度介入具身智能领域,本身就值得关注。
聊完之后,我们发现,他们真正的入局其实是在四五年前,如今更是在提前为具身智能行业即将到来的数据量的指数级增长以及算力需求、模型规模的爆发做准备。这种给行业未来 3 到 5 年打「提前量」的布局既体现了阿里云对技术周期的敏锐判断,也暗示着云厂商在具身智能时代所扮演的角色 —— 不只是提供算力,更是在为具身智能行业提前搭建起未来几年最关键的基础设施。他们相信,在各方的共同努力下,具身智能的「FSD V12 时刻」很快就会到来,而他们已经为此做好了准备。
具身智能的数据饥荒已成为行业共识。为了解决这个问题,行业逐渐划分出两个派系:真机派和合成派。真机派坚持以遥操或者互联网的形式获取数据,基于 VLA 做模仿学习;仿真派则相信合成数据可行性,在仿真环境中合成数据,用作模型训练,并大量使用强化学习。双方都有充足的理由坚持自己的路线。
银河通用是仿真合成派的代表。在现场,该公司联合创始人兼大模型负责人张直政从成本和可扩展性的角度阐述了他们选择该路线的理由。
张直政指出,今天的具身智能大模型要想实现通用的、跨任务的泛化能力,可能需要上万亿条数据,全部真机采集既难以实现也不可持续。特斯拉的 Optimus 就是一个例证,他们曾让一个 40 多人的团队耗时一个月采集了数十万条遥操数据,用来训练机器人完成电池取放任务,但泛化性依然很差。在相关负责人离职后,Optimus 开始尝试通过人类视频让机器人学习任务。
因此,银河通用选择的路线是:先通过大规模仿真合成数据进行预训练,构建通用基座大模型,再利用少量高精度的真实数据进行后训练。通过这种方式,他们实现了良好的泛化性能,并且把真实数据后训练的样本效率提高到了 Optimus 的一千倍,大大降低了落地的边际成本。
「仿真极为重要,没有仿真,我认为我们几十年内都无法制造出能在现实世界中发挥作用的机器人」。NVIDIA 机器人与边缘 AI 副总裁 Deepu Talla 在现场说道。此外,他还分享了 Isaac Sim、Isaac Lab 等工具,有了这些工具,机器人的仿真数据生产和模型训练显著加速。
但值得注意的是,并不是在所有的情况下,仿真数据都更容易获取。清华大学助理教授、星海图首席科学家赵行就指出,「有些仿真数据的 scaling law 来自于你拥有的博士生数量,像流体、柔性物体的仿真只有图形学博士才能做」。在这种情况下,在真实世界做一个物理实验反而更便宜(比如杯子打翻,水洒在一块布上),而且得到的数据质量更高,多样性也更好。千寻智能联席首席科学家解浚源也指出,仿真数据其实是「伪数据驱动」,因为仿真器需要针对每个物体和场景定制开发,这本质上是一种「研发人力驱动」的方式。此外,仿真数据的数据效率也是一大问题,自变量机器人创始人、CEO 王潜给出了一个令人惊讶的数字:仿真数据和真实数据的效率可能会差 5-6 个数量级,这在实际训练中会大大削弱仿真数据的成本优势。
仿真未必便宜,真机也未必贵到不可承受。作为「真机派」的代表,解浚源还对「真机数据昂贵稀少」的共识提出了挑战。他认为,真机数据真正的瓶颈在于缺乏投入,而非数据本身成本过高。「实际上真机数据并没有想象中那么贵,在国内供应链的支持下,把单个机器人成本打到 10 万以下是很容易的。」解浚源将此与大模型厂商的投入进行对比,指出当前一块高端训练显卡的成本远高于一个国产机器人的成本。既然大模型厂商能以万卡甚至几十万卡的规模投入算力,那么将采集数据的机器人规模扩展到上千台、上万台,绝非不可想象的成本。
此外,在采集方式上,遥操作并不是唯一的选择。千寻智能自研的可穿戴机械臂可以把采集成本降到遥操作的 1/20,同时保持有效采集精确度不变。
解浚源相信,唯有高质量的真实数据才能训练出世界领先的模型,所以他们致力于构建一个基于真实数据的全链路数据生态,从而打造一个数据飞轮,让机器人借助真实数据实现能力的不断升级。
无论是合成数据还是真机数据,最终都是要为模型的训练去提供服务。随着大模型与机器人领域融合的加深,一些问题开始浮出水面:具身智能领域需要什么样的大模型?端到端和分层架构哪个更有前景?VLA 是终局吗?世界模型又将带来哪些价值?围绕这些问题,几位具身智能行业领袖、资深研究者展开了讨论。
针对第一个问题,王潜表示,具身智能大模型不是虚拟世界大模型在现实世界的简单应用,而是独立的基础模型。因为首先,语言和视觉无法精确描述物理动作;其次,物理接触过程的复杂性远超虚拟世界模型的建模能力。
赵行同意这个说法,并进一步指出,具身基础模型是一个平行于语言模型的存在。猴子、猩猩等动物没有丰富的语言,但它们的具身智能能力却非常强大,这种能力很有可能来自视觉和动作这两个模态的交互学习。这说明视觉 - 动作模态本身就蕴含着强大的智能潜力,可以平行于语言模态发展出自己的智能。
但在构建具身智能基础模型的方式上,两人出现了分歧 —— 赵行青睐分层架构,王潜则坚信端到端。
最初选择分层架构,赵行更多考虑的是现实部署约束,因为在端侧实时跑大模型受限于端侧芯片的迭代速度。通过大小脑分层、分别部署在边缘侧和端侧的设计,机器人更容易落地。此外,他认为分层架构更符合生物进化规律,毕竟人脑不同分区各司其职同样工作得很好。针对不同层之间能力无法互通、梯度无法回传的质疑,赵行表示这不是本质问题,可通过强化学习等技术解决。
但王潜认为分层架构存在致命缺陷:前层的微小错误会在后续环节快速放大,而且更多的人为干预往往会降低模型效果。更重要的是,高层模型不理解物理约束,常常分配不可能完成的任务;而底层模型缺乏语义理解,学会抓橘子却不会抓苹果。为解决层间理解鸿沟,最终还是要针对各层缺陷注入不同知识,结果就是各层越来越像,不如直接采用统一模型。对于部署压力,王潜回应说,虽然端到端在训练阶段只训一个模型,但推理阶段可以拆开或压缩,然后分布式部署。
不过,从某种意义上来说,端到端和分层架构并不一定是完全对立的。北京大学计算机学院研究员仉尚航指出,分层的关键在于如何定义「层」。如果分层是指必须拆分成两个独立模型,那确实与端到端相冲突;但如果是在一个统一模型内实现功能分区 —— 比如一部分侧重推理决策,另一部分专注动作生成,那就既保持了端到端的完整性,又实现了类似大小脑的分工,两条路线就可以收敛到一起。
针对当前声量比较高的 VLA 和世界模型,各位嘉宾也发表了自己的观点。北京人形机器人创新中心 CTO 唐剑指出了世界模型的几个重要作用:一是辅助机器人大脑 VLM 进行自主学习探索,像「做梦者」一样模拟各种任务场景;二是自动生成可执行的动作序列,作为真机数据的高效补充;三是为 VLA 等模型提供底座支撑。他认为世界模型与 VLA 并非冲突关系,而是可以相互配合的技术组合。
赵行则认为,VLA 是当下更有潜力的技术路线,因为世界模型过于依赖 first-principle 假设,要求必须预测出未来图像才能做规划,但人类学习主要靠「熟能生巧」。另外,从数据效率看,100 条数据用来训练端到端 VLA 就能产生效果,但训练世界模型至少需要万级甚至亿级数据量。所以在他看来,世界模型是一个非常终局的路线,只有在数据不受限制的时候才更有价值。
嘉宾们的分享足够尖锐,也足够真诚:真机派与合成派的路径之争、端到端与分层架构的优劣、VLA 与世界模型的对比…… 这些关键问题被一并摆上桌面,让行业当下的卡点一目了然。
同时,还有一些关键信息值得关注,比如王潜提到,他们已经在内部数据中观察到了具身智能的 scaling law,ICLR 2025 的一篇论文(「DATA SCALING LAW IN IMITATION LEARNING FOR ROBOTIC MANIPULATION」)也提到了这一点。这意味着,在具身智能领域继续扩大模型和数据规模也极有可能是有效的。
此外,我们也看到,现场有多位嘉宾分享了具身智能的落地情况,比如上海傅利叶智能科技股份有限公司创始人兼首席执行官顾捷分享了他们在人机交互、康复及陪伴场景的探索,中科云谷科技有限公司副总经理杨辉介绍了中联重科在工业制造场景下的机器人落地思考与实践,加速进化副总裁赵维晨则讲述了人形机器人普及路径及教育、竞赛等落地思路。从中可以看出,整个具身智能行业的落地速度正在加快,越来越多的公司开始走向量产。
但当议题从「怎么造机器人」切换到「怎么把机器人量产」,讨论就必须引入一个此前近乎隐形的主角 —— 云厂商。
「我们建议,具身智能公司从第一天起就要做好云架构、AI Infra 的规划。」阿里云智能集团公共云事业部副总裁、华北大区总经理,同时也是阿里云智能集团公共云事业部具身智能负责人高飞在采访中提到。
这背后的逻辑并不复杂。正如嘉宾们所言,大模型技术已经广泛应用于具身智能行业,scaling law 的显现和机器人落地速度的加快都让数据和算力规模变得愈发重要。论坛嘉宾分享的提效手段让数据采集、合成越来越快,未来几年行业数据量将稳步攀升,对应的清洗、存储和训练压力也会随之放大。
但仅凭具身智能公司一己之力,这样的压力是很难顶住的。首先,数据激增带来的需求难以预测,企业自建的 IT 基础设施很难跟上业务发展,也会因为缺乏弹性而难以满足训练、仿真等并发需求。其次,大多数具身智能团队源自科研背景,这让他们在算法突破方面游刃有余,但工程化经验相对有限,开发工具链和运维能力也常常不足。
一旦公司开始量产,数据开始指数级增长,这些矛盾就会被瞬间放大。仅数据的迁移、处理工作就会造成巨大的 IT 开销,给企业发展带来阻力。
阿里云非常清楚这一过程给企业带来的痛苦,因为在智能驾驶行业,他们已经经历过一轮类似的发展历程,也帮助很多头部车企顺利渡过了难关。如今,越来越多的具身智能公司找到他们,希望在量产之前完成云架构的规划,少走一些弯路。
对于这些需求,阿里云已经在过去的四五年中沉淀了不少相关能力:
首先是处理大量数据的能力。
阿里云智能集团公共云事业部具身智能解决方案负责人王旭文提到,阿里云最初诞生就定位为「以数据为中心的云计算」,之后深度入局的智能驾驶、AI 也都是数据密集型行业,如今大量具身智能数据涌来,他们已经有足够强大的基础设施和经验来从容应对。
具体来说,在最根本的数据生产环节,无论企业是「真机派」还是「仿真派」,他们都有全套的技术支持。
真机数据生产的链条非常长,也非常复杂,涉及采集、标注、传输上云、存储、质量校验、清洗脱敏、数据分析等多个环节。对此,阿里云能够提供一整套云上的大数据处理能力来支撑这个复杂流程,包括云上托管的数据处理引擎和湖仓一体架构,实现统一的元数据管理和超大规模数据的有序生产。
对于仿真数据生产,阿里云同样做了充分准备。他们适配了市面上主流的仿真软件运行环境,并通过自身的产研能力对这些软件进行了深度的性能优化与评估,帮助用户选择最适合的算力规格,显著提升仿真计算效率并降低成本。此外,他们的多款云产品已经和第三方工具链深度集成,可以做到开箱即用,比如阿里云人工智能平台 PAI 已经完成与 NVIDIA Physical AI 全栈工具链的整合;无影云电脑可以弹性挂载多种规格的 GPU,并且预置了多款国内外仿真软件,用开箱即用的开发机加速整个仿真过程。
但无论如何,当前数据的稀缺依然是一大难题,所以数据的流转和共享已经成为一种产业需求。传统的线下数据拷贝方式效率极低 —— 很多公司需要派人拿着硬盘到对方公司去拷贝,这种以周为单位的数据传输方式显然无法适应行业发展需要。阿里云通过 OSS 跨地域、跨账号的数据迁移服务,能够将这个过程缩短到小时级别。同时,他们也在联合生态伙伴,推动云上数据存储和安全数据分享的行业最佳实践。
其次是独一无二的模型原厂优势。
通义千问系列模型在 AI 领域的地位有目共睹 —— 其衍生模型数量已超过 17 万个,稳居全球开源模型的头部阵营。但更值得关注的是,这种影响力正在向具身智能领域延伸。
「最近一段时间我跑了大概 30 家具身智能公司,跟他们的 CEO 深度沟通后了解到,他们大部分都在用 Qwen-VL 模型去做后训练。」高飞在采访中提到。
这种不约而同的选择背后有着充分的技术理由。Qwen-VL 在空间感知、动态视觉理解、2D/3D Grounding、路径规划等方面的能力,恰好契合了具身智能对「大脑」的核心需求。更重要的是,坚持开源策略让通义千问形成了一个全球性的开发者生态,大量国内外开发者在基于这个模型进行二次开发和优化。而且,作为模型原厂,阿里云还可以提供模型服务的深度支持,比如定向开源特定版本 checkpoint,提供专业的模型训练工程化支持等。这种从模型底层到应用层的全链路支撑能力,让阿里云在具身智能赛道拥有了一个几乎不可复制的竞争优势。
在论坛现场,通义千问实验室算法科学家白帅还分享了他们最新的 Qwen3-VL 模型,这个模型针对细粒度视觉理解、视频时序理解、3D 感知与规划以及带图推理和视觉交互能力进行了优化,为具身智能落地提供了更强的基础模型支撑。
当然,通义以外的模型,阿里云也提供高性价比的、稳定的调用服务。阿里云百炼不仅集成了自研的全系列模型,还汇聚了国内主流模型和国外开源模型。在这些模型背后,阿里云提供统一的基础设施保障,确保服务的可用性、稳定性和大规模集群支持。对于那些在数据安全和定制化方面有特殊需求的客户,阿里云还支持在 VPC 环境中独立部署模型。
模型之外,工程化能力也很重要。
「工程这件事需要时间和经验的积累,做过和没做过的就是不一样。这一过程没有捷径。」王旭文在采访中强调。
他还观察到,由于具身智能尚处于规模化前期,一些工程方面的痛点还没有充分暴露,所以很多具身智能公司还没有在工程方面做好准备,这与成熟的 AI 行业形成了鲜明对比。
好在,阿里云是准备好了的,因为在过去几年服务头部大模型公司和汽车新势力的过程中,他们通过「一步一步踩坑」的方式积累了大量的基础设施和实战经验,并将这些东西沉淀成了可标准化交付的产品和服务能力,包括完整的计算、存储、网络基础设施、数百 P 级数据处理能力等。
这些东西之所以能够复用,是因为具身智能和智能驾驶在工程架构方面有着高度的相似性。首先是基础设施层面,无论是集群组网,还是资源管理调度、性能优化,两个领域所需的底层能力几乎一致。操作系统、运行环境、开发框架等技术栈也没有本质区别。其次是工具链层面,两个行业的研发 Pipeline 高度重合,对数据 Pipeline 构建的基础能力需求也基本相同。更有意思的是,许多具身智能从业者本身就来自智能驾驶背景,他们使用的模型架构很多是在智能驾驶模型基础上改进而来的。这种人员和技术的传承,让阿里云此前在智能驾驶领域积累的工程经验能够几乎无缝地移植到具身智能场景中。
「智能驾驶行业规模已经如此之大、体系如此成熟,它所积累的经验完全可以先复用,然后再看有什么差异。它所踩过的坑,具身智能企业没必要从头再踩一遍」,王旭文以「过来人」的口吻说道,这也是他们反复强调具身智能公司一定要在业务爆发之前就做好基础设施规划的重要原因。
目前,阿里云已经服务了一些已经或正在走向量产阶段的具身智能企业。在这一过程中,他们发现自己可以做的事情其实非常多,比如提供全链路可观测服务,提供回传数据的实时采集和实时分析以辅助故障诊断与定责,通过 Qwen-Omni、Qwen-ASR 能力增强机器人的对话和娱乐互动性,通过无影云电脑提供工作站环境从而支持仿真和数据采集工作等。
看来,在量产机器人这条路上,阿里云正在帮整个行业扫清障碍。
阿里云发起的这个具身智能论坛持续了 4 个小时,现场座无虚席。
可以看到,整个具身智能行业还有很多非共识,技术路线还尚未收敛。高飞说,这其实很像四五年前的智能驾驶。但 FSD v12 出来之后,大家看到了「端到端 + 数据驱动闭环」在真实世界的可行性,于是技术路线迅速收敛,整个行业也迎来数据的爆炸式增长。他相信,具身智能也会经历这个过程。
这一过程中,有一些显而易见的趋势,比如云边端协同。端侧受物理空间和功耗限制,无法承载大算力需求;而长期任务规划、复杂推理等高级能力又需要强大的计算资源支持;此外,多机协作、工具调用等场景也必须通过云端实现统一调度,这让云厂商的重要性日益凸显。阿里云积蓄的力量也将在这一阶段爆发。
不过,高飞也指出,除了基础设施支撑,具身智能的落地还离不开广大开发者群体的参与。为此,阿里云在生态建设方面做出了多方面努力,包括坚持通义系列大模型的开源策略,降低开发者使用门槛;基于阿里云数百万开发者基础,连接具身智能公司与开发者社群;提供系统化的培训、产品试用和资源支持;在魔搭社区专门开设具身智能专区,汇聚相关模型和数据集等。
在这个充满不确定性的非共识阶段,阿里云选择为各种技术路线都做好准备,用平台能力和生态资源为整个行业的未来发展夯实基础。当具身智能的「FSD V12 时刻」真正到来时,这些提前布局的能力将成为推动行业跃迁的关键力量。
文章来自于微信公众号“机器之心”,作者是“机器之心”。
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales