原腾讯Robotics X算法研究员创业,4个月获3轮融资,要在3-5年将人形机器人送进家庭

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
原腾讯Robotics X算法研究员创业,4个月获3轮融资,要在3-5年将人形机器人送进家庭
7598点击    2025-11-19 17:13

原腾讯Robotics X算法研究员创业,4个月获3轮融资,要在3-5年将人形机器人送进家庭


在腾讯四年,朱庆旭曾将多种训练数据喂给具身模型,最终他得出结论:“基于遥操作数据训练的主流方案,有着原理性缺陷。”


“95后”朱庆旭是前腾讯Robotics X实验室研究员,2025年6月,他从Robotics X离开并创立了具身智能算法公司灵启万物。


《智能涌现》独家获悉,灵启万物成立4个月,已完成3轮融资,总融资额近亿元。第一轮由元禾原点独投;第二轮由和玉资本领投,英诺天使,元生创投,锦秋基金跟投,老股东元禾原点超额跟投;第三轮由锦秋基金领投,梅花创投,卓源亚洲跟投,老股东英诺天使超额跟投,和玉资本跟投。


近日,灵启万物采用自己的算法结合宇树机器人本体,推出一组Demo。


从趴在床上除螨,到踩着板凳给花棚架高处的植物浇水等,在未经加速的视频中,机器人以接近真人的流畅度执行一系列家务。


任务灵感来自朱庆旭看到的小红书主题:“独自带娃妈妈的一天”。他从中选择了人完成起来最麻烦的几个任务,因为这些动作几乎都需要“手脚并用”,所以十分考验具身智能算法对机器人的控制能力。


视频发出后,转发量就破了4000,有留言称“硅基保姆具象化了”。


原腾讯Robotics X算法研究员创业,4个月获3轮融资,要在3-5年将人形机器人送进家庭

△视频demo,图片:采访人提供


访谈中,朱庆旭提出了不少“反共识”的观点。


我认为真正胜任家务场景的机器人构型,还是双足人形而且应该在3-5年之内就可以达到,”朱庆旭说。


家庭场景以多样的非标任务、环境构成,这增加了具身智能在学习和泛化上的难度。加之双足构型本身在运动控制、平衡性和工程复杂度上存在挑战,因此业内更倾向认为,双足人形机器人进家干活是5至10年后才会实现的“终极场景”。


朱庆旭坚信,双足人形机器人能更好完成家庭任务。原因是人类世界是为人体结构设计的,人形才能最好地复用人类数据并适应复杂家庭环境,尤其是登高、跨越、俯身等动作,轮式很难覆盖这些姿态组合。


关于为何在“机器人做家务”的时间预测上明显早于业界,朱庆旭也给出了直接的理由。


“为什么现在人形机器人训练的进展那么慢,很多Demo视频里的动作完成速度也那么慢,基于遥操作数据训练的主流方案,有着原理性缺陷。他说。


在他看来,遥操时,操作人员需要手持遥控装置操作机器人完成任务。人边思考边控制,导致本应依赖本能完成的动作变得缓慢、卡顿,用这样的数据训练机器人,结果必然是不流畅的。


这些观点的提出,来源于朱庆旭过往在学术和工作中的积累。


朱庆旭拥有机器人控制与研究的专业背景,2021年毕业自瑞士苏黎世联邦理工学院和德国亚琛工业大学的联合培养项目。


2021年,他进入腾讯Robotics X。在随后的四年中,他与团队通过多种途径采集数据,对具身智能模型进行系统训练,并发现基于遥操作数据训练的模型在执行效率方面表现相对较低。


今年5月,美国机器人公司波士顿动力也提出对遥操的质疑,认为遥操是在用人的“System 2”(慢系统)采数据,所以会导致行为低效,缺乏动态性,有非常不必要的动作。这对朱庆旭的技术路线形成启发。


在灵启万物的算法中,朱庆旭采取“小脑”+“大脑”的架构,前者实现运动控制,后者实现规划和泛化能力。


其中,灵启万物目前重点突破业内聚焦较少的小脑部分,通过构建完整的“人类动作库”,快速采集动作数据,并让机器人高效学会多数基础动作(元动作)。


在真机数据采集上,灵启万物放弃业内普遍使用的“遥操作”,改为采取“光学动捕+UMI”方案。


该方案首先通过光学动捕技术,由操作员穿戴设备在采集空间中真实做出动作,并使用多机位摄像头同步记录。此举不仅能更精准地复现人类流畅、本能的行为模式,还极大提升了实验室环境下的数据采集效率。


随后,在真实环境中由操作员手持UMI夹爪直接操作物体,可大规模获取手与物体的真实交互数据。与前一步的动捕数据结合后,形成既高质量又可规模化的训练数据底座。


原腾讯Robotics X算法研究员创业,4个月获3轮融资,要在3-5年将人形机器人送进家庭

△操作人员身穿的动作捕捉会记录下其身体姿态,图源:采访人提供


谈及融资关键,灵启万物朱庆旭指出,其公司与当前主流方案的技术差异化,是能快速获得主流机构投资的主要原因。他表示,这些投资人广泛布局具身智能领域却仍选择灵启万物,是看重其技术与其它被投企业的协同价值。


朱庆旭进一步推测,该技术提升效率后,双足人形机器人进入家庭的时间将缩短至3-5年。


而更近的未来中,双足人形可能先在1-2年内进入零售、快餐等无人商店。因为此类场景任务固定、环境可控,能快速验证并产生商业价值。


提及灵启万物的壁垒,朱庆旭总结道:“在大家都看好遥操作的时候,我们能判断出它有原理性缺陷并找到新思路;我们能坚守家庭、服务的终局,把一个不成熟的想法一步步做成现实的能力,才是真正的壁垒。”


这也是朱庆旭创业后的首次对外公开发声。以下对话来自专访,内容经作者整理:


原腾讯Robotics X算法研究员创业,4个月获3轮融资,要在3-5年将人形机器人送进家庭

△图源:采访人提供


“遥操作”有原理性缺陷


智能涌现:为什么您认为“遥操作”存在原理性缺陷?


朱庆旭: 核心在于,遥操作是人使用大脑的“慢系统”在控制机器人。操作者需要观察、思考、然后执行,这个过程本质上是缓慢、卡顿、充满不必要停顿的。


用这种“慢系统”数据去训练机器人,等于让机器人模仿一个动作本来就不流畅的老师,其性能上限被锁死了。你看到的所有需要加速播放的机器人视频,根源都在于此。


而且,对于需要触觉反馈的灵巧操作,比如拧瓶盖,遥操作因为没有真实的力反馈,操作员可能不知道机器人的手有没有拧到瓶盖最合适的位置,也会降低动作效率。


智能涌现:既然遥操作存在你说的问题,那它当初为什么会成为现阶段普及较高的一种方案?


朱庆旭: 我想大家最开始的想法,是让机器人直接操作物体,并获得机器人真机数据。遥操是第一个实现这个目标的方案。


智能涌现:你们的替代方案“动捕+UMI”具体是如何工作的?优势在哪?朱庆旭: 这是一个追求数据质量和规模平衡的方案。


  • 光学动捕:在实验室里,人穿上动捕服,自然地(使用“快系统”)完成各种动作。它能高精度、高保真地记录下人类全身协调的、流畅的运动轨迹。


  • UMI:可以理解为一种手持的夹爪设备,操作员用UMI设备实际操作物体。这可以大规模采集到手与物体的交互数据。


将两者结合,我们得到的数据集,既具备了动捕的高质量,又拥有了UMI的大规模。它记录的是人类的下意识动作,是机器人真正应该学习的“本能”。


在数据的金字塔中,顶层的数据是遥操,虽然真机采集,但数量稀少。底层是视频数据,虽然量大,但是视角、视频质量等问题,未必能高效用于训练。我们的方案恰好是提供金字塔中间层的数据——比视频质量好,比遥操又在量上多很多。


智能涌现:数据采集来以后,你的算法中,“小脑”和“大脑”具体是如何分工与协作的?


朱庆旭: 我们采用分层的架构,这更符合智能形成的逻辑。


  • 小脑(元动作库):它的目标是掌握所有人类的基础动作,比如走、跑、蹲、抓、拉。我们通过动捕数据,在仿真环境中对它进行无实物训练。一旦这个“元动作库”构建完成,它就是通用的,可以跨所有场景调用。


  • 大脑(任务规划与泛化):它负责通过摄像头感知环境,理解语言指令,进行任务规划,并精准地调用“小脑”技能库中的动作来完成任务。


它们不是先后关系,而是耦合迭代的。小脑的技能越丰富,大脑能调用的工具就越多;大脑越聪明,调用技能就越精准。


原腾讯Robotics X算法研究员创业,4个月获3轮融资,要在3-5年将人形机器人送进家庭

△Demo中机器人趴在床上除螨,图源:采访人提供


3-5年间,从无人店到进家庭


智能涌现:您提到1-2年内,人形机器人先落地无人店,具体如何实现?学习速度能有多快?


朱庆旭: 像无人肯德基或无人超市这样的场景,任务和动作是有限的、可穷举的。


我们可以在动捕实验室里,把所有炸薯条、包汉堡、上货的动作都表演和采集一遍。因为我们的数据质量高,机器人学习这些原子动作的效率非常高。以肯德基场景为例,学会所有岗位的动作只需要2到3天。


之后,再到实地采数据,来帮助大脑训练泛化能力即可。这种效率是遥操作无法比拟的。


智能涌现:动捕需要搭建一个类似“影棚“的布满摄像头的环境,如果我要完成特定场景的工作,比如教会机器人在肯德基炸薯条,应该不会真的到肯德基厨房里搭摄像头架子。所以要如何实现?


朱庆旭: 确实不需要。


动作可以在实验室里采全。人类动作是“有限集”,比如炸薯条,分解下来就是手持、放置、提起、把油抖掉这样的动作集,可以在动捕设备中采集即可。


然后,到实际场景中只需补UMI动作(手持夹爪与物体交互),以及环境数据即可。


智能涌现:从封闭场景到形成泛化,最大的挑战是什么?


朱庆旭: 最大的挑战是泛化能力。家庭环境是千差万别的。我们需要攻克三类泛化:


1、物体泛化:面对不同形状、材质、大小的物体都能正确操作。


2、位置泛化:物体在任何角落、任何高度都能找到并处理。


3、场景泛化:适应不同家庭的布局、光照、家具风格。


这需要我们为“大脑”模型采集大量、多样化的场景数据。我们相信Scaling Law,但前提是数据质量必须足够高,数量也要够大。


原腾讯Robotics X算法研究员创业,4个月获3轮融资,要在3-5年将人形机器人送进家庭

△Demo中机器人与小朋友玩飞盘,图源:采访人提供


批判、壁垒与未来


智能涌现:你为什么觉得未来真正走入家庭并实现干活的具身智能,会是双足人形?


朱庆旭: 双足也确实存在问题和难点,比如重心较高稳定性不如轮式,控制更难等,这也是人形和非人形的主要争议点。但总体而言我认为是优点大于缺点的。


我们希望机器人能够在不改造家庭生活环境的情况下为人服务,从这个最终的目标逆推,人形是最容易适应人类生活环境的。


家里面有一些地形,可能并不是很适合轮式,比如阳台或者厨房有个小台阶,或者家里有错层、楼梯。从软装的层面,如果地面铺了厚一些的地毯,也不适合轮子来行进。


而且像有一些需要高度变化的任务,比如踩着梯子去拿东西、给花架上的植物浇水,或者俯下身子找东西、捡垃圾等等,这些轮足会比较难做到,都还是人形更合适,而且,如果提出非人形的构型,又要不断穷举非人形的问题并解决。


比如从当下来看,训练机器人需要动作数据,但没有机器人在家里做家务的数据可以被采集,所以还是采集的人类动作数据,用大量人类的数据来教机器人来学习。但如果是非人形的方案,我们没有一个这样的数据集了。


智能涌现:机器人进入家庭后,用户如何教它新任务?


朱庆旭: 在终极状态下,我们希望机器人出厂时就具备完成大部分常见家务的能力,不需要用户再训练。


对于全新的任务,我们远期会考虑开发一套简易的示教设备,让用户可以“手把手”教机器人一次,它就能通过观察和少量练习学会。


智能涌现:有一种说法是,算法本身产品性较弱,如果硬件公司开始做算法,那将取代算法公司。你怎么看这么观点,灵启万物的壁垒在哪里?


朱庆旭: 其实技术没有壁垒,只有领先。我们真正的壁垒不是“动捕+UMI”这个方案本身,这个想法可以被复制。我们的核心壁垒是团队的技术判断力与持续迭代能力。


在所有人都看好遥操作的时候,我们能判断出它有原理性缺陷并找到新路,我们能坚守家庭服务的终局。这种在混沌中看清方向、并把一个不成熟的想法一步步做成现实的能力,才是真正的壁垒。


这就像OpenAI早期坚信GPT道路一样,“Talk is cheap”,执行与迭代才是关键。其实从现在来看,ChatGPT的原理其实很简单,但在几年前,在只有一些苗头的时候,他们依然可以坚持这个方向。而且OpenAI也把工程和细节做到了极致,这才是他们的核心壁垒。


智能涌现:您对行业的未来有何判断?


朱庆旭: 行业会经历一个大浪淘沙的过程。最终能留下来的,一定是那些在“健身”而不是“化妆”的公司。


我们自身而言,更希望公司在技术上不断深耕、有深度、有探索,而不是追逐短期的噪音与表面的繁华。我们希望公司能够持续构建真正属于自己的底层能力,不断累积长期竞争力,在行业真正成熟到来的那一天依然屹立不倒。


文章来自于“智能涌现”,作者 “富充”。

AITNT-国内领先的一站式人工智能新闻资讯网站