04年北大「小天才」押注世界基座模型，要造中国版Neo Lab

04年北大「小天才」押注世界基座模型，要造中国版Neo Lab｜对话逆矩阵陈博远

9144点击 2026-04-14 09:10

04年北大「小天才」押注世界基座模型，要造中国版Neo Lab｜对话逆矩阵陈博远

不与世界交手，何以理解世界？

新物种 Sinovum 设立了「视界线（Event Horizon）」对谈栏目。

视界线，是黑洞的边缘——一旦跨过，既有规则将不再适用，变化变得不可逆。

我们借用这个概念，关注那些已经越过“临界点”的技术与企业：方向开始收敛，选择正在锁定，新的规则正在形成。

我们关心的是：在巨大的不确定性面前，他们如何看见未来？又如何以一个个关键判断为支点，推动整个行业越过那道无形的边界？

故事，正在视界线上发生。而「新物种」将成为忠实的记录者，与你一同见证。

以下是该系列的第 14 篇。

-Intro-

近日，「逆矩阵科技」完成超千万美元首轮融资，投资方为高瓴创投与北大系基金燕缘创投。两位创始人都是Z世代——26岁的吉嘉铭和21岁的陈博远，分别来自北京大学智能学院与人工智能研究院、元培学院。

2025年初，吉嘉铭入选了全球遴选的苹果学者（Apple Scholar），同年被评为北大学生年度人物。名列其中的还有作为CRO（首席研究官）的陈博远，他大一就扎进了实验室，接手的第一个课题，是让大模型用蒙特卡洛树搜索（MCTS）进行多步思考，这也是后来OpenAI o1和DeepSeek R1都涉及过的技术路线。

陈博远大三时，两人合作拿下了ACL 2025的最佳论文奖，全球共有四篇论文获此殊荣，国内的另一篇获奖论文来自梁文锋所带领的DeepSeek团队。

而现在，他们押注了世界模型（World Model）。

为什么是世界模型？陈博远给出了逆矩阵的答案：AI 正在迎来一个从虚拟世界走向物理AI的时代，在新的范式下，核心的规则是Interaction（交互）。

LLM大模型活在键盘里，而物理世界需要懂规律、能决策的智能。视频模型能生成逼真的画面，但难以做到物理正确，传统物理引擎又始终存在“sim-to-real gap”（仿真与现实之间的差距）。

所以他将建构物理世界的希望寄托在世界模型上。

“我们做的是world foundation model（世界基座模型），最终目标是理解物理规律，在世界中做决策。”陈博远对「新物种」表示，2026年底他们计划发布旗舰模型，此前会先开源预览版本。

世界模型吸引的不只有陈博远，还有现在逆矩阵团队里的同伴们，而一切的开始要从北大AI对齐小组说起。

04年北大「小天才」押注世界基座模型，要造中国版Neo Lab｜对话逆矩阵陈博远

北大对齐小组成员于维也纳获得ACL2025最佳论文奖

北大对齐小组是陈博远本科期间围绕“人机对齐”相关研究组织的学生团队，串联起了他的学术履历。

2025年初的一次户外团建让大家产生了最初的想法，当时陈博远、吉嘉铭一行人刚骑完四十公里山路，拐进一家烧烤店。串儿还没上齐，话题就从夜宵滑向了AI的下一站。从底层Infra怎么搭，聊到强化学习在真实世界的边界，不同视角的碰撞最终收敛成了一个笃定的共识：去啃硬骨头——在物理世界里做一个真正的世界基座模型。

几个月后，这支以零零后为主力的团队正式成立了。

“骑行有个词叫‘破风’，即车队里骑在最前面的人顶着风阻，为身后的队友节省体力，累了就换下一个人上前。每个人可能都会疲惫、掉链子和爆胎，但也都有自己不可替代的专长。创业同样如此，我们都会在某个阶段冲到前面，成为团队‘破风者’。” 陈博远说。

01. 从图形学走向世界模型

新物种：为什么你在现在这个时间段，选择世界模型作为创业方向？

陈博远：AI必然从虚拟走向物理，核心是交互。人先理解世界，再建模，然后执行并持续更新。

我们2022年就开始做世界模型——Yann LeCun 2021年系统讲过，但强化学习中的世界模型2019年就有了。我们认为真正的世界模型是：给定当前状态和动作，预测下一状态。比如拿起手机，手机升起；松手，掉下，这种世界状态的转移是物理AI需要的。

我们希望把它的规模做上去，做出懂物理规律的大模型。逆矩阵内部探索也让我确信：世界模型是下一代物理AI的核心。

目前自动驾驶到不了L4，具身因为泛化性问题落地难，游戏仿真的物理有硬伤，我们坚持的共识是：世界模型的泛化性正是答案。

新物种：你怎么看当前世界模型的不同技术路线？

陈博远：现在很多人对世界模型的理解就是建模世界。

有人说语言模型也是世界模型，它建模了语言世界本身。还有视频生成模型，比如国内的Seedance，国外的Google Genie，能生成流畅视频，像人类一样与世界动态交互，学会了世界的某种动态（Dynamics）。李飞飞主张的是3D Construction（三维建构），从零建构这个世界，比如理解手机应该在桌子上，瓶盖放在瓶子上面。

杨立昆主张的JEPA更多是在隐空间——把整个世界的像素用大量视频自监督学习，去发现世界的规律。你可能学到物体的轮廓，学到杯子上面应该有个杯盖，也可能学到深层次的物理规律，但它本身是不可验证的，你只希望损失函数达到最低，就认为它学到了某些东西，就像人类向量化或编码整个世界一样。

还有一些手工编写的物理引擎，也算世界模型。手工编写引擎能做到很精准的仿真，但一直有仿真到真实的鸿沟（sim-to-real gap ），很难接近真实世界。很多人都在努力弥补这个鸿沟。

新物种：你们为什么会从强化学习角度思考这个事情？

陈博远：我们一直在说，我们做的是世界基座模型，而不是专门为机器人或游戏服务的世界模型。

我们认为，无论哪种技术路线，最终目标都是要建构这个世界、理解这个世界、在世界中做决策。这三个环节最重要的是做到物理正确。

04年北大「小天才」押注世界基座模型，要造中国版Neo Lab｜对话逆矩阵陈博远

新物种：CVPR2025专门开了世界模型基准测试（benchmark）的研讨会，是不是大家现在对于世界模型的评估标准没有一个很明确的共识？你们是会沿用像WorldBench这样的已有基准，还是需要自己去定义？

陈博远：我们一定会自己去定义。

整个AI的能力上限一定取决于评估。已有的基准测试，它们可能只关注AI的某一个方面。在逆矩阵内部，我们认为最终想达到的通用人工智能，以及我们想拿到的世界模型，是一个能够理解、学习和运用物理规律、能够自主发现新规律的世界模型。人类也是在不断探索中发现新知识的。

对我们现在来说，我们更关注物理正确性的世界模型。视频生成是一种形态，动作输出也是一种形态，其他形态可能也是图形界面层的动作空间。

但关键一点是，它一定要理解物理正确性。

新物种：那你认为该如何建模物理正确性？

陈博远：不同技术路线有不同看法。学术界已有的成果给了我们很多启发，但我们自己也有一些内部的评估体系，去评估我们想做的世界模型的未来。

我们坚信首先要有一个星辰大海，至于怎么达到，肯定是自上而下地设计。评估确实决定了上限，但我们不能局限在一个静态的评估上。

新物种：假如你们自己去定义一个基准测试，会有什么样的标准或技术细节？怎么证明你们的基准是可行的、大家也可以参考？

陈博远：我们今年会发布自己的旗舰模型，希望能给大家带来不一样的视角。

对我们内部来说，基准测试上分数很高只是一个方面，我们更看重的是模型是否有规模化的能力。这是我们坚信的第一性原理，所谓的GPT-3时刻，不是因为它们在某个基准测试上分数很高，而是它们带来了规模定律的迹象，增加算力、增加数据就能带来更好的效果，让模型更懂语言、更懂物理世界规律。

所以我们内部非常坚信Scaling Law，我们想要去发现模型规模化的迹象，这是我们核心关注的事情。

新物种：强化学习之于世界模型，有点像RLHF（基于人类反馈的强化学习）之于ChatGPT。那物理正确性的奖励信号怎么来？

陈博远：强化学习会贯穿从预训练到后训练的整个过程。

世界的规律是分层次的，像物理和数学一样，是“验证容易但生成难”，评估比生成简单。这种任务用强化学习最高效。物理规则可以自主定义，比如牛顿定律、哈密顿量守恒、拉格朗日量守恒。

02. Z世代的理想主义

新物种：你什么时候有创业的想法？什么时候明确一定要做？

陈博远：我一直以来的目标都是想要去做到超过人类智能水平的AGI，而且我认为这样的AGI一定要落地产生生产力的变革。

大二、大三时，元培院友深势科技的张林峰学长常回来分享，现在大家经常谈论的一个议题是“优绩主义”，我也想要跳出传统的评价体系，做自己真正想做的事情，学长们创业的故事给予我很多正向的引导。

当时我觉得创业需要两样：使命（做什么）和好团队（谁来做）。我想先找到真正有价值的问题。

2025年初时，我们更加坚信AI会带来巨变。逆矩阵内部一直强调用第一性原理理解问题，简单、直觉。大模型的“next token prediction”能规模化，强化学习能成功，都符合这个原理。

新物种：在你看来，这波做世界模型相关的创业者有什么共同点吗？

陈博远：我觉得世界模型的这波创业者特征很明显：一帮最年轻、最优秀的人去做最有价值和意义的事。

我们团队也凝聚了很多零零后“小天才”，比如IOI金牌的获得者等。后浪一定是推动AI的关键，所以我们以Neo Lab形式存在。

新物种：你和合伙人吉嘉铭是怎么认识的？怎么建立默契的？

陈博远：大一刚来北大我就在杨耀东老师组会上认识了嘉铭，我们第一篇合作的文章中了NeurIPS 2023，只是我的签证被拒了两次，没去成。我们虽然差6岁，但在研究方向、技术理想和日常交流中我们都非常契合，经常会一起畅聊未来。

我认为能走得远的创业团队不仅是战友，还是朋友、兄弟。

新物种：那你们怎么决定一起创业的？

陈博远：嘉铭拿到了苹果学者，全球遴选，那年大陆只有两位，北大一位，他是北大三年唯一。offer到手、签证已过，但他选择放弃。我们达成了共识：在AI浪潮里要有自己的浪花。

创业是在无人区探索。

2025年我们lab、纯北大团队独立做出了ACL最佳论文，那年共4篇，国内另一篇是梁文锋的 Native Sparse Attention（原生稀疏注意力）。

这在很多人，包括我自己看来是不可思议的，因为好像在大家的眼里，需要有一些公司的背景才能真正做出一些有意义的创新，但我们实现了从0到1的突破。

04年北大「小天才」押注世界基座模型，要造中国版Neo Lab｜对话逆矩阵陈博远

ACL 2025获奖名单

新物种：逆矩阵的团队都是“Z世代”吗？工作氛围怎样？

陈博远：我们的人主要分为两类。一是志同道合、有热情的年轻人，比如两个本科生自己鼓捣出新架构，表现很好。后浪推前浪。二是大厂核心工程人才，做Infra落地和基建。两部分耦合，这是我们独特的形式。

团队人数在二十出头，其中最大的是97年的，最小的同事才读大一、大二。我常把我们比作法拉利——小而五脏俱全，每个人都是掌舵人。

我一直坚持内部扁平化，没有OKR、没有部门、没有墙。随时全连接交流，每个人有发起权，能把自己的灵感应用到更大规模。当你擅长一样东西的时候，你的骄傲是来自自己的，而不是别人带来的与有荣焉的光环，大家一起决定这艘船的航向。

我觉得AI就是一帮最有理想主义的人，把虚无缥缈的技术理想做成、实现。那是出发点，后来才有了技术研讨和真正想去实现的东西。

新物种：那逆矩阵是你理想中的团队组织吗？

陈博远：无论是组织架构还是AI创新，都需要最聪明的人加上良好的协作方式。我们所有的成员，入职第一天，我们都会教大家如何用好AI，争取成为能够利用好AI工具提升生产力的，最“AI-native”的团队。

我的学术偶像是哈萨比斯（Demis Hassabis），他最近出了本自传。书里提到DeepMind内部有一个说法：有人问DeepMind想成为什么样的公司，回答是“获得最多诺贝尔奖的公司”。

这种信心背后是组织形式在支撑。两三个人做一个方向，但每个人都有充分交流的机会。有了灵光一现的想法，大家坐下来聊，没有职级高低，没有信息囤积，没有政治甩锅，一起把想法实现、放大，最终可能带来改变世界的突破。

这是我非常认可的组织形式，也是我们正在践行的。

03. 强化学习、AGI与本土答卷

新物种：再回到四年前，为什么你想学AI？因为它“火”吗？

陈博远：我从小喜欢数学，也会自己去超前学习，比如在高中时我已经把大学数学了一遍。后面去打数学竞赛，学习方法、刷题，我感觉越来越过度拟合，突然有某一天我不想做竞赛了，于是转回普通高考路线。

2020年北大暑期课堂，是我第一次真正理解AI。

当时我还是高中生，也没有ChatGPT，公众认知还停留在人脸识别、语音识别。那堂课让我听到了不一样的：AI的终局会无处不在无所不能，也就是现在大家常说的“AGI”。回到高中后，我在纸上写下三个词贴在桌角：北京大学、元培学院和人工智能。

那颗埋下的种子，现在终于开花结果。

新物种：你和杨耀东老师怎么建立联系的？为什么选强化学习？

陈博远：大一一入学我就进组了，然后寒假时看AI文献，了解到CV（计算机视觉）、NLP（自然语言处理）和强化学习等方向。

为什么选强化学习？因为我觉得强化学习更加接近我们人类学习理解这个世界的过程，并且能够学习到真正通用泛化的技能。还有是我喜欢打游戏，从4399到王者荣耀。为什么不能教会AI像人一样打游戏、超过人类？AlphaGo和王者荣耀的“绝悟AI”背后都是强化学习。

04年北大「小天才」押注世界基座模型，要造中国版Neo Lab｜对话逆矩阵陈博远

陈博远（左二）与导师杨耀东（左三）同强化学习之父Richard Sutton交流

用骑自行车类比：看别人骑永远学不会，真正学会是在不断尝试中，有明确的奖励信号——摔倒了知道不对，能往前走就知道对了。强化学习就是在奖励信号下，通过self-play、探索利用，学会通用技能。这是最贴近人类学习的方式。

杨耀东老师2021年从UCL（汪军老师团队）回国。我大一旁听他的《多智能体系统》课，他看到一个大一新生觉得惊异。后面杨老师成为我的导师，教给我很多东西，其中最关键的也是建议我在AI浪潮里做真正有价值有意义的事。

新物种：你的科研经历是怎样一步步演进的，你主要关注的核心问题是什么？

陈博远：我做的第一个课题是尝试让大模型像人下棋一样，用MCTS（蒙特卡洛树搜索）多步思考，成了我后续科研的出发点。现在回看会发现OpenAI o1、DeepSeek R1这些强推理模型的思路和当时探索的一些技术路线非常像。

我其实是强化学习背景出身，研究强化学习在大模型这样复杂系统训练过程中的应用。很多人认为AI对齐就是在做价值对齐，其实不全面。

我认为我整个本科科研都围绕一个核心问题：如何监督更强大的AI系统？这里的监督有两层含义。一方面是Supervise，也就是如何提供奖励信号来让AI变得更加强大；另一方面才是Oversight，给AI系统装上安全的刹车。

但是强化学习一直是贯通的，包括我们在最早2023年就开始做一些强化学习背景的世界模型，2025年初一直在做一些学术的积淀，瞄准真正理解物理世界的世界基础模型。

新物种：强化学习怎么让大模型从“只会续写”变成能写代码、做数学的？

陈博远：如果回到2023年，我们会发现大模型虽然能够很好的像人类一样说话，但就是没办法回答1+1=几。这是因为世界的规律本就是分层次的，并不是所有人都是牛顿能够总结出重力。

是什么让大模型真正成为我们现在的Coding Agent，其实是强化学习（Reinforcement Learning, RL）的方法，通过明确的奖励信号，让模型做自由探索，最终涌现出了对于数学、代码等环境的理解。

强化学习是符合第一性原理的技术，也是唯一能够超越Human Intelligence Level的路线。无论是数学代码规律，还是物理规律，这种问题一定是用强化学习解决。

新物种：本科拿到NeurIPS口头报告和ACL最佳论文，其实能看出你的学术路是相对顺畅的，为什么不选择继续读博呢？

陈博远：我的技术理想是做一个真正懂物理世界的AGI，并且能够落地产生生产力的变革。

最近我在看格雷格·曼昆（Gregory Mankiw）的《经济学原理》，里面有一个定律叫做“边际效应递减”，意思就是如果一件事情你做的太久，跨过了某个阈值，你在单位时间的收益就会越来越小。所以继续读博对我的增益作用不大。

我相信我们是AI Native 的，没有路径依赖，会带来不一样的视角。

新物种：但很多人认为基座模型只有大厂烧得起钱，世界模型会不一样吗？创业公司做世界模型可行吗？

陈博远：一定是可行的。ChatGPT出来时OpenAI也不是大厂，一开始是实验室形式。DeepSeek也是初创公司，一帮最牛的人把最前沿的东西带出来。

世界模型和三年前的大模型一样，没有确切的路径，需要前沿探索。这种探索最需要最有冲劲、最没有组织架构限制的土壤。世界模型一定能在尚未定义的问题上带来创新。

新物种：你们不做专门面向游戏或机器人的世界模型，那会先选一个场景落地吗？

陈博远：我们想先把基座模型做好。太早关注商业化和产品化会分散精力，也容易陷入 Goodhart Law的泥潭，我们自己内部是觉得如果你的精力能够分成a、b、c、d，那为什么不专心把一件事情做好？

符合第一性原理的技术，简单、直接、能规模化，一开始会蛰伏，但一旦到技术爆发点就会指数级上升。我们全心全意先做好技术和模型本身这一件事。

新物种：你之前说2026年发布旗舰模型，现在有明确时间点吗？

陈博远：内部看到了一些有趣的规模化迹象。我们会在年底真正给大家看到不一样的东西——一个真正懂物理正确性的世界模型。过程中也会开源一些预览版本、基座模型，让社区做更多探索。

新物种：你提到海外有不错的学校给你发了offer，为什么会坚定地选择留在北大？

陈博远：元培学院教会了我两件事：一是追求学术自由，二是凭热爱去探索。

北大给了我们很多支持，让我从无知里面成长，收获了前行路上志同道合的伙伴。同时我们也想要接续北大前辈们的事业，在AI时代交出一份北大青年答卷。这是北大的答卷，也是我们本土的答卷，更是我和嘉铭的契合点。

不与世界交手，何以理解世界？我们希望给AI时代带来年轻力量和北大的声音，和让大家看到青年一代在本土原始创新过程中的力量。

文章来自于"新物种Sinovum"，作者 "企鹅、Oriana"。

关键词: AI新闻 , AI访谈 , 逆矩阵科技 , 世界模型 , 陈博远

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI写论文

【开源免费】paperai是一个可以快速通过关键词搜索到真实文献并将其应用到论文写作当用的功能。
项目地址：https://github.com/14790897/paper-ai
在线使用：www.paperai.life

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI