谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

8555点击 2025-11-24 15:25

“寒武纪”这个名字在AI圈里火得发烫。

由谢赛宁牵头，李飞飞和Yann LeCun站台搞的“寒武纪”，大获好评。

此寒武纪究竟是什么？

Cambrian-S（寒武纪-S），不造硅基芯片，而是专注于解决AI领域一个更核心的问题：让人工智能真正学会感知世界。

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

它的具体成果，是一款主打空间感知的多模态视频大模型，还兼顾了通用视频、图像理解能力，在短视频空间推理中拿下了SOTA。

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

更厉害的是，加了预测感知模块后，连超长视频的空间任务都能扛下来——要知道，这可是很多主流模型的软肋。

这个李飞飞和LeCun都关注的空间智能领域的新模型，到底有哪些突破？

超感知：让数字生命真正体验世界

先从它的发展历程说起。

2024年6月，团队先推出了Cambrian-1，这是针对图像多模态模型的一次开放性探索。

在这次尝试中，他们从5个方面方向进行了突破。

一是系统测评了20多种视觉编码器及组合，明确不同类型模型（语言监督、自监督等）的适配场景与优势；

二是设计了空间视觉聚合器SVA，以更少视觉token高效整合多源视觉特征，兼顾高清处理与计算效率；

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

三是构建并优化视觉指令训练数据集，从1000万条原始数据筛选出700万条高质量数据，平衡类别分布并通过系统提示提升模型交互能力；

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

四是推出了CV-Bench基准测试，聚焦2D/3D视觉理解核心任务，弥补现有测评对视觉能力考核的不足；

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

五是总结了最优训练方案，证实两阶段训练、解冻视觉编码器等策略能显著提升模型性能。

按常理，下一步工作该是扩大规模搞Cambrian-2、Cambrian-3，跟主流模型拼参数、拼数据量。

但团队并没有这么做，而是停下来反思“什么是真正的多模态智能”。

在他们看来，现在很多多模态模型，看似能看图说话，实则只是把图像信息转换成文字，再用语言模型处理——就像人只看了照片的文字说明，没真正看到照片里的场景。

于是，他们提出了超感知的概念。

超感知并不是换个更高级的摄像头、加个更灵敏的传感器那么简单。

谢赛宁一句话点透核心：

这关乎数字生命如何真正体验世界，吸收输入流并学习的能力。

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

简单说，就是让 AI 不止能看到物体，还能记住物体的位置、理解物体间的关系，甚至预判物体接下来的变化。

他还补了句更关键的：

在构建出超感知之前，不可能真正构建出超级智能。

顺着这个思路，团队又把目标聚焦到视频上，毕竟人感知世界，靠的不是一张张孤立的照片，而是连续的生活片段。

于是，视频空间超感知又成了核心方向：让AI能从视频里读懂空间关系，比如“人从门口走到沙发旁，拿起桌上的书”，不只是识别人、沙发、书，还要懂“门口到沙发的位置距离”、“书在桌上的具体方位”。

Cambrian-S：从“考倒 AI”到“做好示范”

有了方向，团队没急着先做模型，而是先解决了两个关键问题：

怎么判断AI有没有空间感知能力？
用什么数据教AI学空间感知？

带着这两个问题，他们先搞了个叫VSI-SUPER的基准测试，专门考AI的空间感知。

里面有两个看似简单的任务：一个是长时程空间记忆（VSR），让AI看几小时的室内漫游视频，之后回忆出视频里不寻常物体的位置；

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

另一个是持续计数（VSC），让AI在长视频里数清楚特定物体的总数。

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

现在市面上的模型一经测试，结果挺打脸，像Gemini-Live、GPT-Realtime这些号称能处理实时视觉输入的商业模型，在10分钟视频上的平均准确率还不到15%，视频拉长到120分钟，基本就记不住了。

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

这也证明，主流模型的空间感知能力，确实没跟上。

解决了“怎么考”，再解决“怎么教”。

团队建了个VSI-590K数据集，里面有59万条训练样本，既有真实场景的视频，也有模拟的空间场景，重点标了物体位置、动态变化这些关键信息，就相当于给AI准备了一套空间感知教材。

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

有了测试标准和训练数据，Cambrian-S模型家族才算正式登场。

参数规模从0.5B到7B，不算特别大，但针对性极强。

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

核心训练逻辑是，通过预测下一帧的训练机制，让模型在推理时用意外度识别关键信息，最终实现对超长视频的空间理解和任务处理。

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

成绩也很亮眼，在短视频空间推理任务里拿了SOTA；面对VSI-SUPER 基准测试，比开源模型的空间记忆准确率提升了30%以上，部分任务甚至超过了一些商业模型。

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

更关键的是它的预测感知模块，模型会主动预判视频下一帧的内容，不仅让处理超长视频时更高效，还能控制GPU内存消耗，不用靠堆硬件来撑性能。

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

团队介绍

除了谢赛宁牵头，李飞飞和LeCun两位大佬站台，寒武纪项目还有其他几位核心贡献成员。

纽约大学的博士生Shusheng Yang领导了该项目，他曾经还参与了Qwen模型的开发，也在腾讯实习过。

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

Jihan Yang，本科毕业于中山大学，后在香港大学拿到博士学位，现为纽约大学柯朗数学科学研究所的博士后研究员，研究专注于推理、智能体、长视频、空间智能、统一模型等多模态大语言模型。

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

黄品志，是纽约大学的一名本科生，曾在Google Gemini实习。

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

Ellis Brown，本科就读于范德堡大学，主修计算机科学和数学，曾在斯坦福大学、哥伦比亚大学攻读非学位研究生课程，后获得卡内基梅隆大学硕士学位，目前为纽约大学库朗数学研究所计算机科学博士生。

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

参考链接：

[1]https://cambrian-mllm.github.io/

[2]https://x.com/sainingxie/status/1986685063367434557

文章来自于“量子位”，作者 “闻乐”。

关键词: AI新闻 , Cambrian-S , 寒武纪-S , 李飞飞

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md