AI 视频的下一步：不是剪辑，是模拟

AI 视频的下一步：不是剪辑，是模拟｜Sora 2 团队

9639点击 2025-11-13 09:17

最近，OpenAI 宣布：Sora 2 进一步开放使用权限，不再需要邀请码。

这不仅是一次权限放开，更是一次技术路径的转向。

AI 视频的下一步：不是剪辑，是模拟｜Sora 2 团队

（Sora 2 Android版应用商店页面，已开放下载）

你不再需要拍摄、剪辑、导出。只要输入几句话，AI 就能根据逐秒脚本生成一段完整视频。不是靠剪辑拼接画面，而是一步步模拟世界的运行。

如果说 Sora 1 是图像增强器，那么 Sora 2 是世界模拟器的雏形。

在 11 月 5 日的访谈中，产品研究负责人 Bill Peebles 给出一个清晰判断：

Sora 是一个世界模拟器（World Simulator），不是一个生成器。

这篇文章将还原 Sora 团队的核心思路：

他们如何让视频模型从生成画面转向理解世界运行的规律？这条技术路径又如何把 AI 视频推向 Agent 涌现的临界点？

第一节｜技术底层：视频生成，为何变成世界模拟

OpenAI 的 Bill Peebles 是 Diffusion Transformer（Dit）的提出者，这正是让 Sora 从图像增强走向世界建构的关键技术。

Dit 不是像语言模型那样逐个 token 生成，而是从一堆噪声里还原出一个完整视频的过程。过去的视频生成系统，容易在时间轴上断开。第一秒动作合理，第四秒突然手臂消失、第七秒背景塌陷。

为什么？

因为大多数模型无法同时处理时间 + 空间的复杂关系，画面之间没有记忆，更没有物理逻辑。

Sora 换了思路。

它不再逐帧处理，而是将视频切成一个个小立方体，每个立方体同时包含了位置、画面和时间信息。

Peebles 把这个叫做“时空块”（space-time patch）或“时空标记”（space-time token）。你可以想象一个小长方体，它既包含 X 和 Y 的空间维度，也包含一个时间局部性。这个结构，是视觉生成模型的最小单位。也就是说，Sora 不是在画一张张图，而是在理解和组织一个三维时序结构。

Thomas Dimson 补了一句：注意力机制在这里变成了一种全局共享记忆，它让模型可以把前几秒钟的信息带进后面的帧里。

所以，才有了物体持久性这种过去 AI 视频模型几乎不可能做到的能力。

Sora 2 能让角色从头到尾穿着同一件衣服，手中的物体不会神秘消失，甚至在复杂的动作场景中，镜头移动后仍能保持角色的方向一致。这些不是靠“贴标签”或加规则做出来的，而是模型自然地理解了这是一段连续世界的演化过程。

Peebles 强调：Sora 的视频模型，在每个时间点上都拥有整个画面的全局上下文，这让它能够保留真实世界里的延续性。

对非技术用户来说，这意味着：你不需要提供时间线、镜头顺序或角色逻辑，Sora 就能推断出这段视频里谁在做什么、做了多久、应该怎么结束。

它从根本上重构了 AI 视频的生成方式。

不是合成片段，而是模拟世界。
不是按帧渲染，而是按规则演化。
不是模型越来越会画画，而是越来越懂场景。

这不只是画面更真实了，而是 Sora 学会了推演一个符合物理规律的世界。

第二节｜智能雏形：Agent 从哪一帧开始涌现？

在 OpenAI 的研究团队看来，Sora 的最大不同不只是画面流畅或动作逼真，而是：模型开始像一个智能体那样对待场景。

Bill Peebles 说：我们不是为了做酷炫的视频，而是想让模型在动作背后具备基本的物理理解力。

这意味着，Sora 不只是按照指令生成动作，更在判断这些动作该不该发生、合不合逻辑。

主持人现场举了一个例子：如果提示词是篮球明星投罚球，过去的模型很可能会直接安排球进框，因为那样更讨好用户；但 Sora 2 不会这么做。

Peebles 描述说：

“如果他没投进，篮球就会真的反弹回来。模型不会强行让球进框，也不会忽略重力或速度。它会失败，但这种失败是合理的。”

看似是个小细节，但在 AI 生成的世界里，它标志着一个重要分界：是拍一个动作，还是模拟一次因果？

这正是模型失败和智能体失败之间最有趣的区别。

换句话说：Sora 已经不再只把视频看起来像样作为目标，而是在构造一个可以自己推进的、有内部规则的小世界。这就是智能感开始出现的地方。

在他们看来，Agent 这个词并没有被当作一个系统模块或产品角色，而是指 Sora 本身在建模过程中所表现出的内在思考路径，一种对物体、时间、动作、因果之间关系的连续感知能力。

而这些 Agent 式的特征，大多数时候是随规模扩展自然涌现出来的。

这就是所谓的“涌现”：不靠人为设计，当模型规模达到某个临界点时，这种理解能力就自然出现了。

就像 GPT 系列在从 3 到 4 的过程中突然会解数学题、总结逻辑一样，Sora 在扩展训练规模后，也开始出现了类似的“场景理解感”：

知道什么动作该发生，什么动作不会发生
能保持前后场景中物体的稳定性（如角色不会突然消失）
会自然地遵循力学和因果链，而不是只是完成视觉任务

而 OpenAI 对 Sora 的评判标准也变了：

不是看起来正确，而是要错的合理。

在这背后，Sora 不再逐帧生成，而是以时空整体的方式思考：每个动作、每个结果，是否符合这个世界的内在逻辑。它更像是在模拟一个世界的运行，而不是剪辑一段视频。

Sora 2 的起点：一个可以容纳失败、具备物理规则、自带行为因果的 Agent 雏形。

第三节｜产品飞轮：Cameo，不是滤镜，是社交

有了智能感的底层能力，OpenAI 需要回答的下一个问题是：如何让人们真正用起来？

Sora 2 的产品性，不在生成视频，而在让人们愿意出现在视频里。

产品负责人 Thomas Dimson 在播客里说：

我们不是一开始就知道该怎么做。

但我们观察到，大家特别爱把自己放进生成视频里，这件事很有意思。

这不是传统意义上的贴图头像或剪进照片，而是用 AI 生成方式，把你放进一个全新场景：骑龙、飙车、登月、穿越吉卜力风格森林，甚至参加朋友办的辣椒工厂开业典礼。

这个功能有个名字，叫 Cameo。

最初只是实验性的点子，连产品团队自己都觉得不一定能成。Dimson 回忆：我当时根本不认为它会奏效。但一周后我们发现，信息流里全是 Cameo。全是朋友在彼此的生成视频里。

这个功能点燃了整个产品。

团队另一个成员 Rohan Sahai 透露了一组数据：用户获得邀请码后，几乎全部在第一天就开始创作；到第二天，70% 的人会回来继续创作，30% 的人会把作品发布到平台。

这组数据说明了两件事：

第一，Sora 是一个主动使用型工具，而非纯消费型平台
第二，它的人际参与感极强，创作内容不仅是给自己看，更希望朋友也在里面

这本质上是一种社交驱动。过去的 AI 视频再精美，也只是用来观赏的内容。而 Cameo 让用户把自己放进视频，从观赏变成了参与。

这种参与感带来了爆发式的再创作（remix）：有人用 Cameo 模拟动漫打斗，有人把朋友变成像素风角色，还有人生成走进芭比世界的一天。最疯狂的是，有开发者把团队成员做成可动人偶，结果在内部被二次三次四次混合创作，被二创数千次。

Sora 的增长飞轮由此形成：

创作门槛极低：只需要几句描述，或一张自拍
内容天然带参与感：我不只是生成，而是在和朋友一起创作一段未来
反馈即时、结果出圈：生成结果几秒钟可见，容易截图、转发、再生成

用户不只是在使用工具，更希望被看见、被参与、被再创作。

在其他平台，内容是资产、关注是指标；在 Sora，生成视频是行动，出现在别人视频里是关系。

Cameo 把 AI 视频平台变成了生成式社交网络的雏形。

第四节｜未来入口：从 App 到 Multiverse 操作系统

Sora 今天看起来像一款短视频 AI 工具，但 OpenAI 内部已经不这样看了。

Bill Peebles 说：我们真正想构建的，不是一个生成平台，而是一个微型现实。Sora 不止用于看，而是用于生活中的参与，模拟一个与真实世界并行的空间，而这个空间有你在里面。

Thomas Dimson 解释：

通过 Cameo，我们其实在做一件事，把关于你是谁的信息，逐步传给模型。从外表、动作，到行为方式，再到你和别人的关系。

他们把这个过程称作 “带宽的增加”：

一开始，Sora 只知道你长什么样
后来，它可以模拟你的动作和声音
再往后，它会理解你的习惯、关系、偏好，甚至说话方式

将来 Sora App 上可能会有一个属于你的版本，一个数字克隆（digital clone）。这个数字版本的你，可以独立存在，也可以和别人的数字版本互动，甚至在另一个空间中帮你完成任务，然后向你反馈结果。

这听起来像科幻，但他们认为技术路径是现实的，关键在于迭代部署。

这就是为什么 Sora 会选择先从开放创作、开放人物参与开始，逐步释放更多能力，而不是封闭研究多年后突然投向市场。

他们在访谈中表示：视频是世界模拟的原始形态。

接下来几年，谁能建出一个有逻辑、有角色、有因果的模拟世界，谁就拥有了未来计算的主平台。

而 OpenAI 对 Sora 的定位，不只是生成内容，更是下一阶段人类数字行为的空间入口。未来你手机上的 Sora，可能会变成一个小型的多元宇宙，里面有你，有朋友，有任务，有交互，有知识工作，有娱乐，有个性成长

如果 AI 能理解你、模拟你、代替你，它应该在哪里运行？

Sora 的回答是：一个由视频驱动的行动空间。

结语｜这不是短视频，是现实的试运行环境

Sora 2 的真正意义，不在画面多清晰，也不在能生成多少秒，而在于它让我们第一次看见：AI 不再只是讲故事的工具，而是在自己理解一个世界的运行方式。

它能失败，能判断前因后果，能在一个场景中保留角色、物体和行为的连续性。这不是剪辑优化，而是行为模拟。

从技术看，它靠时空结构的重构；

从产品看，它靠人与人之间的生成关系；

从未来看，它打开的不是一个视频工具市场，而是一个新现实的原型空间。

未来不会以产品形式先到，而是以世界结构的方式悄悄发生。

如果它能模拟你的一天，它也终将参与你的决策。

真正的问题不是视频有多真，而是当模拟与现实的边界逐渐模糊，我们如何定义真实本身。

文章来自于“AI 深度研究员”，作者“AI 深度研究员”。

关键词: AI新闻 , Sora 2 , openai , AI访谈

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0