AI 视频的下一步:不是剪辑,是模拟|Sora 2 团队

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AI 视频的下一步:不是剪辑,是模拟|Sora 2 团队
7846点击    2025-11-13 09:17

最近,OpenAI 宣布:Sora 2 进一步开放使用权限,不再需要邀请码。


这不仅是一次权限放开,更是一次技术路径的转向。


AI 视频的下一步:不是剪辑,是模拟|Sora 2 团队

(Sora 2 Android版应用商店页面,已开放下载)


你不再需要拍摄、剪辑、导出。只要输入几句话,AI 就能根据逐秒脚本生成一段完整视频。不是靠剪辑拼接画面,而是一步步模拟世界的运行。


如果说 Sora 1 是图像增强器, 那么 Sora 2 是世界模拟器的雏形。


在 11 月 5 日的访谈中,产品研究负责人 Bill Peebles 给出一个清晰判断:


Sora 是一个世界模拟器(World Simulator),不是一个生成器。


这篇文章将还原 Sora 团队的核心思路:


他们如何让视频模型从生成画面转向理解世界运行的规律?这条技术路径又如何把 AI 视频推向 Agent 涌现的临界点?


第一节|技术底层:视频生成,为何变成世界模拟


OpenAI 的 Bill Peebles 是 Diffusion Transformer(Dit)的提出者,这正是让 Sora 从图像增强走向世界建构的关键技术。


Dit 不是像语言模型那样逐个 token 生成,而是从一堆噪声里还原出一个完整视频的过程。过去的视频生成系统,容易在时间轴上断开。第一秒动作合理,第四秒突然手臂消失、第七秒背景塌陷。


为什么?


因为大多数模型无法同时处理时间 + 空间的复杂关系,画面之间没有记忆,更没有物理逻辑。


Sora 换了思路。


它不再逐帧处理,而是将视频切成一个个小立方体,每个立方体同时包含了位置、画面和时间信息。


Peebles 把这个叫做“时空块”(space-time patch)或“时空标记”(space-time token)。你可以想象一个小长方体,它既包含 X 和 Y 的空间维度,也包含一个时间局部性。这个结构,是视觉生成模型的最小单位。也就是说,Sora 不是在画一张张图,而是在理解和组织一个三维时序结构。


Thomas Dimson 补了一句:注意力机制在这里变成了一种全局共享记忆,它让模型可以把前几秒钟的信息带进后面的帧里。


所以,才有了物体持久性这种过去 AI 视频模型几乎不可能做到的能力。


Sora 2 能让角色从头到尾穿着同一件衣服,手中的物体不会神秘消失,甚至在复杂的动作场景中,镜头移动后仍能保持角色的方向一致。这些不是靠“贴标签”或加规则做出来的,而是模型自然地理解了这是一段连续世界的演化过程。


Peebles 强调:Sora 的视频模型,在每个时间点上都拥有整个画面的全局上下文,这让它能够保留真实世界里的延续性。


对非技术用户来说,这意味着: 你不需要提供时间线、镜头顺序或角色逻辑,Sora 就能推断出这段视频里谁在做什么、做了多久、应该怎么结束。


它从根本上重构了 AI 视频的生成方式。


  • 不是合成片段,而是模拟世界。
  • 不是按帧渲染,而是按规则演化。
  • 不是模型越来越会画画,而是越来越懂场景。


这不只是画面更真实了,而是 Sora 学会了推演一个符合物理规律的世界。


第二节|智能雏形:Agent 从哪一帧开始涌现?


在 OpenAI 的研究团队看来,Sora 的最大不同不只是画面流畅或动作逼真,而是:模型开始像一个智能体那样对待场景。


Bill Peebles 说:我们不是为了做酷炫的视频,而是想让模型在动作背后具备基本的物理理解力。


这意味着,Sora 不只是按照指令生成动作,更在判断这些动作该不该发生、合不合逻辑。


主持人现场举了一个例子:如果提示词是篮球明星投罚球,过去的模型很可能会直接安排球进框,因为那样更讨好用户;但 Sora 2 不会这么做。


Peebles 描述说:


“如果他没投进,篮球就会真的反弹回来。模型不会强行让球进框,也不会忽略重力或速度。它会失败,但这种失败是合理的。”


看似是个小细节,但在 AI 生成的世界里,它标志着一个重要分界:是拍一个动作,还是模拟一次因果?


这正是模型失败和智能体失败之间最有趣的区别。


换句话说:Sora 已经不再只把视频看起来像样作为目标,而是在构造一个可以自己推进的、有内部规则的小世界。这就是智能感开始出现的地方。


在他们看来,Agent 这个词并没有被当作一个系统模块或产品角色,而是指 Sora 本身在建模过程中所表现出的内在思考路径,一种对物体、时间、动作、因果之间关系的连续感知能力。


而这些 Agent 式的特征,大多数时候是随规模扩展自然涌现出来的。


这就是所谓的“涌现”:不靠人为设计,当模型规模达到某个临界点时,这种理解能力就自然出现了。


就像 GPT 系列在从 3 到 4 的过程中突然会解数学题、总结逻辑一样,Sora 在扩展训练规模后,也开始出现了类似的“场景理解感”:


  • 知道什么动作该发生,什么动作不会发生
  • 能保持前后场景中物体的稳定性(如角色不会突然消失)
  • 会自然地遵循力学和因果链,而不是只是完成视觉任务


而 OpenAI 对 Sora 的评判标准也变了:


不是看起来正确,而是要错的合理。


在这背后,Sora 不再逐帧生成,而是以时空整体的方式思考:每个动作、每个结果,是否符合这个世界的内在逻辑。它更像是在模拟一个世界的运行,而不是剪辑一段视频。


Sora 2 的起点:一个可以容纳失败、具备物理规则、自带行为因果的 Agent 雏形。


第三节|产品飞轮:Cameo,不是滤镜,是社交


有了智能感的底层能力,OpenAI 需要回答的下一个问题是:如何让人们真正用起来?


Sora 2 的产品性,不在生成视频,而在让人们愿意出现在视频里。


产品负责人 Thomas Dimson 在播客里说:


我们不是一开始就知道该怎么做。
但我们观察到,大家特别爱把自己放进生成视频里,这件事很有意思。


这不是传统意义上的贴图头像或剪进照片,而是用 AI 生成方式,把你放进一个全新场景:骑龙、飙车、登月、穿越吉卜力风格森林,甚至参加朋友办的辣椒工厂开业典礼。


这个功能有个名字,叫 Cameo。


最初只是实验性的点子,连产品团队自己都觉得不一定能成。Dimson 回忆:我当时根本不认为它会奏效。但一周后我们发现,信息流里全是 Cameo。全是朋友在彼此的生成视频里。


这个功能点燃了整个产品。


团队另一个成员 Rohan Sahai 透露了一组数据:用户获得邀请码后,几乎全部在第一天就开始创作;到第二天,70% 的人会回来继续创作,30% 的人会把作品发布到平台。


这组数据说明了两件事:


  • 第一,Sora 是一个主动使用型工具,而非纯消费型平台
  • 第二,它的人际参与感极强,创作内容不仅是给自己看,更希望朋友也在里面


这本质上是一种社交驱动。过去的 AI 视频再精美,也只是用来观赏的内容。而 Cameo 让用户把自己放进视频,从观赏变成了参与。


这种参与感带来了爆发式的再创作(remix):有人用 Cameo 模拟动漫打斗,有人把朋友变成像素风角色,还有人生成走进芭比世界的一天。最疯狂的是,有开发者把团队成员做成可动人偶,结果在内部被二次三次四次混合创作,被二创数千次。


Sora 的增长飞轮由此形成:


  1. 创作门槛极低:只需要几句描述,或一张自拍
  2. 内容天然带参与感:我不只是生成,而是在和朋友一起创作一段未来
  3. 反馈即时、结果出圈:生成结果几秒钟可见,容易截图、转发、再生成


用户不只是在使用工具,更希望被看见、被参与、被再创作。


在其他平台,内容是资产、关注是指标;在 Sora,生成视频是行动,出现在别人视频里是关系。


Cameo 把 AI 视频平台变成了生成式社交网络的雏形。


第四节|未来入口:从 App 到 Multiverse 操作系统


Sora 今天看起来像一款短视频 AI 工具,但 OpenAI 内部已经不这样看了。


Bill Peebles 说:我们真正想构建的,不是一个生成平台,而是一个微型现实。Sora 不止用于看,而是用于生活中的参与,模拟一个与真实世界并行的空间,而这个空间有你在里面。


Thomas Dimson 解释:


通过 Cameo,我们其实在做一件事,把关于你是谁的信息,逐步传给模型。从外表、动作,到行为方式,再到你和别人的关系。


他们把这个过程称作 “带宽的增加”


  • 一开始,Sora 只知道你长什么样
  • 后来,它可以模拟你的动作和声音
  • 再往后,它会理解你的习惯、关系、偏好,甚至说话方式


将来 Sora App 上可能会有一个属于你的版本,一个数字克隆(digital clone)。这个数字版本的你,可以独立存在,也可以和别人的数字版本互动,甚至在另一个空间中帮你完成任务,然后向你反馈结果。


这听起来像科幻,但他们认为技术路径是现实的,关键在于迭代部署。


这就是为什么 Sora 会选择先从开放创作、开放人物参与开始,逐步释放更多能力,而不是封闭研究多年后突然投向市场。


他们在访谈中表示:视频是世界模拟的原始形态。


接下来几年,谁能建出一个有逻辑、有角色、有因果的模拟世界,谁就拥有了未来计算的主平台。


而 OpenAI 对 Sora 的定位,不只是生成内容,更是下一阶段人类数字行为的空间入口。未来你手机上的 Sora,可能会变成一个小型的多元宇宙,里面有你,有朋友,有任务,有交互,有知识工作,有娱乐,有个性成长


如果 AI 能理解你、模拟你、代替你,它应该在哪里运行?


Sora 的回答是:一个由视频驱动的行动空间。


结语|这不是短视频,是现实的试运行环境


Sora 2 的真正意义,不在画面多清晰,也不在能生成多少秒,而在于它让我们第一次看见:AI 不再只是讲故事的工具,而是在自己理解一个世界的运行方式。


它能失败,能判断前因后果,能在一个场景中保留角色、物体和行为的连续性。这不是剪辑优化,而是行为模拟。


从技术看,它靠时空结构的重构;


从产品看,它靠人与人之间的生成关系;


从未来看,它打开的不是一个视频工具市场,而是一个新现实的原型空间。


未来不会以产品形式先到,而是以世界结构的方式悄悄发生。


如果它能模拟你的一天,它也终将参与你的决策。


真正的问题不是视频有多真,而是当模拟与现实的边界逐渐模糊,我们如何定义真实本身。


文章来自于“AI 深度研究员”,作者“AI 深度研究员”。

关键词: AI新闻 , Sora 2 , openai , AI访谈
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0