李飞飞和LeCun的世界模型之争
李飞飞和LeCun的世界模型之争AGI之路,终于交汇到了世界模型的战场。 李飞飞,发布了旗下首款商用世界模型Marble;几乎同一时间,Lecun离职Meta,准备创立自己的世界模型公司;在此之前,谷歌旗下的世界模型Genie 3,也曾掀起业界轰动。
AGI之路,终于交汇到了世界模型的战场。 李飞飞,发布了旗下首款商用世界模型Marble;几乎同一时间,Lecun离职Meta,准备创立自己的世界模型公司;在此之前,谷歌旗下的世界模型Genie 3,也曾掀起业界轰动。
本文来自于香港中文大学 MMLab 和 vivo AI Lab,其中论文第一作者肖涵,主要研究方向为多模态大模型和智能体学习,合作作者王国志,研究方向为多模态大模型和 Agent 强化学习。项目 le
最近,X 博主 anandmaj 在一个月内复刻 Genie 3 的核心思想,开发出了 TinyWorlds,一个仅 300 万参数的世界模型,能够实时生成可玩的像素风格环境,包括 Pong、Sonic、Zelda 和 Doom。
一年前,Google 在 AI 赛道上还是「追赶者」的形象。ChatGPT 席卷硅谷时,它显得迟缓。 但短短几个月后,情况突变。 Gemini 2.5 Pro 横扫各大榜单,「香蕉」模型 Nano Banana 让生图、修图成了轻松事;视频模型 Veo 3 展示了物理世界的理解力;Genie 3 甚至能一句话生成一个虚拟世界。
最近3D内容生成模型好生热闹,像谷歌Genie 3、World Labs、混元、昆仑争相发布并开测世界模型。
全球首款AI原生UGC游戏引擎迎来2.0版本。Mirage 2是一款可在线游玩的实时通用领域生成式世界引擎,能将任何图像(照片、绘画、涂鸦等)转化为可实时互动的3D世界。
AI生成的人物和场景转头就变样,缺乏一致性? nonono,这回不一样了,康康下面的demo! 游戏地图:《塞尔达传说》中的绿色田野
要让视频生成模型真正成为模拟真实物理世界的「世界模型」,必须具备长时间生成并保留场景记忆的能力。然而,交互式长视频生成一直面临一个致命短板:缺乏稳定的场景记忆。镜头稍作移动再转回,眼前景物就可能「换了个世界」。
京东云于今年 7 月正式开源了JoyAgent‑JDGenie,这是业内首个“完整产品级”通用多智能体系统——覆盖前端/后端/智能体框架/执行引擎以及众多子 Agent(如报告、代码、PPT 智能体);在权威 GAIA 基准测试中取得 75.15% 整体准确率,,显著超越 OWL、OpenManus 等同类开源产品。
国产开源版 Genie 3 问世,昆仑万维用 1.8B 模型跑出了神级效果。如果你上传一个神庙逃亡游戏的截图,就可以在这个世界模型里面开一局,AI 脑补出来的画面会无限地向前延伸。