
CityDreamer4D: 下一个世界模型,何必是视频生成模型?
CityDreamer4D: 下一个世界模型,何必是视频生成模型?在过去的两年里,城市场景生成技术迎来了飞速发展,一个全新的概念 ——世界模型(World Model)也随之崛起。当前的世界模型大多依赖 Video Diffusion Models(视频扩散模型)强大的生成能力,在城市场景合成方面取得了令人瞩目的突破。然而,这些方法始终面临一个关键挑战:如何在视频生成过程中保持多视角一致性?
在过去的两年里,城市场景生成技术迎来了飞速发展,一个全新的概念 ——世界模型(World Model)也随之崛起。当前的世界模型大多依赖 Video Diffusion Models(视频扩散模型)强大的生成能力,在城市场景合成方面取得了令人瞩目的突破。然而,这些方法始终面临一个关键挑战:如何在视频生成过程中保持多视角一致性?
12月19日,CMU 联合其他 20 多所研究实验室开源发布了一个生成式物理引擎:Genesis,意为「创世纪」。
大模型下一个突破口在哪?商汤「日日新」原生融合大模型一举拿下双料冠军,给出了最好的答案。一个模型精通「看」与「想」,原生多模态融合让AI迈入「大一统」新纪元。
如何让机器人在任务指引和实时观测的基础上规划未来动作,一直是具身智能领域的核心科学问题。
AI 的下一个前沿是物理。在昨天的 CES 发布会上,英伟达 CEO 黄仁勋通过一个名为「Cosmos」的平台点明了这一主题。
游戏玩家最为关心得为英伟达献出多少大洋,黄仁勋却寥寥几页带过了消费级显卡,把大段叙述留给了AI,以及智能体、世界模型、机器人、自动驾驶、超算等因AI渗透发生进展的领域,未来又将如何被英伟达改变。
最新消息,Sora核心作者,将领导谷歌世界模型团队!
李飞飞、谢赛宁团队又有重磅发现了:多模态LLM能够记住和回忆空间,甚至内部已经形成了局部世界模型,表现了空间意识!李飞飞兴奋表示,在2025年,空间智能的界限很可能会再次突破。
近段时间,世界模型的相关研究成果正如雨后春笋版不断涌现,光是我们报道过的就已有南大周志华团队的世界模型 Whale、Yann LeCun 团队的世界模型研究、李飞飞 World Labs 的空间智能研究、谷歌的强大世界模型 Genie 2 以及刚刚开源的像是能模拟万物的生成式物理引擎 Genesis。
最近,2D/3D 内容创作、世界模型(World Models)似乎成为 AI 领域的热门关键词。作为计算机视觉的基础任务之一,多视角图像生成是上述热点方向的技术基础,在 3D 场景生成、虚拟现实、具身感知与仿真、自动驾驶等领域展现了广泛的应用潜力。