全面梳理200+篇前沿论文,视觉生成模型理解物理世界规律的通关密码,都在这篇综述里了!
全面梳理200+篇前沿论文,视觉生成模型理解物理世界规律的通关密码,都在这篇综述里了!当下,视频生成备受关注,有望成为处理物理知识的 “世界模型” (World Model),助力自动驾驶、机器人等下游任务。然而,当前模型在从 “生成” 迈向世界建模的过程中,存在关键短板 —— 对真实世界物理规律的刻画能力不足。
当下,视频生成备受关注,有望成为处理物理知识的 “世界模型” (World Model),助力自动驾驶、机器人等下游任务。然而,当前模型在从 “生成” 迈向世界建模的过程中,存在关键短板 —— 对真实世界物理规律的刻画能力不足。
在过去的两年里,城市场景生成技术迎来了飞速发展,一个全新的概念 ——世界模型(World Model)也随之崛起。当前的世界模型大多依赖 Video Diffusion Models(视频扩散模型)强大的生成能力,在城市场景合成方面取得了令人瞩目的突破。然而,这些方法始终面临一个关键挑战:如何在视频生成过程中保持多视角一致性?
12月19日,CMU 联合其他 20 多所研究实验室开源发布了一个生成式物理引擎:Genesis,意为「创世纪」。
大模型下一个突破口在哪?商汤「日日新」原生融合大模型一举拿下双料冠军,给出了最好的答案。一个模型精通「看」与「想」,原生多模态融合让AI迈入「大一统」新纪元。
如何让机器人在任务指引和实时观测的基础上规划未来动作,一直是具身智能领域的核心科学问题。
AI 的下一个前沿是物理。在昨天的 CES 发布会上,英伟达 CEO 黄仁勋通过一个名为「Cosmos」的平台点明了这一主题。
游戏玩家最为关心得为英伟达献出多少大洋,黄仁勋却寥寥几页带过了消费级显卡,把大段叙述留给了AI,以及智能体、世界模型、机器人、自动驾驶、超算等因AI渗透发生进展的领域,未来又将如何被英伟达改变。
最新消息,Sora核心作者,将领导谷歌世界模型团队!
李飞飞、谢赛宁团队又有重磅发现了:多模态LLM能够记住和回忆空间,甚至内部已经形成了局部世界模型,表现了空间意识!李飞飞兴奋表示,在2025年,空间智能的界限很可能会再次突破。
近段时间,世界模型的相关研究成果正如雨后春笋版不断涌现,光是我们报道过的就已有南大周志华团队的世界模型 Whale、Yann LeCun 团队的世界模型研究、李飞飞 World Labs 的空间智能研究、谷歌的强大世界模型 Genie 2 以及刚刚开源的像是能模拟万物的生成式物理引擎 Genesis。