
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型在复杂的城市场景中,HERMES 不仅能准确预测未来三秒的车辆与环境动态(如红圈中标注的货车),还能对当前场景进行深度理解和问答(如准确识别出 “星巴克” 并描述路况)。
在复杂的城市场景中,HERMES 不仅能准确预测未来三秒的车辆与环境动态(如红圈中标注的货车),还能对当前场景进行深度理解和问答(如准确识别出 “星巴克” 并描述路况)。
最近 AI 界的大新闻是 GPT-5 和谷歌的世界模型 Genie 3。然而,在无人在意的角落里,微软悄悄把 Edge 进化成了了 AI 浏览器。
具身智能「大脑」,更准确地,以「世界模型」为内核的具身智能「大脑」会成为 AI 下一阶段竞争焦点吗? 上世纪九十年代,「世界模型」思想雏形初现,之后几十年被不断强化、延伸,直到 ChatGPT 引爆 AI 新浪潮、Sora 问世、大模型落地成主流、具身智能迎来新纪元……「世界模型」或是通往「类人智能」的解法被视为新的业界共识。
老黄看好机器人,还真不是嘴上说说! 这不,就在正在举办的SIGGRAPH(计算机图形学)大会上,英伟达为机器人带来了全新升级的Cosmos世界模型。
中国自研世界模型Matrix-3D只需单张图就能生成可自由探索的3D世界,不仅效果对标李飞飞的World Labs,而且还能实现更大范围的探索空间,率先进入AI理解世界的前沿领域。
谷歌最新发布的Genie 3世界模型,正以惊人AI能力颠覆想象:从文本生成交互式空间,到进入经典名画如《苏格拉底之死》和《夜游者》自由探索,甚至训练3D模型实现沉浸式体验!
全网疯玩Genie3,惊叹:这才是真正的大世界!距离上一代Genie2,才刚刚过去7个多月,谷歌世界模型就像开了倍速进化
只需一句话,就能生成可实时交互的3D世界。 刚刚,谷歌DeepMind发布了新一代通用世界模型Genie 3。
老黄曾预言,每个像素都将由AI生成!刚刚,谷歌DeepMind放出的「通用世界模型」Genie 3,一句话即生720p实时模拟世界,1分钟视觉记忆一致性超高。刚刚,谷歌DeepMind祭出新一代通用世界模型——Genie 3,能模拟出史无前例的丰富交互环境。
2018 年,LSTM 之父 Jürgen Schmidhuber 在论文中( Recurrent world models facilitate policy evolution )推广了世界模型(world model)的概念,这是一种神经网络,它能够根据智能体过去的观察与动作,预测环境的未来状态。