
让多视角图像生成更轻松!北航和VAST推出MV-Adapter
让多视角图像生成更轻松!北航和VAST推出MV-Adapter最近,2D/3D 内容创作、世界模型(World Models)似乎成为 AI 领域的热门关键词。作为计算机视觉的基础任务之一,多视角图像生成是上述热点方向的技术基础,在 3D 场景生成、虚拟现实、具身感知与仿真、自动驾驶等领域展现了广泛的应用潜力。
最近,2D/3D 内容创作、世界模型(World Models)似乎成为 AI 领域的热门关键词。作为计算机视觉的基础任务之一,多视角图像生成是上述热点方向的技术基础,在 3D 场景生成、虚拟现实、具身感知与仿真、自动驾驶等领域展现了广泛的应用潜力。
人在字节火山发布会现场。 眼睁睁看着他们发了一大堆的模型升级,眼花缭乱,有一种要一股脑把字节系的AI底牌往桌上亮的感觉。 有语音的,有音乐的,有大语言模型的,有文生图的,有3D生成。
遵循世界的 3D 特性,很多事就会变得自然而然。 说到斯坦福大学教授李飞飞(Fei-Fei Li),她提倡的「空间智能」最近正在引领 AI 发展方向。
英伟达团队再次于自己的老本行大发光彩。近日发布的Edify 3D支持用户从文本提示或者图像来直接生成4K级别的3D实体与场景,这再次为游戏与影视设计行业注入了新的AI活力。
上周,李飞飞空间智能首个3D生成模型刚刚交卷。这边,国内来自智源的See3D模型,在学习了无标注的1600万个视频之后,重建出全新的3D世界,效果令人惊叹。
研究人员提出首个可以渲染高动态范围(High Dynamic Range, HDR)自然光的3DGaussian Splatting模型HDR-GS,以用于新视角合成(Novel View Synthesis, NVS)。
SOLAMI是一个创新的VR端3D角色扮演AI系统,用户可以通过语音和肢体语言与虚拟角色进行沉浸式互动。该系统利用先进的社交视觉-语言-行为模型,结合合成的数据集,提供更自然的交流体验,超越了传统的文本和语音交互。
为了构建鲁棒的 3D 机器人操纵大模型,Lift3D 系统性地增强 2D 大规模预训练模型的隐式和显式 3D 机器人表示,并对点云数据直接编码进行 3D 模仿学习。Lift3D 在多个仿真环境和真实场景中实现了 SOTA 的操纵效果,并验证了该方法的泛化性和可扩展性。
就在刚刚,Google Deepmind 深夜放大招,发布了最新基础世界模型 Genie 2。 想体验游戏世界?未来只需一张图片就能实现。 作为一个基础世界模型,Genie 2 能够凭借开局一张图生成各种可操作、可玩的 3D 环境。
华中科技大学研发的UniSeg3D算法,能一次性完成三维场景中的六项分割任务,提升了场景理解的全面性和效率。通过任务间的信息共享,优化了性能,为虚拟现实和机器人导航等领域带来新的解决方案。