
混元3D世界模型1.0 lite版本发布,消费级显卡就能跑
混元3D世界模型1.0 lite版本发布,消费级显卡就能跑只需要一句话或一张图片,就能生成360度全景3D世界。
只需要一句话或一张图片,就能生成360度全景3D世界。
在复杂的城市场景中,HERMES 不仅能准确预测未来三秒的车辆与环境动态(如红圈中标注的货车),还能对当前场景进行深度理解和问答(如准确识别出 “星巴克” 并描述路况)。
现在这个时代,啥都讲究一句话生成。一句话P图、一句话写文案、生成画作、音乐、视频… 不过这些,在今天的想法面前,都显得有些弱了。
最近体验了一个 AI 工具的内测版本,确实跟之前见到的AI产品不太一样。 它做的事情是:一句话,生成一个完整可玩的3D游戏。
3D生成的行业新标杆,这一次由国产玩家树立。 万万没想到,这样一个堪比游戏全景视角的场景,竟然只由一张图片生成?!
中国自研世界模型Matrix-3D只需单张图就能生成可自由探索的3D世界,不仅效果对标李飞飞的World Labs,而且还能实现更大范围的探索空间,率先进入AI理解世界的前沿领域。
谷歌最新发布的Genie 3世界模型,正以惊人AI能力颠覆想象:从文本生成交互式空间,到进入经典名画如《苏格拉底之死》和《夜游者》自由探索,甚至训练3D模型实现沉浸式体验!
北京大学提出了ReMoMask:一种全新的基于检索增强生成的Text-to-Motion框架。它是一个集成三项关键创新的统一框架:(1)基于动量的双向文本-动作模型,通过动量队列将负样本的尺度与批次大小解耦,显著提高了跨模态检索精度;(2)语义时空注意力机制,在部件级融合过程中强制执行生物力学约束,消除异步伪影;(3)RAG-无分类器引导结合轻微的无条件生成以增强泛化能力。
只需一句话,就能生成可实时交互的3D世界。 刚刚,谷歌DeepMind发布了新一代通用世界模型Genie 3。
当前环境感知通信正逐步成为第六代移动通信系统(6G)的核心使能技术之一。为支撑其在复杂三维环境下的部署需求,西安电子科技大学、香港中文大学(深圳)和加拿大滑铁卢大学的研究团队联合提出了一个面向6G的高分辨率多模态三维无线电图谱数据集UrbanRadio3D,并构建了基于扩散模型的三维无线电图生成框架RadioDiff-3D。