只需要一句话或一张图片,就能生成360度全景3D世界。
还支持沉浸式漫游。
以上,均是腾讯混元3D世界生成模型HunyuanWorld 1.0在消费级显卡上跑出来的——
发布即开源,还可兼容传统CG管线,低门槛操作但高质量生成。
与最近爆火的Genie3只能生成视频不同,该模型还可以导出能进行二次编辑的3D mesh。
下面咱们边看效果边说技术。
HunyuanWorld 1.0技术框架的核心是以全景图为桥梁,分层实现3D生成,通过借助2D生成技术的多样性做出丰富场景,再基于全景图实现3D生成的连贯性。
场景生成的关键流程可以概括为三步:
首先根据文字或图片输入,生成无边界断裂、无几何变形的360°全景图。
接着将全景图拆分为天空、背景、前景物体等可独立操作的语义图层。
最后为各图层标注合理深度,再按图层特性分别转化为3D结构,同时支持导出标准3D模型。
在此基础上,框架还做了两项实用优化:一是通过点云缓存与视频扩散技术,实现长距离场景的无缝漫游;
二是针对3D模型的在线/离线双模式压缩存储和生成推理进行优化,确保技术能落地应用于VR、游戏开发等实际场景。
然而,初始版本显存开销较大,即使开启pipeline offloading技术,仍需26GB以上显存,大多数消费级显卡无法运行。
为了让更多个人开发者能够便捷使用混元3D世界模型1.0,混元团队推出了混元3D世界模型1.0-Lite版本。
通过动态FP8量化技术、SageAttention量化技术、Cache算法加速推理等技术优化,在消费级显卡上就能跑出如此精美的水墨画全景。
还有蓝天白云下的田园小镇。
下面来说说具体是怎么做到的。
通过引入动态FP8量化,混元团队将模型显存需求从原本的26GB优化至17GB以下,显存占用减少了35%,成功适配消费级显卡。个人开发者无需昂贵的高端显卡,也能轻松运行复杂的世界模型。
动态量化技术会针对不同参数层数值分布动态调整量化范围,确保在降低精度的同时最大程度保留模型性能,降低显存开销。
△浮点数据类型的结构
所有显示的值都是最接近数值0.3952的表示形式
(在FP16、BF16、FP8 E4M3和FP8 E5M中)
通过引入FP8量化注意力算子,将Transformer中的注意力计算使用INT8,同时结合动态平滑与硬件优化,实现推理速度提升2倍以上,精度损失<1% 。
结合Attention 量化和线性层量化后显著降低模型运行所需显存。
△SageAttention示意图
(per-block quantize Q,K; FP16 V)
下表展示了优化前后模型运行显存的对比。
混元团队集成了Cache算法,通过自动化搜参工具识别出关键时间步和block,优化冗余时间步,显著提升推理效率,让模型运行更加流畅。
△Cache示意图
对比着来看,量化前后视觉效果没有太大差别。
△量化前后效果对比
可以说,个人开发者即使使用入门级显卡也可以体验到与工业级显卡同等质量的生成结果。
团队还将混元3D世界模型1.0与业界其他开源3D世界模型进行横向对比。
经比较,混元World 1.0在多个维度(画面清晰度、推理速度、3D引擎兼容性、可编辑性)表现更优。
除此之外,混元3D世界模型1.0还进一步实现了对场景中的天空、地面、植被、物体等不同组件分层建模。
并且生成的世界可导出为3D mesh格式文件,无缝接入游戏、物理引擎,进行二创,如游戏开发、影视制作、物理仿真等。
对比总结一下就是:
相比谷歌Genie3,它生成可编辑3D mesh而非视频,且开源并提供单卡可部署量化版本,可用性更高;
优于李飞飞团队的worldlabs等闭源模型,后者仅停留在demo阶段且无生成接口;
强于其他同类开源模型,生成质量更优,支持文生及图生,是当前领先的开源3D世界模型。
在技术方案上,其3D mesh方案兼容现有CG和3D工业生产管线,实用价值高,同时支持3DGS方案;
在可部署性上,相较Matrix-3D等开源模型,凭借开源及单卡可部署特性,落地更便利。
看完这么多高能效果,感兴趣的朋友可点击下方链接尝试~
官网地址:3d.hunyuan.tencent.com
技术报告:https://arxiv.org/abs/2507.21809
GitHub地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
Hugging Face地址:https://huggingface.co/tencent/HunyuanWorld-1
文章来自于微信公众号“量子位”,作者是“闻乐”。