95 后团队做 3D 大模型,拿下头部游戏重磅合作,正在定义 3D 生成的新规则

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
95 后团队做 3D 大模型,拿下头部游戏重磅合作,正在定义 3D 生成的新规则
7772点击    2025-11-19 10:08

一年半之前,影眸科技年轻的创始团队去到旧金山,带着还没正式发布的 3D 生成模型 Rodin,在 GDC(游戏开发者大会)上向全球最顶级的游戏开发者们演示 demo。


许多游戏公司团队就在台下,这次 demo 引起了他们的注意。最终,Rodin 模型支持的 Hyper3D.AI 在移动端游戏环境中真正实现 3D 生成技术大规模即时应用。


Rodin 背后的研究论文 《CLAY:用于创建高质量 3D 资产的可控大规模生成模型》(CLAY)和该团队另一项研究一起,入选了当年计算机图形学顶级会议 SIGGRAPH 的最佳论文提名。「拿一个 best paper 提名可以说运气好,一下拿两个 best paper 提名,也不知道是运气好还是运气差」,在刚刚落幕的 SIGGRAPH2025,影眸科技 CTO 张启煊对我们说。


影眸科技主攻 3D 生成方向,不久前刚刚完成由蓝驰创投领投的数千万美元融资,跟投方包括字节跳动和红杉中国种子基金等老股东,是 3D 大模型领域最受关注的头部创业公司之一。


01 

让 3D 模型「爆炸」,

会怎么样?


影眸团队的工作 CLAY,是完全基于原生 3D 数据训练的大模型,团队用远低于图像领域的 3D 原生数据规模和参数,在 3D 生成领域实现了 Scaling,也第一次出现了「涌现」——模型能够通过理解,去生成原来并没有见过的对象。3D 生成效果第一次从「不可用」拉到了「可用线」。


CLAY 在学术上获得的荣誉、以及带来的商业化成功,对于影眸这个虽然年轻,却早从实验室阶段起就研究 3D 的团队来说,无疑是重要的 Milestone。从在上科大做实验,搭建扫描人脸的穹顶光场算起,他们是第一批真正意义上做 3D 原生的团队。


当大模型占据了科技行业的主流,the bitter lession 被反复传颂之后,3D 生成也迎来了自己的大年。


最明确的趋势就是大厂开始布局:Roblox 开源了 CUBE 3D,并同时开放了 Mesh Generator API;字节下场,发布了基于 DIT 架构的 3D 大模型,Seed3D 1.0;腾讯混元发布了 3D v2.5 版本模型,将参数量级从十亿提升到 100 亿。


前不久,影眸科技也推出了全新升级的新一代模型 Rodin Gen-2。以全球最大规模的百万级别数据与百亿级参数,在生成质量上带来了质的飞跃。更为平滑、干净的几何表面,大幅减少后期修复成本。既支持百万级面数高精度生成,也能通过法线烘焙,让低面数模型呈现高清纹理效果,同时兼容更高分辨率材质输出。


95 后团队做 3D 大模型,拿下头部游戏重磅合作,正在定义 3D 生成的新规则


网格作为 3D 模型的核心载体,决定了形状、平滑度与可变形性,法线、UV、贴图坐标均依附其存在。模型直接生成的 3D 网格越干净清晰,越能够减少在后续软件 Blender、Unity 等中的修复工序,也就意味着距离真正投入生产工序越近,更具可用性,也就更加 Production- Ready。


95 后团队做 3D 大模型,拿下头部游戏重磅合作,正在定义 3D 生成的新规则

rodin 的四种不同模式效果,适应于不同场景


除了生成质量上的提升,Rodin Gen-2 还在生成的可控性上实现了突破。用户可以选择将任何一个生成的模型分件「Bang to Parts」,也就是把它按照原有的结构从中心四散开来,形成很多小的部件。像是 3D 模型从中心「爆炸」开一样。


推出这个对整个行业而言都很新的功能,源自影眸科技对于 3D 行业工作流程的理解:复杂模型的制作、应用从未是「一体化」的。


游戏领域中,角色骨骼绑定、装备替换需要可插拔部件;工业设计里,建模师需分模块优化细节;3D 打印时,大型物件需拆分制作再组装。以往用户需逐一生成部件、调试组合关系,而 Rodin Gen-2 通过 BANG 和局部重建,「先整体生成、再拆分编辑」,彻底优化了工作流程。


95 后团队做 3D 大模型,拿下头部游戏重磅合作,正在定义 3D 生成的新规则

生成模型之后,会在模型确认边上看到 Bang to Parts


一个整体以「爆炸」的形式,分裂开来,各个部分依旧保持了原有空间上的连接关系,整体和局部如何组合也一目了然。将一个完整的物件以这样的形式再做一次输出,依赖的是模型在理解基础上做生成的能力。「3D 生成大模型在见了足够多的三维模型之后,理解了物品内部的部件和部件之间的关系。」


95 后团队做 3D 大模型,拿下头部游戏重磅合作,正在定义 3D 生成的新规则

艺术家 A.I.E.X-LAB 使用 Hyper3D.AI Rodin 创作的作品


02 

3D 有自己的 Scaling,

也会有自己的 Post-Training


从模型层面上而言,「Bang to Parts」这个功能的类似基于 3D 生成基座模型的 Post-training,实现了能力的增益。拥有了基座模型的「语义理解能力」的智能,经过 Post-training 后的模型就能够像人类一样,自然理解一个物件整体和局部的关系,并且能够想象将整体分割成部分之后,部分之间的关联会怎样。


这意味着 3D 生成领域在底层呈现文字/图像/视频生成领域一样的规律,用生成去做理解,通过理解再去生成,「Understanding by Generation」。这项名为《BANG:通过生成式爆炸动力学实现 3D 资产分件》的研究,在 2025 年的 SIGGRAPH 上获选「Top 10 技术论文速览(Top 10 Technical Paper Fast Forward)」。


尽管在 2025 年的 SIGGRAPH 上,团队比上一年拿到了更大的荣誉,凭借单图生成 3D 场景生成的研究 CAST 获得了最佳论文 Best Paper。但是对张启煊而言,令他更快乐的是 BANG 的这项荣誉,因为这代表了更多人对这项研究的欢迎和喜爱。


95 后团队做 3D 大模型,拿下头部游戏重磅合作,正在定义 3D 生成的新规则


对影眸这个团队而言,这意味着 3D 大模型进入了 Post-Training 时代。在想到 Understanding by Generation 这个实现思路之前,面对讲一个 3D 模型进行分件这个课题,团队尝试了很久的传统方法,试图通过人工分类让模型记住不同的分件组合。


直到有一天,团队突发灵感,将大语言模型领域的底层思维迁移至 3D 领域进行尝试。


比起成果,得到成果的过程更令这个年轻的团队兴奋:它是基于跨领域的哲学思考,或者说,底层信念寻求到的技术方案。


这不是团队第一次这样基于底层信念,选择路径,最终实现突破。文章开头提到的验证了 3D 生成领域 Scaling Law 的 CLAY 的诞生,也是源于团队相信:从 2D 到 3D 的升维的技术方案在实现效果上一定会有天花板,无法满足实际生产场景的精度需求。团队意识到 3D 生成要具备商业价值,需要与一套存在已久的复杂生产流程对话。生成的 3D 模型,不仅仅质量上达到产业要求,还需要在使用习惯上符合生产方式。


于是团队选择了从头训练 3D 生成模型。


或许这在今天看来,是一个显而易见的路径。然而回到做这个决定的当下,所有其它平行团队,甚至海外大厂,选择的都是 2D 到 3D 的路径的时候,做出这个选择,就意味着背离整个行业共识,并导致产品推迟半年上线。


回顾影眸科技以往的技术产品迭代,很容易就会提炼出「质量」和「可控性」这两条线索。从「质量」上来看,Rodin Gen-1 通过原生 3D 实现了前所未有的生成质量,Rodin Gen-2 通过参数升级进一步提升生成精度;从「可控性」上来看,3D ControlNet,让用户能够实现边框盒控制,体素控制,点云控制,降低生成时的抽卡率。BANG 和部分重建功能上线,让用户能够拆分并继续编辑基于整体的每一个部件,定义了 3D 模型可控性的行业标准。对于 3D 模型的整体控制无疑更近一步,让「AI 设计」真正开始。


95 后团队做 3D 大模型,拿下头部游戏重磅合作,正在定义 3D 生成的新规则

Rodin 独有的 3D ControlNet


而每一次技术路线上的验证,也是团队一次次将行业前沿技术与市场需求耦合的验证。


在过去的 16 个月里,Hyper3D.AI 平均每 9 天就会上线一个新功能。10 月底,「部分重做」功能上线,实现了用户对 3D 生成模型的局部编辑。至此,一年前发表的 CLAY 里展示的所有玩法都完成了产品化。


03 

藏在应用后面的 3D,

是构建未来的重要拼图


在某款大型 UGC 游戏中,当用户生成自己想要的萌宠或者其他物品时,就会使用到 Hyper3D.AI。支持这类千万人实时在线的游戏,不仅对于影眸科技是首次,对于游戏产业也很罕见。


95 后团队做 3D 大模型,拿下头部游戏重磅合作,正在定义 3D 生成的新规则

艺术家T-BOY使用 Hyper3D.AI Rodin 创作的作品


在手机的硬件端大规模准确、快速生成用户想要的模型,而不是单纯追求更高面数、更高精度,这种应用场景的需求,使影眸团队独立出一条行业内独有的模型线,使得整体的生成速度压缩到 10 秒以内,差不多和生图一样快。这也就是模型矩阵中的 Zero 模式。


这也反映了 3D 建模这一行业的特点,不同的工种、下游应用,对于模型生成的速度、精度等要求都不一致。张启煊介绍,之后 Rodin Gen-2 也会实现目前已有的四种模式: Zero(低面数优化)、Focal(高细节表现)、Speedy(快速预览)、Default(细节精度和表面平滑度平衡)。


95 后团队做 3D 大模型,拿下头部游戏重磅合作,正在定义 3D 生成的新规则

艺术家 Dzysmile 使用 Hyper3D.AI Rodin 创作的作品


像拓竹这样的消费级 3D 打印机的快速增长,让 3D 内容又增加了一个 C 端可感知的渠道。影眸也是头部 3D 打印厂商的第一批合作企业,用户能够使用 Rodin 模型进行生成特殊风格的模型,再交由 3D 打印机打印为实体。


不过团队的基础判断依旧是,3D 形态在很长一段时间里,依旧会是「藏在后面的形态」,而不是像图片、视频、音乐一样被广泛 C 端直接消费的内容。


基于这样的判断,短期内团队的目标便是横向拓展,既然不同应用场景需要的 3D 模型各不相同,这就意味着还有很多的市场拓展空间,除了游戏、影视建模,团队还在尝试更多的工业场景,


团队重心是打通对不同领域的服务,以核心模型算法实现软件的 SaaS 化。而这个团队的风格是:一切以市场需求为第一原则。


关于 3D 的未来,团队认为它可能存在于我们不称呼为「3D 生成」的地方,并扮演重要角色。


3D 的诞生,本质是人类对几何形态实现精准定义与可控复刻的必然选择。它是人类破解空间认知模糊、形状操控失准的「标准化中间载体」,核心价值就在于用三维逻辑锚定空间与形状的一致性。


举个直观的例子:若想基于单张图片生成目标形象的另一视角,直接生成往往会出现形态畸变、细节断裂(比如物体比例失衡、遮挡关系错乱),难以还原真实空间逻辑;但通过 3D 技术先构建出该形象的三维模型,再通过旋转、透视调整获取目标视角,不仅能 100% 还原物体的结构完整性,更能保证不同视角下的形态统一、细节连贯,这正是 3D 在「空间一致性控制」上的不可替代优势。


更深层来看,人类对生成的终极追求,从来都是构建贴合真实物理规律的三维世界;而更高维度的智能进化,也必然以「精准理解三维空间」为核心前提——无论是数字内容创作、工业设计,还是 AR/VR 交互、具身智能,都需要以三维空间逻辑为基础。从这个角度来说,3D 生成绝非可有可无的技术补充,而是支撑下一代智能应用落地的核心拼图与底层基座。


文章来自于“Founder Park”,作者 “Founder Park”。

关键词: AI新闻 , AI 3D , rodin , 3D模型
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费