比SOTA提速10倍!北大DragMesh重塑3D交互,物理零失真

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
比SOTA提速10倍!北大DragMesh重塑3D交互,物理零失真
6792点击    2026-01-05 09:35

让静态3D模型「动起来」一直是图形学界的难题:物理模拟太慢,生成模型又不讲「物理基本法」。近日,北京大学团队提出DragMesh,通过「语义-几何解耦」范式与双四元数VAE,成功将核心生成模块的算力消耗降低至SOTA模型的1/10,同时将运动轴预测误差降低了10倍。得益于底层数学的完备性,该模型无需任何标注,即可让任意静态Mesh实现符合物理规律的实时交互。


在生成式AI的浪潮下,业界已经可以通过LRM、TripoSR等模型生成高质量的静态3D资产。


然而,一个完整的3D世界模型(World Model)不仅需要知道物体「长什么样」,更需要理解它们「怎么动」以及如何响应用户的交互。


当前的3D交互生成领域面临着一道难以逾越的「交互-保真度鸿沟」:


1. 物理模拟派(如基于优化的方法):虽然物理一致性高,但计算过于沉重,无法满足实时交互需求。


2. 纯生成派(如基于扩散模型的方法):虽然生成速度较快,但经常违反运动学约束,产生「关节脱臼」、「穿模」或轨迹漂移等幻觉。


为了打破这一僵局,北京大学团队推出了DragMesh,这是一个专为实时交互设计的轻量级框架,它没有盲目堆砌算力,而是从数学表征和架构设计底层入手,实现了物理真实性与计算效率的双重飞跃。


比SOTA提速10倍!北大DragMesh重塑3D交互,物理零失真

论文链接:https://arxiv.org/abs/2512.06424

代码链接:https://github.com/AlGeeksGroup/DragMesh

项目主页:https://aigeeksgroup.github.io/DragMesh


核心技术

两大创新重塑3D交互


DragMesh 并没有采用端到端的暴力生成,而是提出了解耦的设计哲学。团队认为,现有模型之所以庞大且低效,是因为试图用一个网络同时解决「语义理解」(这是微波炉还是柜子?)和「动作生成」(它该怎么转?)这两个性质完全不同的问题。


语义-几何解耦范式


DragMesh将交互过程拆解为两个轻量级流水线:


比SOTA提速10倍!北大DragMesh重塑3D交互,物理零失真

inference pipeline(推理流程)


意图推理:利用 VLM(如 GPT-4o)的通识能力,快速判断用户的交互意图,解决语义歧义(例如:判断关节类型是旋转的合页还是滑动的抽屉)。


几何回归:团队设计了专用的 KPP-Net (Kinematics Prediction Network) 。不同于通用的点云编码器,KPP-Net采用了双流注意力机制,专门用于从 Mesh 和拖拽信号中回归精准的关节轴和原点。


这种解耦设计使得核心生成网络不再需要「猜测」物体结构,而是直接基于预测出的运动学参数进行生成,大幅减轻了模型负担。


双四元数VAE


为了解决传统欧拉角(万向节死锁)或变换矩阵(参数冗余、不连续)的问题,团队引入了双四元数 (Dual Quaternions, DQ) 作为核心运动表征。


一个单位双四元数仅需8个参数,即可同时完美描述三维空间中的旋转和平移,且天然满足螺旋运动理论。


比SOTA提速10倍!北大DragMesh重塑3D交互,物理零失真


比SOTA提速10倍!北大DragMesh重塑3D交互,物理零失真


基于此,团队构建了DQ-VAE。


比SOTA提速10倍!北大DragMesh重塑3D交互,物理零失真

DQ-VAE training pipeline


非自回归Transformer解码器:摒弃了容易产生误差累积的自回归方式,采用并行解码,保证了长序列动作的连贯性 。


FiLM条件注入:将KPP-Net预测的关节先验通过FiLM (Feature-wise Linear Modulation) 层注入到Transformer的每一层中,确保生成的每一帧都严格「听从」物理约束。


物理修正模块:在解码器末端引入残差修正,进一步微调轨迹以消除微小的物理漂移,确保最终输出严格遵循物理法则 。


性能评测

算力暴降,精度暴涨


团队在GAPartNet和Objaverse数据集上进行了广泛的对比实验,结果显示DragMesh在各项指标上均实现了高效提升 。


效率:比SOTA提速10倍


比SOTA提速10倍!北大DragMesh重塑3D交互,物理零失真

性能对比,横轴为计算量 (GFLOPs),气泡大小代表参数量。紫色气泡代表现有的通用模型(如DragAPart, PartRM),它们往往参数量巨大且计算昂贵 。DragMesh(左下角)的核心生成模块参数量仅为27.5M,GFLOPs 仅为5.2 。


相比MeshArt (304M Params, 1540 GFLOPs) 和DragAPart (1100M Params, 350 GFLOPs),DragMesh的计算开销降低了5到10倍,且无需针对每个物体单独训练。


精度:几何误差降低一个数量级


在运动学预测的消融实验中,架构的优势尤为明显 :


Baseline (PointNet),轴预测误差高达450.0mrad


Ours (KPP-Net),通过解耦设计与双流注意力机制,轴预测误差降至45.0mrad,原点预测误差仅为1.8mm


这意味着用户在拖拽柜门时,DragMesh预测的旋转轴偏差极小,几乎不会出现门板「飞出」或「歪斜」的现象。


物理一致性可视化


比SOTA提速10倍!北大DragMesh重塑3D交互,物理零失真

对比分析


在定性对比中,面对微波炉、折叠椅等物体时,


ArtGS / PartRM:因为流程复杂需要的前验内容较多,经常出现结构崩坏或无法识别的情况(图中标空缺部分)。


DragMesh:无论是平移(抽屉)还是旋转(门、翻盖),都能生成平滑、结构完整的运动轨迹,且严格保持了物体的刚性结构 。


总结与展望

开启通用物理交互新纪元


DragMesh的发布不仅仅是提出了一个新的模型,更重要的是验证了一条通往3D世界模型的极简路径 。


传统方法往往需要针对「旋转」和「平移」分别设计约束,而DragMesh采用的双四元数从数学底层上实现了刚体运动的「大一统」 。


根据沙勒定理,空间中任意刚体运动都可以描述为螺旋运动。这意味着 DragMesh 的核心架构天然具备描述世间万物复杂运动的能力。


无论是机械臂的复合扭转,还是更精密的螺旋传动,DragMesh 无需修改底层架构,即可将其纳入「语义-几何」的统一流形中。


得益于解耦设计与DQ-VAE的紧凑表征,DragMesh成功将物理交互带入实时时代,证明了我们不需要等待分钟级的物理模拟,也不需要忍受离线渲染的延迟。


在未来的元宇宙构建、机器人仿真以及数字孪生场景中,DragMesh这种「即拖即动、即动即真」的轻量化范式,将成为赋予静态资产「物理常识」的基础设施 。


未来,DragMesh将继续利用其在螺旋理论上的数学优势,向多关节级联及更复杂的动力学场景从容扩展,让AI真正理解物理世界的运行规律。


参考资料:

https://arxiv.org/abs/2512.06424


文章来自于“新智元”,作者 “LRST”。

关键词: AI , 模型训练 , DragMesh , AI 3D
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner