PhysX:南洋理工与上海AI Lab首创物理基础3D资产生成框架
- 2025-07-18 08:00:00
点击下方卡片,关注“具身智能之心”公众号
作者丨Ziang Cao等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。
研究背景与动机
3D资产生成在游戏、机器人和具身仿真器等领域应用日益广泛,但现有研究多聚焦于外观和几何结构,忽视了真实世界目标固有的物理属性。真实目标除了结构特征外,还包含绝对尺度、材料、交互可能性(affordance)、运动学参数和功能描述等物理与语义特性,这些特性是物理仿真、机器人操作等场景的关键基础。
现有数据集存在明显局限:PartNet-Mobility虽包含2.7K带运动约束的3D模型,但缺乏尺寸、材料等物理描述;ABO数据集虽有材料元数据,但仅停留在目标层面,无法支持部件级应用。这种缺口使得3D生成模型难以满足物理建模和推理的需求,亟需从数据标注到生成模型的端到端解决方案。
核心贡献
首次提出端到端物理驱动3D资产生成范式:突破现有仅关注结构的局限,将物理属性融入3D生成全流程,为仿真等下游应用开辟新可能。 构建首个物理驱动3D数据集PhysXNet:通过人机协同标注流程,将现有几何导向数据集转化为细粒度物理标注数据集,其扩展版PhysXNet-XL包含超600万通过程序生成的标注3D目标。 设计双分支前馈框架PhysXGen:建模结构与物理特征的潜在关联,在保持几何质量的同时,生成具有合理物理属性的3D资产。
PhysXNet数据集
物理属性定义
数据集系统定义了三类属性(figure 2上),涵盖目标从识别到操作的全维度:
识别层:绝对尺度(物理尺寸)和材料(包括杨氏模量E、泊松比ν、密度等); 功能层:交互优先级(1-10的评分,表征被触碰的可能性)和功能描述(基础、功能、运动学描述); 操作层:运动学参数,包括5种运动类型(A.无约束、B.平移关节、C.旋转关节、D.铰链关节、E.刚性关节,及组合类型CB),并标注父子部件、运动方向、范围等细节(如旋转范围[-180,180]、位置坐标等)。

特别地,为避免过细粒度标注的冗余,数据集将顶点和面积小于阈值的微小部件与相邻部件合并。
人机协同标注流程
标注流程分两阶段(figure 2下):
初步数据获取:利用GPT-4o生成基础标注,经人工校验确保质量; 运动学参数确定:包括接触区域计算(通过点云欧氏距离筛选)、平面拟合、候选生成与选择,最终经人工审核确定参数(如旋转轴位置通过k-means算法在接触区域确定)。
该流程高效将现有3D库(如PartNet)转化为物理标注数据集,平衡了效率与准确性。
数据分布
PhysXNet包含超26K 3D目标,部件数量呈长尾分布(figure 3a),平均每个目标含约5个部件;物理尺寸跨度大(1-1000cm),呈长尾分布(figure 3b);运动类型中刚性关节(E)和旋转关节(C)占比最高(figure 3c)。扩展版PhysXNet-XL通过程序生成,涵盖家具、容器等多类别,标签词云反映高频目标类型(figure 3d-e)。

PhysXGen框架
框架分两阶段:物理3D VAE latent空间学习和物理感知生成过程(figure 4),核心是建模结构与物理属性的关联。

物理3D VAE编码与解码
属性编码:将物理属性(绝对尺度、交互优先级、密度、运动学参数)和功能描述(经CLIP编码为文本嵌入)编码为统一物理 latent 空间。结构分支采用DINOv2提取特征,物理与结构 latent 分别表示为:
损失函数:综合结构(颜色、几何)和物理属性损失,公式为:
其中和分别为颜色(含L2、LPIP损失)和几何(含掩码、法向量、深度损失)损失,和为物理与语义属性的L2损失,约束物理 latent 分布,减少纹理网格冗余结构。
物理Latent生成
采用 transformer 架构的扩散模型,通过双分支结构融合结构与物理特征(figure 4)。利用条件流匹配(CFM)作为优化目标,结构分支损失为:
总扩散损失为结构与物理分支损失之和()。
实验结果
定量结果
与基线方法对比(table 2):PhysXGen在几何指标(PSNR 24.53、CD 12.7、F-Score 77.3)和物理属性(绝对尺度误差6.63、材料误差0.141等)上均优于TRELLIS+PhysPre,证明其能同时保持几何质量和物理准确性。

消融实验(table 3):同时利用VAE(Dep-VAE)和扩散模型(Dep-Diff)中的结构与物理关联时,性能最优,说明双分支协同的有效性。

定性结果
生成结果(figure 5):给定单张图像提示,PhysXGen能生成包含详细物理属性(如尺寸、材料、运动范围)的3D资产。

对比分析(figure 6、9):在绝对尺度、材料、运动学等方面,PhysXGen的生成结果与真实值更接近,尤其在部件级功能描述和交互优先级上表现更稳定。


局限性与未来方向
当前方法在细粒度属性学习上存在局限,易产生伪影。未来将:
改进细粒度属性学习; 扩展数据集多样性,涵盖更多合成与真实3D数据; 增加物理属性和运动类型,以更好仿真材料行为和运动。
参考
[1]PhysX: Physical-Grounded 3D Asset Generation

- 点赞 0
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊