点击下方卡片,关注“具身智能之心”公众号


作者丨Ziang Cao等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

研究背景与动机

3D资产生成在游戏、机器人和具身仿真器等领域应用日益广泛,但现有研究多聚焦于外观和几何结构,忽视了真实世界目标固有的物理属性。真实目标除了结构特征外,还包含绝对尺度、材料、交互可能性(affordance)、运动学参数和功能描述等物理与语义特性,这些特性是物理仿真、机器人操作等场景的关键基础。

现有数据集存在明显局限:PartNet-Mobility虽包含2.7K带运动约束的3D模型,但缺乏尺寸、材料等物理描述;ABO数据集虽有材料元数据,但仅停留在目标层面,无法支持部件级应用。这种缺口使得3D生成模型难以满足物理建模和推理的需求,亟需从数据标注到生成模型的端到端解决方案。

核心贡献

  1. 首次提出端到端物理驱动3D资产生成范式:突破现有仅关注结构的局限,将物理属性融入3D生成全流程,为仿真等下游应用开辟新可能。
  2. 构建首个物理驱动3D数据集PhysXNet:通过人机协同标注流程,将现有几何导向数据集转化为细粒度物理标注数据集,其扩展版PhysXNet-XL包含超600万通过程序生成的标注3D目标。
  3. 设计双分支前馈框架PhysXGen:建模结构与物理特征的潜在关联,在保持几何质量的同时,生成具有合理物理属性的3D资产。

PhysXNet数据集

物理属性定义

数据集系统定义了三类属性(figure 2上),涵盖目标从识别到操作的全维度:

  • 识别层:绝对尺度(物理尺寸)和材料(包括杨氏模量E、泊松比ν、密度等);
  • 功能层:交互优先级(1-10的评分,表征被触碰的可能性)和功能描述(基础、功能、运动学描述);
  • 操作层:运动学参数,包括5种运动类型(A.无约束、B.平移关节、C.旋转关节、D.铰链关节、E.刚性关节,及组合类型CB),并标注父子部件、运动方向、范围等细节(如旋转范围[-180,180]、位置坐标等)。

特别地,为避免过细粒度标注的冗余,数据集将顶点和面积小于阈值的微小部件与相邻部件合并。

人机协同标注流程

标注流程分两阶段(figure 2下):

  1. 初步数据获取:利用GPT-4o生成基础标注,经人工校验确保质量;
  2. 运动学参数确定:包括接触区域计算(通过点云欧氏距离筛选)、平面拟合、候选生成与选择,最终经人工审核确定参数(如旋转轴位置通过k-means算法在接触区域确定)。

该流程高效将现有3D库(如PartNet)转化为物理标注数据集,平衡了效率与准确性。

数据分布

PhysXNet包含超26K 3D目标,部件数量呈长尾分布(figure 3a),平均每个目标含约5个部件;物理尺寸跨度大(1-1000cm),呈长尾分布(figure 3b);运动类型中刚性关节(E)和旋转关节(C)占比最高(figure 3c)。扩展版PhysXNet-XL通过程序生成,涵盖家具、容器等多类别,标签词云反映高频目标类型(figure 3d-e)。

PhysXGen框架

框架分两阶段:物理3D VAE latent空间学习和物理感知生成过程(figure 4),核心是建模结构与物理属性的关联。

物理3D VAE编码与解码

  • 属性编码:将物理属性(绝对尺度、交互优先级、密度、运动学参数)和功能描述(经CLIP编码为文本嵌入)编码为统一物理 latent 空间。结构分支采用DINOv2提取特征,物理与结构 latent 分别表示为:
  • 损失函数:综合结构(颜色、几何)和物理属性损失,公式为:

其中分别为颜色(含L2、LPIP损失)和几何(含掩码、法向量、深度损失)损失,为物理与语义属性的L2损失,约束物理 latent 分布,减少纹理网格冗余结构。

物理Latent生成

采用 transformer 架构的扩散模型,通过双分支结构融合结构与物理特征(figure 4)。利用条件流匹配(CFM)作为优化目标,结构分支损失为:

总扩散损失为结构与物理分支损失之和()。

实验结果

定量结果

  • 与基线方法对比(table 2):PhysXGen在几何指标(PSNR 24.53、CD 12.7、F-Score 77.3)和物理属性(绝对尺度误差6.63、材料误差0.141等)上均优于TRELLIS+PhysPre,证明其能同时保持几何质量和物理准确性。
  • 消融实验(table 3):同时利用VAE(Dep-VAE)和扩散模型(Dep-Diff)中的结构与物理关联时,性能最优,说明双分支协同的有效性。

定性结果

  • 生成结果(figure 5):给定单张图像提示,PhysXGen能生成包含详细物理属性(如尺寸、材料、运动范围)的3D资产。
  • 对比分析(figure 6、9):在绝对尺度、材料、运动学等方面,PhysXGen的生成结果与真实值更接近,尤其在部件级功能描述和交互优先级上表现更稳定。

局限性与未来方向

当前方法在细粒度属性学习上存在局限,易产生伪影。未来将:

  1. 改进细粒度属性学习;
  2. 扩展数据集多样性,涵盖更多合成与真实3D数据;
  3. 增加物理属性和运动类型,以更好仿真材料行为和运动。

参考

[1]PhysX: Physical-Grounded 3D Asset Generation