再见MASt3R,无姿态3DGS户外重建神器来袭,KITTI和Waymo都服了!
- 2025-07-30 07:00:00
点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0.这篇文章干了啥?
这篇文章提出了一种可扩展且稳健的无姿态3D高斯模糊重建框架,旨在解决从数百张未校准的户外图像中进行3D重建的难题。现有3D高斯模糊(3DGS)技术在处理大量户外图像时,面临着内存限制、精度下降、尺度模糊和几何不一致等问题。为应对这些挑战,该框架将预训练的多视图立体(MVS)模型与分治策略相结合。具体而言,先将图像集划分为重叠子集,用预训练MVS模型估计局部点云和相机位姿,再通过概率Procrustes映射进行全局对齐,最后联合优化3DGS和相机位姿,以实现高保真和全局一致的重建。核心创新在于引入概率Procrustes映射模块进行全局注册,以及3DGS和位姿联合优化模块共同细化相机位姿和3D高斯参数。实验表明,该方法在Waymo和KITTI数据集上实现了最先进的性能,能在几分钟内生成全局一致且准确的点云和相机位姿,为现实场景中的无姿态3D重建提供了实用价值。不过,该方法也存在一定局限性,如依赖预训练MVS的预测质量,在处理大规模或动态场景时可能会受到限制。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:Unposed 3DGS Reconstruction with Probabilistic Procrustes Mapping 作者:Chong Cheng, Zijian Wang, Sicheng Yu, Yu Hu, Nanjie Yao, Hao Wang 作者机构:The Hong Kong University of Science and Technology (Guangzhou) 论文链接:https://arxiv.org/pdf/2507.18541v1
2. 摘要
三维高斯散点(3DGS)已成为三维表示的核心技术。其效果在很大程度上取决于精确的相机位姿和准确的点云初始化,而这些通常来自预训练的多视图立体(MVS)模型。然而,在利用数百张户外图像进行无位姿重建任务时,现有的MVS模型可能会受到内存限制的困扰,并且随着输入图像数量的增加而失去准确性。为解决这一局限性,我们提出了一种新颖的无位姿3DGS重建框架,该框架将预训练的MVS先验与概率普罗克拉斯提斯映射策略相结合。该方法将输入图像划分为子集,将子地图映射到全局空间,并通过3DGS联合优化几何形状和位姿。从技术上讲,我们将数千万个点云的映射问题表述为一个概率普罗克拉斯提斯问题,并求解一个闭式对齐。通过采用概率耦合以及软垃圾桶机制来排除不确定的对应关系,我们的方法能够在几分钟内对数百张图像中的点云和位姿进行全局对齐。此外,我们还提出了一个用于3DGS和相机位姿的联合优化框架。它从具有置信度感知的锚点构建高斯点,并将3DGS可微渲染与解析雅可比矩阵相结合,以联合细化场景和位姿,从而实现准确的重建和位姿估计。在Waymo和KITTI数据集上的实验表明,我们的方法能够从无位姿图像序列中实现准确的重建,为无位姿3DGS重建树立了新的技术标杆。

3. 效果展示
Waymo(前三行)和KITTI(后三行)的定性比较。带有星号(*)的方法是使用3DGS重建的。由于内存限制,InstantSplat仅在80张图像上进行训练。我们的方法实现了高保真图像重建,具有更清晰的纹理和更精细的细节。
4. 主要贡献
我们提出了一种将子地图映射问题转化为概率普氏分析问题的对齐方法。该方法将封闭形式的Sim(3)估计与概率分析和异常值剔除相结合,能够在数分钟内从数百张图像中恢复全局位姿和点云。 我们提出了一个3D高斯散点(3DGS)和位姿联合优化模块,该模块从置信度引导的锚点构建高斯散点,并通过具有解析雅可比矩阵的3DGS可微渲染来优化场景和位姿,从而提高了位姿精度和重建质量。推荐课程:实时400FPS!高精NeRF/Gaussian SLAM定位与建图。 在Waymo和KITTI数据集上的实验表明,我们的方法能够从无位姿图像序列中实现高效且准确的全局重建,为无位姿3DGS重建设定了新的技术水平。
5. 基本原理是啥?
基于分治策略的无姿态3DGS重建框架
该框架旨在从数百张无姿态的户外图像中重建高质量的3D高斯场景。将图像集划分为有重叠的子集,每个子集通过预训练的多视图立体(MVS)模型独立处理,以估计局部点云和相机位姿。然后通过概率普罗克拉斯提斯映射(Probabilistic Procrustes Mapping)对这些子地图进行全局对齐,最后联合优化3D高斯参数和相机位姿,得到高保真且全局一致的重建结果。
概率普罗克拉斯提斯映射
问题重定义:为实现子地图间的全局一致对齐,通过定义相邻子集对之间的重叠帧,将大规模子地图对齐问题重新表述为经典的普罗克拉斯提斯问题。通过在重叠帧内构建像素级的对应关系,得到子地图间的对应点集,目标是估计子地图间的最优相似变换,其中是比例因子,是旋转矩阵,是平移向量。 封闭形式解:采用Kabsch - Umeyama算法,基于对应点集计算封闭形式的解。通过计算点集的质心、协方差矩阵,并进行奇异值分解(SVD),得到旋转矩阵、比例因子和平移向量,为子地图对齐提供高效的初始化。 概率映射:由于前馈MVS模型预测的点云存在结构偏差,导致封闭形式对齐存在系统误差。将点云配准问题表述为带有垃圾桶机制的概率普罗克拉斯提斯问题。为每个候选对应关系分配一个概率匹配权重,并引入基于概率的垃圾桶机制,通过控制参数指定可排除的对应关系的最大允许比例。联合优化相似变换和对应概率,通过熵正则化优化更新对应权重,通过梯度下降更新变换参数,迭代应用该过程可得到全局一致的点云和统一的相机轨迹。
3DGS和位姿联合优化
3D高斯渲染:将场景建模为一组3D高斯分布,每个高斯点由位置、3D协方差矩阵、不透明度和颜色定义。对于特定视图,给定相机位姿和相机内参,通过光栅化管道渲染RGB图像。首先将3D高斯投影到2D图像平面,然后将像素颜色表示为重叠像素的N个有序点的alpha混合。 联合优化过程:从全局点云中提取高置信度子集并进行下采样,得到初始锚点集,用于初始化3D高斯。定义一个闭环优化框架,通过最小化渲染图像与真实图像之间的损失函数,联合优化相机位姿和高斯参数。通过链式法则推导相机位姿的梯度,避免自动微分的运行时开销,确保四元数归一化期间的数值稳定性。通过联合优化相机位姿、3D高斯参数和图像重投影,得到全局一致的3D高斯场景,具有准确的位姿估计和高保真渲染效果。
6. 实验结果
文章在Waymo和KITTI两个户外数据集上进行实验,以评估所提出的无姿态3D高斯 splatting(3DGS)重建框架的性能,具体结果如下:
与基线方法的对比
准确性:在相机位姿估计方面,通过绝对轨迹误差(ATE)衡量,该方法在Waymo数据集上的ATE为1.41,在KITTI数据集上为1.64,显著优于其他基线方法,如COLMAP+SPSG(Waymo:3.68;KITTI:12.1)、CF - 3DGS(Waymo:5.46;KITTI:5.99)等,表明其估计的轨迹更准确稳定。在图像重建质量方面,使用PSNR、SSIM和LPIPS指标评估,该方法在Waymo数据集上PSNR达到31.53、SSIM为0.915、LPIPS为0.245,在KITTI数据集上PSNR为24.83、SSIM为0.780、LPIPS为0.272,均取得了最佳结果,说明其能够实现高保真的图像重建,具有更清晰的纹理和更精细的细节。 效率:在匹配时间和训练时间上表现出色。该方法在Waymo数据集上匹配时间仅为1分钟,训练时间为63分钟;在KITTI数据集上匹配时间为8分钟,训练时间为31分钟。相比之下,一些基线方法如COLMAP+SPSG在Waymo数据集上训练时间达58分钟,MASt3R在Waymo数据集上匹配时间和训练时间分别为82分钟和46分钟,且需要较大的GPU内存。该方法在实现高质量重建的同时,能在较短时间内完成,且GPU内存使用相对较少。 场景适应性:InstantSplat因内存限制无法处理大量输入,在大场景下表现不佳;Fast3R虽效率高但位姿估计不准确;Flare支持的输入视图数量有限;COLMAP在某些场景下会发散,导致平均ATE误差较大。而该方法结合预训练的VGGT模型、概率Procrustes映射(PPM)模块和联合位姿优化,能有效处理数百张户外图像的无姿态重建任务,实现子地图的无缝对齐和全局一致的位姿估计。
消融实验
PPM模块有效性:使用ICP或COLMAP预测的相对位姿进行子地图配准会导致明显的位姿误差和最终重建中的可见不对齐。而概率Procrustes映射模块结合了闭式对齐和概率细化,显著提高了配准精度和重建保真度。如在Waymo数据集上,“Ours w/ ICP”的ATE为3.24,“Ours w/ COLMAP”的ATE为3.77,而使用PPM模块的“Ours”的ATE仅为0.56。 联合3DGS优化模块有效性:禁用PPM模块,用VGGT相对位姿估计替代,会导致全局一致性下降和新视图合成质量降低;在3DGS训练阶段固定相机位姿,会使图像质量和几何一致性的性能下降。这表明联合优化相机位姿和场景表示对于准确和稳健的重建至关重要。


7. 总结 & 未来工作
我们提出了一个可扩展且稳健的无姿态三维高斯散点重建框架。通过将预训练的多视图立体(MVS)模型与分治策略相结合,我们的方法能够有效地处理数百个未校准视图的户外场景。我们引入了概率普氏映射(Probabilistic Procrustes Mapping)模块进行全局配准,随后使用三维高斯散点(3DGS)和姿态联合优化模块共同优化相机姿态和三维高斯参数。我们的方法达到了当前最优的性能,为现实场景中的无姿态三维重建提供了实用价值。
我们的方法也存在一定局限性。我们的方法依赖于预训练MVS模型对初始姿态和几何结构的预测质量。虽然联合优化阶段可以纠正一些适度的误差,但初始预测中的严重不准确可能会降低最终的重建质量。随着输入帧数的增加,累积的漂移和更高的优化成本可能会限制该方法在大规模或长序列场景中的可扩展性。此外,在高度动态的场景中,频繁的运动或遮挡会导致各视图之间缺乏一致的对应关系,从而阻碍稳定的优化过程并降低重建的保真度。
3D视觉硬件,官网:www.3dcver.com
3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
3D视觉全栈学习课程:www.3dcver.com
3D视觉交流群成立啦,微信:cv3d001

- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊