ICCV'25 | 港科大新作RegGS:精确配准3D GS,无需位姿先验!PSNR暴涨!
- 2025-07-16 07:00:00
点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息
标题:RegGS: Unposed Sparse Views Gaussian Splatting with 3DGS Registration
作者:Chong Cheng, Yu Hu, Sicheng Yu, Beizhen Zhao, Zijian Wang, Hao Wang
机构:The Hong Kong University of Science and Technology (Guangzhou)
原文链接:https://arxiv.org/abs/2507.08136
官方主页:https://3dagentworld.github.io/reggs/
1. 导读
三维高斯泼溅(3D Gaussian Splatting,3DGS)已展现出从无位姿图像重建场景的潜力。
然而,基于优化的3DGS方法由于先验知识有限,在稀疏视图下表现欠佳。与此同时,前馈高斯方法受输入格式限制,难以融入更多输入视图。为应对这些挑战,我们提出了一种基于三维高斯配准的框架RegGS,用于重建无位姿的稀疏视图。RegGS将前馈网络生成的局部三维高斯模型对齐为全局一致的三维高斯表示。技术上,我们采用熵正则化的Sinkhorn算法高效求解最优传输混合2-Wasserstein(Mixture 2-Wasserstein,MW2)距离,该距离作为相似三空间(Sim(3)空间)中高斯混合模型(Gaussian Mixture Models,GMMs)的配准度量。此外,我们设计了一个联合3DGS配准模块,该模块集成了MW2距离、光度一致性和深度几何信息。这实现了从粗到细的配准过程,同时精确估计相机位姿并配准场景。在RE10K和ACID数据集上的实验表明,RegGS能够有效且高保真地配准局部高斯模型,实现精确的位姿估计和高质量的新视图合成。项目主页:https://3dagentworld.github.io/reggs/。
2. 效果展示
我们的流水线概览,该流水线基于多组未摆位的稀疏视图。一个预先训练的馈送前向高斯插值模型从每个输)中提取次3D高斯函数,而两幅初始图像则产生主要的3D高斯函数。我们使用熵正则化MW2距离来衡量高斯函数的结构性接近度,并通过我们的联合3DGS配准模块在Sim(3)空间中对其进行对齐。我们的方法在重建质量和新颖视图合成方面表现优于其他方法。

.RE10K的定性比较.NoPosplat:2x视图;其他:16x视图。我们的方法不仅能够注册3D高斯分布,还通过全局细化来增强新颖视图合成。

3. 引言
近期,在虚拟现实(Virtual Reality,VR)、增强现实(Augmented Reality,AR)和机器人技术对沉浸式体验需求的推动下,三维重建和新视图合成领域取得了显著成果。然而,从稀疏、无位姿的数据中重建三维场景仍是一项艰巨挑战,因为现实条件往往提供有限的重叠区域和不可靠的相机位姿。
尽管神经辐射场(Neural Radiance Fields,NeRF)在新视图合成方面效果显著,但传统NeRF方法通常需要已知的相机位姿,这限制了其更广泛的应用。近期将位姿估计与NeRF相结合的研究面临着收敛困难和计算成本高的问题。基于优化的三维高斯泼溅(3DGS)方法在实时场景重建方面展现出潜力,但由于几何先验不足,在稀疏视图下表现不佳。这些局限性往往导致拓扑不连续和尺度模糊,显著降低了其实用性。
相比之下,基于前馈的方法利用从大规模训练数据中学习到的隐式三维先验,无需迭代优化即可直接从图像中预测一致的三维高斯模型。这种学习到的先验不仅增强了跨数据集的泛化能力,还在几何信息约束不足的场景中对重建进行了正则化。
近期的方法实现了从无位姿图像中直接推断三维高斯表示,无需迭代优化。
然而,前馈方法只能处理有限数量的输入图像,限制了其在更广泛场景中的应用。这引发了一个有趣的问题:能否将前馈网络生成的局部高斯模型配准为全局一致的三维高斯表示?
为解决这一问题,我们提出了一种新颖的三维高斯重建框架RegGS,该框架通过逐步配准前馈高斯模型来实现无位姿稀疏视图重建。具体而言,我们引入了基于最优传输的高斯混合模型(GMM)之间的混合2-Wasserstein(MW2)距离,以配准广义高斯流形。通过可微的多模态联合配准流程,我们在相似三空间(Sim(3)空间)中求解场景配准问题。
技术上,我们利用熵正则化的Sinkhorn算法计算高斯混合模型(GMMs)之间W2距离的可微上界MW2,从而规避了无限维的W2优化问题。通过集成对数Sinkhorn和Cholesky分解等工程技术,我们在图形处理器(Graphics Processing Unit,GPU)上高效计算了数千个三维高斯模型之间的MW2距离,从而准确测量了它们在相似三空间(Sim(3)空间)中的配准情况。
此外,我们将MW2距离的全局分布、光度一致性和深度几何信息集成到一个联合三维高斯配准模块中,实现了相似三空间(Sim(3)空间)内的弹性尺度配准和拓扑自适应。通过执行从粗到细的逐步3DGS配准,随后进行全局优化,我们实现了高精度的相机位姿估计和高质量的场景重建。
4. 主要贡献
我们的贡献可总结如下:
• 我们在相似三空间(Sim(3)空间)中为高斯混合模型构建了一个最优传输框架,并利用熵正则化的Sinkhorn算法高效计算了MW2距离,从而为三维高斯分布提供了一个可微的配准度量。
• 我们提出了一个3DGS联合配准模块,该模块通过联合利用MW2距离、光度一致性和深度几何信息,实现了精确的相机位姿估计和场景配准。
• 在RE10K和ACID数据集上的实验表明,RegGS显著提高了位姿估计的准确性和新视图合成的质量,为实际应用提供了广阔的可能性。
5. 方法
如图2所示,我们的方法使用预训练的前馈高斯模型从两幅图像初始化主地图,并为后续每幅图像生成子高斯模型。通过熵正则化的Sinkhorn方法测量高斯混合模型(GMMs)之间的最优传输MW2距离相似性,我们的可微联合3DGS配准模块在合并局部高斯模型到主地图之前估计相似三空间(Sim(3)空间)变换。最后,我们对三维高斯模型进行全局优化和自适应剪枝,即使从无位姿的稀疏视图中也能生成高保真重建结果。

6. 实验结果


7. 总结
本文介绍了RegGS,这是一个增量式3D高斯重构框架,适用于无姿态稀疏视图设置。我们基于最优传输MW2距离在Sim(3)空间中构建了GMM对齐度量,并通过使用熵正则化Sinkhorn算法高效计算MW2距离,从而绕开了无穷维优化问题。通过联合优化MW2、光度学和深度一致性损失,RegGS实现了相机姿态和场景结构的渐进式粗到细注册。RE10K和ACID的实验展示了优于先前方法的姿态估计和新颖的视图合成,突显了RegGS在现实应用中的潜力。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
3D视觉硬件,官网:www.3dcver.com
3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
3D视觉全栈学习课程:www.3dcver.com
3D视觉交流群成立啦,微信:cv3d001

- 点赞 0
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊