点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

0. 论文信息

标题:SpatialTrackerV2: 3D Point Tracking Made Easy

作者:Yuxi Xiao, Jianyuan Wang, Nan Xue, Nikita Karaev, Yuri Makarov, Bingyi Kang, Xing Zhu, Hujun Bao, Yujun Shen, Xiaowei Zhou

机构: Zhejiang University、Oxford、Ant Group、Pixelwise AI、Bytedance Seed

原文链接:https://arxiv.org/abs/2507.12462

代码链接:https://github.com/henry123-boy/SpaTrackerV2

1. 导读

我们提出了SpatialTrackerV2,一种用于单目视频的前馈式3D点跟踪方法。不同于基于现成组件构建的模块化3D跟踪流水线,我们的方法将点跟踪、单目深度和相机位姿估计之间的内在联系统一为一个高性能的前馈式3D点跟踪器。它利用完全可微且端到端的架构,将世界空间中的3D运动分解为场景几何结构、相机自运动和逐像素的物体运动,从而支持在包括合成序列、带位姿的RGB-D视频和无标签野外镜头在内的广泛数据集上进行可扩展的训练。通过从这些异构数据中联合学习几何结构和运动,SpatialTrackerV2的性能比现有3D跟踪方法提高了30%,且在运行速度比领先的动态3D重建方法快50倍的同时,达到了与其相当的精度。

2. 效果展示

SpatialTrackerV2能够从任意场景(如机器人操作、第一人称视角和动态运动(漂移和滑冰),如图所示)的单目视频中,一次性生成一致的3D场景几何结构、相机位姿和3D点轨迹。

资讯配图

融合点云、相机姿态和3D点轨迹。我们可视化从视频深度和相机姿态中重构的融合点云,以及世界空间中的长期3D点轨迹。

资讯配图

3. 引言

3D点跟踪旨在从单目视频中恢复任意点的长期3D轨迹。作为一种通用的动态场景表示方法,它最近在机器人技术、视频生成和3D/4D重建等多样化应用中展现出了巨大潜力。与参数化运动模型(如SMPL、MANO、骨架或3D边界框)相比,它在各种真实场景中具有更高的灵活性和泛化能力。

现有的3D点跟踪解决方案广泛探索了成熟的低/中级视觉模型,如光流和单目深度估计,并借鉴了2D点跟踪模型的优势。其中,基于优化的方法针对每个给定的单目视频,对光流、单目深度模型和相机运动进行提炼,取得了令人满意的结果,但由于其针对每个场景的优化设计,计算成本较高。SpatialTracker采用前馈模型实现了高效的3D点跟踪,而近期的研究则探索了不同的架构设计和渲染约束,以实现更高质量的3D跟踪。然而,由于需要真实3D轨迹作为监督,前馈解决方案在训练数据可扩展性方面受到限制,这降低了在真实世界随意拍摄场景中的跟踪质量。此外,忽视相机运动、物体运动和场景几何结构之间的内在相互作用会导致模块间误差的纠缠和累积。推荐课程:聊一聊经典三维点云方法,包括:点云拼接、聚类、表面重建、QT+VTK等

这些局限性激发了我们的核心见解:(1)对真实3D轨迹的依赖限制了现有前馈模型的可扩展性,凸显了设计能够跨多样且弱监督数据源进行泛化的模型的必要性。(2)缺乏对场景几何结构、相机运动和物体运动的联合推理会导致误差累积和性能下降,强调了分离并显式建模这些运动组件的重要性。为了应对这些挑战,我们将3D点跟踪分解为三个不同的组件:视频深度、自(相机)运动和物体运动,并将它们集成在一个完全可微的流水线中,支持跨异构数据的可扩展联合训练。

在我们的SpatialTrackerV2中,提出了前端和后端架构。前端是视频深度估计器和相机位姿初始化器,它改编自典型的单目深度预测框架,并采用了基于注意力机制的时间信息编码。然后,预测的视频深度和相机位姿通过尺度平移估计模块进行融合,以确保深度和运动预测之间的一致性。后端由一个提出的联合运动优化模块组成,该模块以视频深度和粗略的相机轨迹作为输入,并迭代估计2D和3D轨迹,以及轨迹动力学和可见性分数。这使得能够进行高效的捆绑调整过程,以优化循环中的相机位姿。其核心是一个新颖的SyncFormer,它在两个分支中分别建模2D和3D相关性,并通过多个交叉注意力层连接。这种设计减轻了2D和3D嵌入之间的相互干扰,并允许模型在两个不同的空间(即图像(UV)空间和相机坐标空间)中更新表示。此外,得益于这种双分支设计,捆绑调整可以有效地应用于联合优化相机位姿以及2D和3D轨迹。

这种统一且可微的流水线使得在各种数据集上进行大规模训练成为可能。对于提供相机位姿的RGB-D数据集,我们利用静态点的真实深度和相机位姿的一致性约束来联合训练3D跟踪,而动态点则无缝地贡献于优化过程。对于仅提供相机位姿标注而缺乏深度信息的视频数据集,我们利用相机位姿、2D和3D点跟踪之间的一致性来驱动模型的优化。依托这一框架,我们成功地在17个数据集上扩展了整个流水线的训练。

4. 主要贡献

在TAPVid-3D基准测试上的评估表明,我们的方法在3D点跟踪方面树立了新的标杆,实现了21.2 AJ和31.0 APD3D,相对于DELTA分别提高了61.8%和50.5%。此外,在动态重建方面的广泛实验表明,我们在一致的视频深度和相机位姿估计方面取得了卓越成果。具体而言,SpatialTrackerV2在大多数视频深度数据集上超越了最佳动态重建方法MegaSAM,并在各种相机位姿基准测试中取得了相当的结果,同时其推理速度快了50倍。

5. 方法

我们的方法采用前端和后端架构。前端从输入视频中估计尺度对齐的深度和相机位姿,用于构建初始静态3D轨迹。然后,后端通过联合运动优化迭代地细化轨迹和位姿。

资讯配图

该模型以先前的估计值及其对应的嵌入作为输入,并对其进行迭代更新。2D和3D嵌入是在各自的分支中处理的,并通过交叉注意力机制进行交互。

资讯配图

6. 实验结果

资讯配图
资讯配图

7. 总结 & 未来工作

本文介绍SpatialTrackerV2,这是一项用于单目视频3D点追踪的前馈式、可扩展且处于最新水平的方法。该方法基于对广泛使用的运动和场景几何低层次和中间层次表示的深入探索,将一致的场景几何相机运动和像素级的3D运动整合到一个完全可导的全端到端管道中。SpatialTrackerV2能够从单目视频中准确重构3D轨迹,在公开基准测试中取得了强劲的量化结果,并在随机采集的互联网视频中展示了稳健的性能。我们相信,SpatialTrack-erV2为现实世界的运动理解奠定了坚实的基础,并通过探索大规模视觉数据,使我们离物理智能更近了一步。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉硬件,官网:www.3dcver.com

资讯配图

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

3D视觉全栈学习课程:www.3dcver.com

资讯配图

3D视觉交流群成立啦,微信:cv3d001

资讯配图

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!