干掉 ELoFTR!把特征匹配效率提升 2.2 倍! CasP 打造轻量高效匹配方案!
- 2025-07-31 07:00:00
点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0.这篇文章干了啥?
这篇文章提出了一种名为 CasP 的新型半密集特征匹配管道,旨在解决现有方法在准确性和效率上的瓶颈问题。现有半密集特征匹配方法在建立粗匹配时依赖于对整个特征图的全局搜索,限制了性能提升。CasP 将匹配阶段分解为两个渐进阶段,通过基于区域的选择性交叉注意力(RSCA)机制增强特征判别能力。在第一阶段,在较粗尺度上建立一对多的对应先验;第二阶段,利用这些先验引导确定一对一的匹配,同时通过引入高级特征减少低级特征提取的计算成本。实验表明,CasP 在几何估计方面表现出色,尤其在跨域泛化上效果显著。与最有效的方法 ELoFTR 相比,其精简模型在分辨率为 1152 时实现了约 2.2 倍的加速。该方法在相对位姿估计、单应性估计和视觉定位等任务中均表现出竞争力,且消融研究验证了其跨域泛化能力和高效性,具有在对延迟敏感和高鲁棒性应用(如 SLAM 和无人机系统)中的潜力。代码可在https://github.com/pq-chen/CasP获取。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:CasP: Improving Semi-Dense Feature Matching Pipeline Leveraging Cascaded Correspondence Priors for Guidance 作者:Peiqi Chen, Lei Yu, Yi Wan 等 作者机构:Wuhan University,Ant Group 论文链接:https://arxiv.org/pdf/2507.17312v1
2. 摘要
半密集特征匹配方法在具有挑战性的场景中表现出了强大的性能。然而,现有的流程依赖于在整个特征图上进行全局搜索来建立粗匹配,这限制了精度和效率的进一步提升。受此限制的启发,我们提出了一种新颖的流程 CasP,它利用级联对应先验进行引导。具体而言,匹配阶段被分解为两个渐进的阶段,通过一个基于区域的选择性交叉注意力机制连接,该机制旨在增强特征的可区分性。在第二阶段,通过将搜索范围限制在第一阶段确定的一对多先验区域内来确定一对一匹配。此外,该流程受益于融入高级特征,这有助于降低低级特征提取的计算成本。CasP 的加速增益随着分辨率的提高而增加,与最有效的方法 ELoFTR 相比,我们的轻量级模型在分辨率为 1152 时实现了约 2.2 倍的加速。此外,大量实验证明了它在几何估计方面的优越性,特别是在跨领域泛化方面表现出色。这些优势凸显了其在对延迟敏感和高鲁棒性应用(如 SLAM 和无人机系统)中的潜力。代码可在[https://github.com/pq - chen/CasP](https://github.com/pq - chen/CasP)获取。

3. 效果展示
级联匹配的示意图。
(a) 在粗尺度上通过全局搜索选择一对多的对应先验,并以相同颜色的块显示(紫色表示潜在的共同先验)。
(b) 在目标尺度上通过先验引导确定一对一的匹配,并以相同编号的块显示,区域注意力机制(RSCA)仅应用于先验标记位置。
定性结果。选取了两对具有挑战性的图像进行定性分析,并与LoFTR和ELoFTR进行了比较。其中一对图像由于光照变化而缺乏纹理细节,而另一对图像则存在显著的视角变化。
4. 主要贡献
提出一种利用级联对应先验的新颖管道,以解决现有效率瓶颈问题。 提出一种专注于先验区域的新颖注意力机制,用于衔接级联匹配的两个阶段。 提出一种集成先进模块的新颖半密集方法,该方法具有高效性和跨领域泛化能力,在实际应用中表现卓越。
5. 基本原理是啥?
提出级联匹配管道 CasP
现有半密集特征匹配方法的管道依赖于在整个特征图上进行全局搜索来建立粗匹配,限制了准确性和效率的进一步提升。CasP 管道将匹配阶段分解为两个渐进阶段,利用级联对应先验进行引导。首先在较粗尺度上建立一对多的对应关系作为级联先验,然后利用这些先验在目标尺度上确定一对一的匹配。加速的关键因素在于:一是第二阶段只关注先验区域内的令牌,消除了先验区域外的无关计算;二是引入高级特征有助于减少低级特征提取的计算成本。
特征提取
低级局部特征:使用轻量级 CNN 从 到 尺度提取低级特征图以捕获局部线索。现有管道在 尺度的特征图上进行全局搜索确定粗匹配,对于高分辨率输入会因计算成本快速增加而产生吞吐量瓶颈。本文模型采用修改后的 RepVGG 架构,减少了参数数量。 高级全局特征:由于将主要操作推迟到较粗尺度,需要额外的下采样特征图 ,, 和 用于后续的交互和匹配阶段。采用上下文聚类机制(self - CoC)提取高级特征,该机制包括聚类、聚合和分发三个主要阶段,通过控制锚点数量使计算成本可控。
特征交互
引入混合模块,包含两个互补机制:
注意力机制:作为 Transformer 的核心机制,注意力通过测量查询 和键 之间的相似度并对值 进行加权平均来建模所有涉及令牌之间的点对关系。采用聚合注意力,将令牌下采样到块中,在 尺度进行实际交互,降低计算成本。 Cross - CoC 机制:聚合注意力的下采样牺牲了点对点建模能力,Cross - CoC 机制利用 和 中较粗粒度的令牌作为锚点,在 尺度促进间接的点对交互,补充聚合注意力。同时,融合模块使 和 尺度的特征图能够交换局部信息。混合交互模块按顺序构建并重复 次,以生成转换后的特征图。
级联匹配
采用训练 - 推理解耦的级联匹配模块:
一对多匹配:从 和 的相关性构建得分矩阵 ,导出每个视图中每个令牌的前 个对应先验 。训练时对 应用双软最大化(DS)算子以获得独特的特征表示和置信矩阵 用于监督,并注入一对多的真实对应关系加速收敛;推理时省略 DS 算子。 基于区域的选择性交叉注意力机制(RSCA):在一对一匹配阶段之前,将 尺度的特征图与转换后的 融合,引入 RSCA 机制,使每个令牌能够选择性地关注其在 尺度的对应先验,增强先验位置令牌之间的特征可区分性。 一对一匹配:从相关性获得得分矩阵 ,训练时应用 DS 算子进行监督;推理时对 RSCA 模块中每个查询令牌关注的键/值令牌应用部分软最大化,减少计算成本。根据预定义阈值过滤粗匹配,应用互最近邻(MNN)准则进行一对一匹配。
匹配细化
对于 中的每个匹配,在 尺度建立点对对应关系,在原始分辨率建立块对对应关系。首先提取局部块,然后使用基于单应性的两阶段模块进行亚像素精度的细化。
监督
粗监督:在 尺度构建单热 4D 地面真值矩阵 ,提取监督集 ,通过最大池化下采样得到 。定义粗损失为置信矩阵 ()上的负对数似然。 精细监督:像素级监督集 和损失 定义类似,亚像素损失 计算为扭曲位置与地面真值之间的 损失。总损失 是各损失项的线性组合。


6. 实验结果
相对位姿估计
数据集:使用 MD - 1500(室外场景)和 SN - 1500(室内场景)两个广泛采用的基准数据集。 评估指标:匹配准确率用相对位姿误差在不同阈值下的曲线下面积(AUC)表示,效率通过基准测试的平均运行时间衡量。 结果 准确率:全量模型在所有类别中的域内和跨域基准测试中都表现出极具竞争力的性能,与表现最佳的半密集方法 AffineFormer 相当,但运行时间远优于后者。在 SN - 1500 上的显著改进凸显了该方法强大的跨域泛化能力。 效率:精简模型在 MD - 1500 上比 ELoFTR/LoFTR 使用 FP32 精度时分别加速约 2.2/3.2 倍,在 SN - 1500 上分别加速约 1.4/2.2 倍,使用 FP16 精度时还能进一步加速。
单应性估计
数据集:采用 HPatches 基准数据集,包含 108 个序列,每个序列有 5 个因视角或光照变化的图像对及对应的真实值。 评估指标:报告估计单应性变换后四个角点的平均重投影误差在不同阈值下的 AUC。 结果:提出的方法与所有基线方法相比,在匹配准确率上有显著提升,达到了与密集方法 DKM 相当的结果,凸显了基于两阶段单应性的细化模块在实现亚像素精度方面的优越性。
视觉定位
数据集:使用 Aachen Day - Night v1.1(具有显著光照变化的室外数据集)和 InLoc(具有视角变化和遮挡的室内数据集)。 评估指标:采用基于特征的框架 HLoc 评估多视图匹配在视觉定位中的准确性,报告查询图像定位误差低于指定角度和距离阈值的百分比。 结果:提出的方法与注重准确性的方法相比取得了有竞争力的结果,作为最有效的半密集方法,与其他方法相比,可将该框架的匹配阶段加速约 2 到 3 倍。
消融实验
目的:一是研究 ELoFTR 去除 DS 算子以加速推理时的性能表现;二是进一步验证 CasP 在 SN - 1500 上比 MD - 1500 有更显著的准确率提升所体现的跨域泛化能力。 数据集:选择 ETH3D[O] 和 ETH3D[I] 两个额外数据集,代表真实世界的室外和室内场景。 评估指标:使用标准 RANSAC 和 MAGSAC++ 作为估计器,记录不同方法的参数数量、GMACs、运行时间和内存使用情况。 结果 去除 DS 算子是一种折衷方案,会牺牲准确性,因为匹配阶段仅依赖描述符相似性而忽略全局置信度。 用级联匹配模块替换 ELoFTR 中的 DS 算子后,即使是精简模型也表现得与原全量模型相当或更好。 基于新颖的匹配管道,在方法中集成额外的高级模块进一步提高了准确性。 该管道在 MD - 1500 上需要更少的 GMACs,运行时间更快,内存使用更少。







7. 总结 & 未来工作
总结
本文提出了一种级联匹配管道 CasP,以解决现有半密集特征匹配方法在效率上的瓶颈。具体贡献如下:
提出新的匹配管道:利用级联对应先验指导匹配过程,将匹配阶段分解为两个渐进阶段,在粗尺度上建立一对多对应关系作为先验,再在目标尺度上确定一对一匹配,减少了计算量。 引入新的注意力机制:提出基于区域的选择性交叉注意力(RSCA)机制,增强先验候选特征之间的可区分性,提高匹配的可靠性。 提出新的半密集匹配方法:集成先进模块,提高了匹配的准确性和效率。作者提出了全量模型和轻量模型两个版本,轻量模型在分辨率为 1152 时,与 ELoFTR 和 LoFTR 相比,分别实现了约 2.2 倍和 3.2 倍的加速。大量实验表明,该方法在几何估计方面表现出色,具有显著的跨域泛化能力。
未来与展望
这些改进对于实际应用至关重要,特别是对于对延迟敏感和高鲁棒性要求的任务,如 SLAM 和无人机系统。
3D视觉硬件,官网:www.3dcver.com
3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
3D视觉全栈学习课程:www.3dcver.com
3D视觉交流群成立啦,微信:cv3d001

- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊