编辑丨视觉语言导航

点击下方卡片,关注“具身智能之心”公众号
>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

资讯配图
  • 作者: Sonia Raychaudhuri,Angel X. Chang
  • 单位:加拿大西蒙弗雷泽大学
  • 论文标题:Semantic Mapping in Indoor Embodied AI – A Survey on Advances, Challenges, and Future Directions
  • 论文链接:https://arxiv.org/pdf/2501.05750

主要贡献

  • 全面综述:提供了室内导航中语义建图方法的全面回顾,涵盖了从传统方法到基于深度学习的最新进展。
  • 分类框架:提出了基于地图结构(如空间网格、拓扑图、密集几何图和混合图)和语义编码(显式特征与隐式特征)的分类框架,帮助研究者更好地理解和比较不同方法。
  • 挑战与方向:识别了当前语义建图领域面临的挑战,如高内存需求、计算效率低下,并提出了未来研究方向,包括开发开放词汇表、可查询、任务无关的地图表示。

介绍

研究背景

资讯配图
  • 智能体的需求:无论是物理机器人还是虚拟的具身系统,智能体都需要在复杂、非结构化的环境中运行。为了有意义地行动,智能体需要形成将感知与推理和决策联系起来的结构化内部表示。语义地图(Semantic Maps)就是这种表示的一种形式,它不仅编码空间几何信息,还编码环境的高级语义信息(如物体类别、功能等)。
  • 语义地图的重要性:语义地图在机器人学和具身智能(Embodied AI)中具有基础性作用,尤其是在开放世界环境中,如自动驾驶、搜索与救援、自动化清洁机器人等。传统地图技术侧重于几何精度以实现定位和避障,而近年来深度学习、计算机视觉和多模态感知的进步使得语义丰富的地图成为研究重点。
  • 现有综述的不足:现有的综述主要关注语义地图在下游应用中的使用情况,集中在任务进展上。相比之下,本文提供了一个全面的语义建图方法综述,专注于底层地图表示本身,而不是特定的下游任务。

本文的研究方法

  • 分类框架:为了系统地理解语义建图方法,本文基于两个基本维度对文献进行分类:地图结构(如拓扑图、空间网格、密集几何和混合表示)和语义编码(显式注释与学习到的隐式特征)。这种分类反映了影响地图可扩展性、可解释性、泛化能力、多模态融合和查询能力的核心设计选择。
  • 研究目标:通过这种分类方式,本文旨在统一不同的研究方向,突出不同表示之间的权衡,并提出语义建图的关键挑战和未来机遇。本文重点关注室内移动机器人的语义建图,这是一个研究环境定义明确、实践相关且技术丰富的领域。
资讯配图

任务背景

具身任务

具身任务涉及智能体(物理机器人或虚拟具身系统)通过其具身性(传感器、执行器等)感知和与环境交互。这些任务要求智能体不仅要理解世界(通过视觉、语言等),还要在其中采取有意义的行动(如导航或物体操作)。本节简要概述了机器人学和具身智能中探索的具身任务,强调了它们作为不断发展的研究方向的演变,这为语义建图的研究背景提供了支持,因为语义建图通常与这些具身任务一起研究。

机器人任务

  • 历史回顾:从Unimate(第一台工业操纵臂)和Shakey(第一台移动机器人)开始,现代机器人学经历了从简单的碰撞避免到复杂的感知、建图和操作能力的演变。
  • 关键进展:早期研究集中在碰撞避免、蒙特卡洛定位和SLAM框架上,使机器人能够在未知环境中定位和建图。随着传感器技术的发展,语义建图逐渐兴起,将物体识别和场景理解整合到空间地图中。
  • 当前趋势:包括不确定性感知规划、动态环境中的任务规划和自主驾驶。在自主驾驶中,基于鸟瞰图(BEV)的表示变得越来越流行,这些表示将多视图传感器输入转换为统一的顶视图地图,用于检测、规划和轨迹预测等任务。

具身智能任务

  • 兴起背景:具身智能在2017-2018年左右开始显著发展,得益于模拟环境(如AI2-THOR、Habitat)和基准测试(如Vision-and-Language Navigation, VLN;Embodied Question Answering, EQA)的可用性。
  • 研究重点:具身智能更侧重于学习型代理与模拟环境的交互,使用视觉、语言和动作,通常不依赖物理硬件。它位于计算机视觉、自然语言处理和强化学习的交叉点,而传统机器人学则侧重于控制、感知和与现实世界的物理交互。
  • 任务分类:具身任务可以根据智能体与环境的交互方式分为探索任务、导航任务和操作任务。这些任务可以根据提供给智能体的目标规范进一步细分,例如,导航任务中的目标可以是坐标、图像或物体类别。

SLAM

SLAM是机器人学中的一个核心概念,与语义建图密切相关,尤其是在语义SLAM领域。SLAM使机器人能够利用多种传感器(如摄像头、激光雷达、惯性测量单元等)感知环境,并同时定位自身和构建地图。

资讯配图

SLAM的基本原理

  • 数学描述:SLAM的目标是同时估计机器人的轨迹和环境的地图,使用噪声传感器数据和不完美的运动估计。机器人的运动由状态转移函数建模,而对环境地标(landmarks)的观测则通过测量方程建模。通过最小化观测值与预测值之间的残差,SLAM将估计问题表述为非线性最小二乘优化问题。
  • 图优化:在基于图的SLAM中,优化问题对应于优化一个因子图,其中节点代表机器人姿态,边代表空间约束。这种全局优化确保了估计的地图和轨迹与整个历史的噪声传感器数据尽可能一致。

SLAM技术

  • 前端和后端:SLAM系统通常由前端模块和后端模块组成。前端模块负责特征提取、数据关联和特征分类,而后端模块则负责姿态优化和地图估计。
  • 传感器类型:SLAM方法可以使用激光雷达(LiDAR)、摄像头(视觉SLAM或vSLAM)或RGB-D摄像头。视觉SLAM方法通常提取和匹配几何特征(点、线或平面),而RGB-D SLAM则同时收集彩色图像和深度图像。
  • 视觉-惯性SLAM:视觉-惯性SLAM(Visual-Inertial SLAM)通过添加惯性测量单元(IMU)传感器来减轻仅使用摄像头时图像模糊和光照不良的影响。

语义SLAM

  • 概念:语义SLAM在传统SLAM的基础上,通过将语义信息(如物体、房间、功能等)整合到空间几何地图中,丰富了地图的语义内容,从而弥合了感知和任务级推理之间的差距。
  • 技术进展:早期方法通过将图像特征与物体模型数据库匹配或在结构运动和SLAM优化过程中整合语义和几何线索来实现。随着深度学习的发展,语义SLAM在语义表示、实时性能和动态环境建模方面取得了显著进展。
  • 相互作用:语义SLAM不仅通过语义地图提高了SLAM系统中各个模块的性能,还通过SLAM施加的一致性约束改进了语义分割。

系统设计策略

设计具身代理系统时,需要在端到端学习和模块化管道之间做出基本的架构选择。理解这种区别对于将语义建图置于更广泛的系统设计中至关重要,因为它影响地图的构建、表示和使用方式。

资讯配图

端到端方法

  • 特点:端到端方法将原始感官输入直接映射到动作,使用单一神经网络进行训练。这些方法通常使用强化学习(RL)训练特定于任务的模型,直接从视觉观察中预测离散或连续的动作。
  • 优势与局限性:端到端方法简单易训练和部署,直接优化任务性能。然而,它们通常缺乏可解释性,难以泛化到新场景,并且组件重用困难。

模块化管道

  • 特点:模块化系统将复杂任务分解为可解释的组件,每个组件都有特定功能,可以独立于其他组件进行训练。模块化管道通常包括视觉编码器、映射器、探索模块和规划器等子模块。
  • 优势与局限性:模块化管道提供了更大的透明度、可重用性和灵活性,能够结合学习和经典方法,使其更适合复杂任务,如需要长期规划和语义推理的任务。然而,模块化方法可能面临错误传播和模块间次优集成的问题。

语义地图

什么是语义地图?

  • 定义:语义地图不仅包含环境的几何信息,还包含关于环境的高级语义信息(如物体类别、功能等)。这种地图能够帮助智能体更好地理解环境中的对象和地点,从而执行复杂的任务,例如导航到特定房间、重新排列物体或对特定对象执行操作。
  • 作用:语义地图是智能体在复杂环境中进行高级推理和决策的基础,使智能体能够像人类一样感知和导航环境。

地图的结构是什么?

  • 地图类型:语义地图可以有多种结构,包括空间网格地图、拓扑地图、密集几何地图和混合地图。
    • 空间网格地图:将环境划分为网格,每个网格单元存储语义信息,如物体类别、是否被探索等。
    • 拓扑地图:以节点和边的形式表示环境,节点代表重要地标或物体,边代表它们之间的关系。
    • 密集几何地图:使用点云、三角网格等表示环境的三维几何结构,并在每个点上存储语义信息。
    • 混合地图:结合上述两种或多种结构,以利用各自的优势。

地图中存储的编码是什么?

  • 编码类型:地图中存储的信息可以是显式的,也可以是隐式的。
    • 显式编码:存储具体语义信息,如物体类别、是否被占用、是否被探索等。
    • 隐式编码:存储从传感器数据中提取的特征,这些特征可以是预训练模型的输出,也可以是通过学习得到的表示。隐式编码可以是封闭词汇表(closed-vocabulary)或开放词汇表(open-vocabulary)。

地图是如何构建的?

资讯配图
  • 构建过程:构建语义地图需要将智能体在环境中的观察数据整合到地图结构中。这个过程包括以下步骤:

    • 定位(Localization):确定智能体在地图上的位置。
    • 特征提取(Feature Extraction):从观察数据中提取有用的语义信息。
    • 投影(Projection):将2D观察数据投影到3D地图中(对于空间网格地图)。
    • 聚合(Aggregation):将提取的特征或预测结果整合到地图中,可以使用简单的覆盖方法、数学运算(如最大值或平均值)或学习型神经网络。
  • 参考框架:地图构建可以选择以智能体为中心的参考框架(egocentric),也可以选择以世界为中心的参考框架(allocentric)。

  • 探索与更新:智能体在环境中移动时,需要决定是否已经访问过某个位置,以及是否需要更新地图。对于特定的具身任务,可能不需要构建完整的地图。

  • 在线与离线建图:智能体可以在探索环境后构建地图,然后在执行任务时使用该地图(离线方法);也可以在执行任务时实时构建或更新地图(在线方法)。

  • 现实世界中的建图:在现实世界中,地图构建需要考虑传感器噪声和执行器噪声。SLAM系统能够处理这些问题,通过闭环检测(loop closure)纠正累积的误差,构建更一致、准确的地图。

地图结构

资讯配图

空间网格地图

空间网格地图是一种将环境划分为网格单元的地图结构,每个网格单元存储特定的语义信息。

资讯配图

定义与特点

  • 结构:空间网格地图是一个三维矩阵 ,其中  和  表示地图的二维空间维度,而  表示用于存储语义信息的通道数。每个网格单元对应环境中的一个特定区域。
  • 应用场景:这种地图结构常用于室内导航任务,尤其是在模拟环境中,如 Matterport3D 和 Habitat-Matterport3D 数据集,这些数据集提供了高保真度的室内空间重建。
  • 优点
    • 密集信息:能够捕获环境中密集的信息,有助于智能体进行复杂的空间推理。
    • 直观性:二维顶视图(2D top-down)地图直观易懂,便于人类理解和使用。
  • 缺点
    • 内存消耗:需要初始化特定的宽度和高度,难以扩展到更大的环境,且占用大量内存。
    • 计算成本:处理和更新地图需要较高的计算资源。

构建方法

  • 投影方法:将二维图像特征投影到三维空间中,然后转换为二维顶视图网格。这通常依赖于深度信息和已知的相机参数。
    • 公式:使用相机的内参矩阵  和已知的相机姿态(旋转  和平移 ),将三维点  投影到二维网格坐标 
  • 聚合方法:当多个图像特征投影到同一个网格单元时,需要使用聚合函数来处理这些特征,例如取最大值、平均值或使用学习型网络。
  • 去噪方法:由于传感器噪声,空间网格地图可能包含噪声。一些方法使用学习型去噪网络,而其他方法则采用启发式方法来清理地图。

应用实例

  • CMP(Cognitive Mapper and Planner):使用预训练的 ResNet-50 模型提取图像特征,并将这些特征投影到地图上,用于点目标导航(PointNav)和物体目标导航(ObjectNav)任务。
  • MapNet:构建一个全局的、以世界为中心的地图,通过将图像特征投影到二维顶视图网格中,并使用 LSTM 网络进行特征聚合。
  • Semantic MapNet:通过编码图像特征,然后投影到地面平面,并在二维地图上进行分割,从而减少地图噪声。

拓扑地图

拓扑地图是一种基于图结构的地图,其中节点表示环境中的重要地标或物体,边表示节点之间的关系。

资讯配图

定义与特点

  • 结构:拓扑地图是一个图 ,其中  是节点集合, 是边集合。节点存储关于环境特定位置的语义信息,而边存储节点之间的空间关系。
  • 应用场景:拓扑地图在指令遵循任务中特别有用,因为它们可以有效地表示语言指令中的初始不确定性,并随着智能体的移动和观察而更新。
  • 优点
    • 内存效率:拓扑地图是轻量级的,易于扩展到更大的环境。
    • 可扩展性:通过简单地添加更多节点到图中,可以轻松扩展地图。
  • 缺点
    • 信息稀疏性:拓扑地图只捕获环境中的某些关键地标,缺乏密集的全局信息,可能会遗漏有助于智能体进行空间推理的视觉线索。

构建方法

  • 数据关联:在构建拓扑地图时,需要确定两个观察是否相似,以便决定它们是否映射到同一个节点。这通常通过比较 RGB 图像来实现,可以使用预训练的分类网络或基于学习的方法。
  • 在线构建:一些方法在智能体执行任务时在线构建拓扑地图,例如 NTS(Neural Topological SLAM),它通过更新图中的节点和边来逐步构建地图。
  • 节点和边的更新:当智能体定位到现有节点时,会添加一条边以表示节点之间的连接,并存储节点之间的相对位置信息。如果智能体无法定位到现有节点,则会添加一个新节点。

应用实例

  • NTS(Neural Topological SLAM):在线构建拓扑地图,用于视觉导航任务。它通过更新图中的节点和边来逐步构建地图,并使用预训练的 ResNet-18 模型提取图像特征。
  • LM-Nav:使用 CLIP 模型提取图像特征,并构建一个拓扑地图,用于指令遵循任务。
  • RoboHop:构建一个拓扑地图,用于语言查询任务,使用 CLIP 模型提取图像特征,并通过 Dijkstra 算法进行路径规划。

密集几何地图

密集几何地图是一种将语义信息直接存储在环境的三维几何结构上的地图。

资讯配图

点云地图

  • 定义与特点:点云地图通过将语义标签与每个三维点关联起来,形成一个密集的语义地图。这种表示方式简单易用,且与传感器数据直接对应。
  • 应用场景:点云地图在机器人学中广泛用于任务如建图、定位和导航,以及更广泛的三维场景理解任务。
  • 优点
    • 高保真度:能够捕获环境的详细几何信息。
    • 灵活性:可以轻松扩展到不同的任务和环境。
  • 缺点
    • 内存消耗:存储大量点云数据需要大量内存。
    • 计算成本:处理和更新点云地图需要较高的计算资源。

神经场

  • 定义与特点:神经场是一种连续函数,将空间坐标(有时还包括视图方向)映射到信号(如颜色、占用或语义特征)。与点云不同,神经场将整个三维场景编码为紧凑的连续函数。
  • 应用场景:神经场在机器人学和具身智能中用于构建连续的三维场景表示,支持几何和语义的联合表示。
  • 优点
    • 紧凑表示:能够以紧凑的形式表示复杂的三维场景。
    • 高保真度:能够生成高质量的三维重建和视图合成。
  • 缺点
    • 训练成本:训练神经场需要大量的计算资源。
    • 动态环境适应性:在动态环境中更新神经场是一个挑战。

混合地图

混合地图结合了上述两种或多种地图结构,以利用各自的优势。

定义与特点

  • 结构:混合地图可以结合空间网格地图、拓扑地图和密集几何地图,形成一个综合的地图表示。
  • 应用场景:混合地图在处理复杂任务时特别有用,因为它们可以同时提供环境的几何信息和语义信息。
  • 优点
    • 多功能性:结合了不同地图结构的优点,能够支持多种任务。
    • 灵活性:可以根据任务需求选择不同的地图结构。
  • 缺点
    • 复杂性:管理更新多个地图层增加了复杂性和计算成本。

应用实例

  • BEVBert:构建混合地图,用于语言引导的导航任务。它结合了空间网格地图和多模态表示,以提高空间推理能力。
  • StructNav:构建一个混合地图,其中空间网格存储占用信息,场景图存储地标及其连接,而三维语义点云存储每个三维点的语义标签。

地图编码

资讯配图

显式编码

显式编码是指地图中存储的信息具有明确的语义含义,例如物体类别、是否被占用、是否被探索等。

应用实例

  • 占用信息:许多早期工作(如 Elfes, 1989; Chaplot et al., 2019)使用显式编码来存储环境中的占用信息,帮助智能体进行障碍物避免。
  • 探索信息:在探索任务中,智能体需要知道哪些区域已经被探索过,以便更高效地探索未知区域。例如,Chaplot et al. (2019) 在其 Active Neural SLAM 方法中,除了存储占用信息外,还存储了探索信息。
  • 语义类别:在更复杂的任务中,如物体导航(ObjectNav),智能体需要识别环境中的物体类别。例如,Chaplot et al. (2020a) 的 SemExp 方法通过 Mask R-CNN 检测物体类别,并将这些类别信息投影到地图上。
  • 音频强度:在音频视觉导航任务中,存储音频强度信息对于导航到发出特定声音的物体非常有用(Chen et al., 2020b)。

优势与局限性

  • 优势
    • 可解释性:显式编码的信息易于理解和解释,因为它们直接反映了环境中的具体语义信息。
    • 任务适应性:可以根据具体任务需求选择存储的信息类型,例如在导航任务中存储占用信息,在物体识别任务中存储语义类别。
  • 局限性
    • 预定义类别:显式编码通常需要预定义一组类别,限制了地图对新类别的适应能力。
    • 存储效率:存储大量显式信息可能会导致地图占用较多内存,尤其是在高分辨率地图中。

隐式编码

隐式编码是指地图中存储的信息是通过学习得到的特征表示,而不是直接的语义信息。这些特征可以是视觉特征、语言特征或两者的组合。

封闭词汇表编码

  • 定义:封闭词汇表编码是指使用预训练的视觉模型(如 ResNet)提取图像特征,并将这些特征存储在地图中。这些特征通常对应于预定义的一组类别。
  • 应用实例
    • CMP(Cognitive Mapper and Planner):使用预训练的 ResNet-50 模型提取图像特征,并将这些特征投影到地图上,用于点目标导航(PointNav)和物体目标导航(ObjectNav)任务(Gupta et al., 2017)。
    • MapNet:使用预训练的 ResNet-50 模型提取图像特征,并构建一个全局的、以世界为中心的地图(Henriques & Vedaldi, 2018)。

开放词汇表编码

资讯配图
  • 定义:开放词汇表编码是指使用大型视觉语言模型(如 CLIP)提取特征,这些特征能够识别训练时未见过的物体类别。这种编码方式使得地图能够处理开放词汇表查询,即查询地图中是否存在某个未见过的物体。
  • 应用实例
    • CoW(Cows on Pasture):使用 CLIP 模型计算输入图像与自然语言描述之间的相似度分数,并将这些分数存储在地图中,用于零样本物体导航(Gadre et al., 2023)。
    • VLMap:使用 LSeg 模型提取像素级特征,并将这些特征投影到地图上,用于零样本物体导航(Huang et al., 2023a)。
    • ConceptGraphs:使用 CLIP 和 DINO 模型提取图像特征,并构建一个拓扑地图,用于物体定位、机器人导航和机器人操作任务(Gu et al., 2023b)。
资讯配图

优势与局限性

  • 优势
    • 灵活性:开放词汇表编码能够处理训练时未见过的物体类别,使得地图具有更强的泛化能力。
    • 查询能力:可以使用自然语言查询地图,获取与查询相关的语义信息。
  • 局限性
    • 计算成本:使用大型预训练模型进行特征提取和相似度计算需要较高的计算资源。
    • 存储效率:存储大量特征表示可能会导致地图占用较多内存。

总结

  • 显式编码:适用于需要明确语义信息的任务,如导航和物体识别。其优势在于可解释性和任务适应性,但受限于预定义类别和存储效率。
  • 隐式编码:适用于需要处理开放词汇表的任务,如零样本物体导航。其优势在于灵活性和查询能力,但受限于计算成本和存储效率。

评估

资讯配图

外在评估

外在评估主要通过评估智能体在下游任务中的表现来间接评估语义地图的质量。

导航任务

  • 成功率:衡量智能体是否正确完成目标任务的指标。例如,在导航任务中,智能体是否成功到达目标位置。
  • 路径长度加权成功率:不仅考虑成功率,还考虑路径效率,即智能体到达目标的路径是否最短。
  • 导航误差:衡量智能体最终位置与目标位置之间的距离。
  • Oracle成功率:考虑智能体是否到达目标但未正确发出“完成”信号的情况。
  • 进度:在多目标导航任务中,衡量智能体完成子目标的比例。

指令遵循任务

  • 归一化动态时间规整nDTW:衡量智能体的轨迹与参考路径之间的对齐程度。

分类与检测任务

  • 精确率(Precision):衡量预测正确的比例。
  • 召回率(Recall):衡量所有相关目标被找到的比例。
  • F1分数(F1 Score):结合精确率和召回率,平衡两者。
  • 接收者操作特征曲线(ROC Curve):衡量模型在不同阈值下的性能。

探索任务

  • 覆盖范围(Coverage):衡量智能体观察到的环境比例。

操作任务

  • 任务成功率:衡量智能体完成期望操作(如抓取、放置)的百分比。

内在评估

内在评估直接评估语义地图的质量,而不依赖于下游任务的表现。

准确性(Accuracy)

  • 定义:衡量地图在几何或语义信息上与真实环境的匹配程度。
  • 评估方法
    • 占用图匹配:比较构建的地图与真实地图的占用区域(Georgakis et al., 2022a)。
    • 交并比(IoU):衡量构建地图与真实地图之间的重叠程度。
    • 语义分割指标:使用像素级标注准确率、F1分数、IoU分数等评估语义地图的准确性(Cartillier et al., 2021)。
  • 挑战
    • 获取真实地图:在大多数情况下,获取真实地图是具有挑战性的,尤其是在大型、真实世界环境中。
    • 开放词汇表地图:对于存储开放词汇表特征的地图,评估其准确性更为复杂。

完整性(Completeness)

  • 定义:衡量地图在几何和语义层面上对环境的覆盖程度。
  • 评估方法
    • 几何覆盖:衡量智能体探索的环境比例(Chaplot et al., 2019)。
    • 语义覆盖:衡量地图中语义信息的完整性,需要详细的真实语义地图作为参考。
  • 挑战
    • 获取详细的真实语义地图:在大多数情况下,获取详细的语义地图是困难的,尤其是在动态或复杂的环境中。

一致性(Consistency)

  • 定义:衡量地图在几何和语义层面上与真实环境的一致性。
  • 评估方法
    • 几何一致性:使用绝对轨迹误差(ATE)和相对位姿误差(RPE)等指标评估地图的几何一致性。
    • 语义一致性:衡量地图中语义信息与真实环境的一致性,可以使用时间精度指标来评估语义信息随时间的变化。
  • 挑战
    • 动态环境:在动态环境中,地图的一致性评估更为复杂,因为环境中的物体可能会移动或改变。

鲁棒性(Robustness)

  • 定义:衡量地图在面对噪声、不确定性以及环境变化时的可靠性。
  • 评估方法
    • 噪声扰动下的ATE和RPE:评估地图在传感器噪声扰动下的鲁棒性。
    • 模型置信度:通过评估模型预测的置信度来衡量地图的鲁棒性。
    • 不确定性量化:使用联合熵、期望地图信息和不确定性感知映射等方法来量化地图的不确定性。
  • 挑战
    • 计算成本:这些评估方法通常计算成本较高,难以实时应用。
    • 动态环境适应性:在动态环境中,地图的鲁棒性评估需要考虑环境的变化。

总结

  • 外在评估:已经得到了广泛的研究和应用,但主要关注下游任务的表现,缺乏对地图本身的直接评估。
  • 内在评估:对于评估语义地图的质量至关重要,但目前缺乏标准化的评估框架和指标。获取真实地图、处理动态环境以及量化不确定性是当前面临的挑战。
  • 未来方向:开发标准化的内在评估框架和指标,以更全面地评估语义地图的质量,特别是在准确性、完整性、一致性和鲁棒性方面。这将有助于推动语义建图技术的发展,并使其更好地适应实际应用中的需求。

挑战

尽管在语义建图方面取得了显著进展,但仍有许多挑战需要解决。

效率

  • 问题:随着语义地图变得更加丰富,它们需要存储更多的数据,这给内存效率和紧凑存储带来了挑战,尤其是在硬件资源受限的机器人上。
  • 具体挑战
    • 空间网格地图:虽然能够捕获环境的密集信息,但内存密集且难以扩展到大型、高分辨率的环境。
    • 密集几何地图:提供高空间保真度和每个点的语义特征,但通常冗余且存储密集。
    • 拓扑地图:轻量级且可扩展,但缺乏精确的几何细节,这对于需要精确操作的任务(如物体操作)是必要的。
    • 混合地图:尝试平衡空间精度和效率,但管理两个层次会增加复杂性和计算负担。
  • 影响:实现高效存储和内存使用是语义建图中的一个开放且活跃的研究挑战。

可扩展性

  • 问题:随着语义建图系统被部署在更大、更动态、更多样化的环境中,可扩展性成为一个关键挑战。这涉及到系统在空间范围(如大型物理空间)、语义复杂性(如多样化物体类别和场景类型)和时间演变(如长期和终身操作)方面的适应能力。
  • 具体挑战
    • 高分辨率、全局一致的地图:需要大量的计算和内存资源,随着环境大小和丰富度的增加而迅速增长。
    • 动态环境:例如,家具重新排列或物体移动时,地图需要持续适应。
    • 核心操作:如闭环检测、重新定位和地图查询,随着地图的扩展而变得更加昂贵。
  • 影响:需要轻量级、可适应的语义建图方法,能够在复杂环境中扩展,同时在资源受限的硬件上保持高效。

实时处理

  • 问题:在需要快速决策的应用中(如自动驾驶和人机交互),实时语义建图至关重要。然而,构建具有语义和空间完整性的地图,同时保持足够的帧率以支持安全和响应行为,是非常具有挑战性的。
  • 具体挑战
    • 平衡语义丰富度和处理速度:在内存受限的硬件上,这尤其困难。
    • 模型压缩、边缘计算和高效数据表示:这些技术正在被探索,但在确保高保真语义理解的同时,满足严格的延迟要求仍然是一个主要障碍。
  • 影响:确保在实时应用中高效处理语义信息是当前研究的一个重要方向。

噪声和不确定性

  • 问题:在真实世界环境中,传感器噪声和环境动态变化使得语义建图面临噪声和不确定性的挑战。
  • 具体挑战
    • 传感器噪声:可能导致不准确的观测,而物体检测、分割或分类模型中的错误可能在地图中引入语义不一致性。
    • 动态环境:物体的移动或环境的变化可能导致地图中的语义信息随时间漂移或出现矛盾。
    • 不确定性建模和传播:通常没有明确地建模或传播,限制了系统对其预测置信度的推理能力。
  • 影响:在安全关键应用中,过度自信但不正确的地图条目可能会误导规划和决策。开发能够明确建模和管理不确定性的鲁棒语义地图是机器人学和具身智能中的一个关键开放问题。

多模态融合

  • 问题:最近的语义建图方法越来越依赖于融合多种感官输入(如视觉、深度、音频、自然语言等),以构建环境的丰富且可解释的表示。然而,多模态融合仍然是一个核心挑战,因为对齐和整合不同模态并非易事。
  • 具体挑战
    • 视觉输入:提供空间和外观线索,而自然语言和语音通常提供高级语义线索,这些线索可能模糊、间接或依赖于上下文。
    • 音频输入:提供有价值的环境上下文,但短暂且难以空间定位或持久编码。
    • 多模态基础模型:虽然能够对齐和跨模态推理,但它们并非专门为地图构建或长期记忆整合而训练,限制了它们在实时具身环境中的直接适用性。
  • 影响:开发能够支持可靠和灵活查询的高效多模态融合策略是一个开放的研究问题。

终身学习

  • 问题:在真实世界应用中,机器人需要在动态环境中长时间运行,而环境是不断变化的。因此,语义地图需要能够持续适应,更新过时的信息,整合新观测,并区分瞬态和持久的变化。
  • 具体挑战
    • 时间推理:需要区分短期变化(如人或移动物体)和长期变化(如家具重新排列)。
    • 防止灾难性遗忘:在学习新信息时,需要避免忘记旧信息。
    • 冲突数据解析:需要解决在不同时间或视角收集的数据之间的矛盾。
  • 影响:大多数当前系统尚未具备处理动态、开放世界环境的稳健机制。开发能够支持长期自主性的语义地图是实现真正智能代理的关键,这些代理不仅能够在世界中行动,还能随着世界的发展而成长和进化。

标准化评估框架

  • 问题:语义建图领域缺乏标准化的评估框架,这使得跨不同任务、环境和地图表示的性能基准测试变得困难。
  • 具体挑战
    • 任务特定的外在评估:虽然社区更关注下游任务的评估,但在评估地图质量方面进展有限。
    • 缺乏内在评估:缺乏标准化的内在评估指标,使得难以确定下游任务的成功是否源于更好的语义理解或其他因素(如更好的控制策略)。
  • 影响:开发通用的、可解释的、任务无关的评估指标至关重要,不仅有助于跟踪进展,还能促进跨领域泛化。随着开放词汇表、多模态可查询的通用语义地图变得越来越重要,创建一个反映结构和语义保真度的统一基准套件对于推进该领域的发展至关重要。

未来研究方向

尽管语义建图领域已经取得了显著进展,但仍有许多挑战需要解决。本节提出了未来研究的方向,旨在推动该领域的进一步发展。

通用地图

  • 目标:开发能够支持多种下游任务的通用语义地图,这些地图不仅能够捕获环境的几何信息,还能存储丰富的语义信息。
  • 关键需求
    • 开放词汇表:地图应能够处理训练时未见过的物体类别,通过自然语言描述来理解和整合新物体。
    • 任务无关:地图应能够支持多种任务,如导航、物体操作和场景理解,而无需针对每个任务重新配置。
  • 挑战
    • 预训练物体检测器的局限性:当前的开放词汇表物体检测器在检测小、薄或不常见的物体时表现不佳,限制了依赖它们的地图的质量。
    • 计算和内存需求:通用地图由于存储丰富的语义和几何数据而变得计算密集和内存密集,这使得实时更新和处理大面积区域变得困难。
  • 未来方向
    • 改进开放词汇表物体检测器:开发更强大的开放词汇表物体检测器,能够更准确地识别新物体,从而提高地图的质量。
    • 平衡地图细节与资源效率:研究如何在保持地图细节的同时,降低计算和内存需求,使地图能够在资源受限的硬件上高效运行。

密集且高效的地图

  • 目标:开发能够捕获环境中密集视觉线索的地图,同时保持高效的地图表示,以便在资源受限的环境中使用。
  • 需求
    • 密集语义信息:地图需要能够支持复杂的空间推理,例如“从我的桌子上的笔记本电脑旁边找到我的手机”。
    • 高效表示:地图需要在捕获密集语义信息的同时,保持低内存和计算成本。
  • 挑战
    • 空间网格地图的局限性:虽然能够捕获密集信息,但内存密集且难以扩展到大型、高分辨率的环境。
    • 密集几何地图的局限性:提供高空间保真度,但通常冗余且存储密集。
  • 未来方向
    • 开发新的地图结构:研究新的地图结构,能够在捕获密集语义信息的同时,忽略冗余的空闲空间信息。
    • 优化地图更新和查询:开发高效的算法,以快速更新和查询地图,从而支持实时应用。

动态地图

  • 目标:开发能够处理动态环境的地图,其中物体可能会移动或改变状态。
  • 需求
    • 实时更新:地图需要能够实时更新,以反映环境中的动态变化。
    • 轨迹预测:地图需要能够预测移动物体的未来轨迹,以支持智能体的导航和决策。
  • 挑战
    • 传感器融合:需要融合多种传感器数据(如激光雷达和摄像头)来检测和跟踪移动物体,这可能计算密集。
    • 动态数据表示:需要开发能够高效存储和表示动态数据的方法,同时保持内存和计算成本的可扩展性。
  • 未来方向
    • 开发高效的动态地图算法:研究能够实时处理动态环境的地图算法,以支持智能体的导航和决策。
    • 预测移动物体的轨迹:开发能够预测移动物体未来轨迹的方法,从而支持智能体的路径规划和避障。

混合地图结构

  • 目标:开发结合空间网格地图和拓扑地图优点的混合地图结构,以提供更全面和高效的环境表示。
  • 需求
    • 几何精度和语义关系:地图需要同时提供环境的几何精度和语义关系,以支持复杂的推理任务。
    • 资源效率:地图需要在保持几何精度和语义关系的同时,保持低内存和计算成本。
  • 挑战
    • 整合不同表示:需要开发能够有效整合空间网格地图和拓扑地图的方法,同时保持各自的质量。
    • 智能切换:需要开发能够智能决定何时在不同地图之间切换的算法。
  • 未来方向
    • 优化混合地图构建:研究如何优化混合地图的构建,以确保其在大规模、实时应用中的可扩展性。
    • 开发智能切换算法:开发能够根据任务需求和环境动态智能切换地图的算法。

制定评估指标

  • 目标:开发标准化的评估指标,以全面评估语义地图的质量,而不仅仅是其在特定任务中的表现。
  • 需求
    • 准确性、完整性和一致性:评估地图在几何和语义信息上的准确性、完整性和一致性。
    • 鲁棒性:评估地图在面对噪声和不确定性时的鲁棒性。
  • 挑战
    • 缺乏标准化指标:目前缺乏能够跨不同地图结构和编码方案一致应用的标准化评估指标。
    • 动态环境评估:在动态环境中评估地图的一致性和鲁棒性是一个开放问题。
  • 未来方向
    • 开发通用评估指标:研究能够跨不同地图结构和编码方案一致应用的通用评估指标。
    • 建立标准化评估框架:建立标准化的评估框架,以全面评估语义地图的质量,从而推动该领域的进一步发展。

结论

主要观点回顾

  • 语义建图的重要性:语义地图是智能体在复杂环境中进行高级推理和决策的基础。它们不仅捕获环境的几何信息,还包含高级语义信息,这对于执行复杂任务(如导航、物体操作和场景理解)至关重要。
  • 研究进展:近年来,语义建图领域取得了显著进展,特别是在深度学习、计算机视觉和多模态感知方面。这些技术使得语义地图能够更丰富地表示环境,支持更复杂的任务。
  • 当前挑战:尽管取得了一定的进展,但语义建图领域仍面临许多挑战,包括效率、可扩展性、实时处理、噪声和不确定性、多模态融合、终身学习以及缺乏标准化评估框架等。

未来研究方向

  • 通用地图:开发能够支持多种下游任务的通用语义地图,这些地图不仅能够捕获环境的几何信息,还能存储丰富的语义信息。通用地图需要具备开放词汇表能力,能够处理训练时未见过的物体类别。
  • 密集且高效的地图:开发能够捕获环境中密集视觉线索的地图,同时保持高效的地图表示,以便在资源受限的环境中使用。这种地图需要在捕获密集语义信息的同时,忽略冗余的空闲空间信息。
  • 动态地图:开发能够处理动态环境的地图,其中物体可能会移动或改变状态。动态地图需要能够实时更新,以反映环境中的动态变化,并支持智能体的导航和决策。
  • 混合地图结构:开发结合空间网格地图和拓扑地图优点的混合地图结构,以提供更全面和高效的环境表示。混合地图需要在保持几何精度和语义关系的同时,保持低内存和计算成本。
  • 标准化评估框架:开发标准化的评估指标,以全面评估语义地图的质量,而不仅仅是其在特定任务中的表现。标准化评估框架需要能够跨不同地图结构和编码方案一致应用。

总结

  • 语义建图的未来:语义建图领域正朝着开发更通用、更密集、更高效、更动态的地图表示方向发展。这些地图需要能够支持多种任务,并在复杂、动态的环境中保持高效和鲁棒。
  • 研究社区的作用:论文希望这篇综述能够为研究社区提供指导,激发更多关于语义建图技术的研究,特别是在解决当前挑战和推动未来研究方向方面。

资讯配图

本文只做学术分享,如有侵权,联系删文