具身目标导航是怎么找到目标并导航的?
- 2025-07-13 12:13:56
说到机器人导航,技术路线已经逐渐从早期传统的建图定位导航,到后期基于大模型方案的导航演变。而基于大模型方案的导航又分为视觉语言导航和目标导航!
如果说一句话说明这两个任务的区别,视觉语言导航是“"听懂指令走对路",目标导航是“"看懂世界自己找路"。
视觉语言导航是什么?
视觉语言导航本质上是个指令跟随的任务。任务囊括了三个方面,理解语⾔指令、感知周围环境,规划运动策略。一般来说,VLN机器人系统主要由视觉语言编码器,环境历史信息表征,以及动作策略三个模块构成。
机器人从环境中获取语⾔指令和每⼀步的视觉观测,首先需要同时视觉语⾔编码器从中压缩出有效信息。采用怎样的编码器,视觉和语言的表征是否应该投影到⼀个共同的表征空间,是否应该首先对语言指令在指令级别的拆分然后在压缩是其中的关键问题。这其中,采用在大规模数据集上预训练的视觉语⾔模型,利用LLM做指令拆解和任务拆分是目前主流且前沿的范式。

VLN机器⼈需要逐步获得视觉观测,执行动作,获得新的观测,以此循环,这天然是⼀个序列决策的任务。那么如何累积历史上获得的信息,判断当前执行到任务的哪个阶段,为下⼀步的动作决策给出充分的信息,就变得非常关键。隐式端到端方法将过去的信息表示成序列模型中的隐变量,环境表征和策略网络融为⼀体,共同学习。而显示端到端方法选择用诸如拓扑图,BEV语义地图,神经辐射场等模型对环境信息进⾏建模,进⽽在此基础学习策略网络。
策略网络的学习过去集中在如何从标注的数据集中提取模式,数据增⼴在其中起到了关键作用。如今,LLM拥有了强大的先验知识,如何从中蒸馏有效的规划信息,成为了近期研究的热点。
再来看看目标导航
VLN更进⼀步,是目标导航任务(Object Navigation),目标导航要求智能体在陌生的三维环境中,仅凭目标描述(如坐标、图片、自然语言)等,即可自主完成环境探索与路径规划。

与传统视觉语言导航(VLN)依赖显式指令不同,目标驱动导航系统需要实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁:当人类下达"去厨房拿可乐"的指令时,机器人需自主完成语义解析(识别厨房空间特征与可乐视觉属性)、环境建模(构建家居场景的空间拓扑)以及动态决策(避开移动的人类或宠物),这背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破。

商业落地与需求怎么样?
目标驱动导航技术已在多个垂直领域实现产业化落地。在终端配送场景中,该技术与社交导航算法结合,使机器人具备应对动态环境和人际交互的能力:美团无人配送车通过动态路径重规划在复杂城市环境中执行递送任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署。在医疗、酒店及餐饮场景,嘉楠科技、云迹科技、擎朗智能的商用服务机器人,以及美国Aethon公司的TUG系列,已实现药品、文件和餐食的自主配送,有效提升服务响应效率。
随着人形机器人发展,导航技术的适配性升级成为新焦点。宇树科技Unitree系列通过Habitat预训练完成基础导航任务,智元机器人在工业场景中集成目标驱动导航模块,特斯拉Optimus展示了"取放电池"等端到端操作能力。这些实践表明,搭载目标驱动导航系统的人形机器人正加速向家庭服务、护理及工业物流领域渗透。
具身的产业发展,带动了较多的岗位需求,特别是导航部分,被公认为具身最先落地的技术子领域。许多具身公司的在导航这一岗位开出了七位数的年薪。
知识琐碎,入门困难!
无论是VLN还是目标导航,涉及的知识点都很多,需要自然语言处理,计算机视觉,强化学习和图神经网络等方向的知识。对想要提升综合实力的同学,确实是一个一站式强化多领域知识的好机会。但是这样的学习路径往往非常非常痛苦。同时掌握好几个领域的知识已经足够困难,而各个领域的论文数量繁多,知识碎片化,入门者往往还没把各个领域的了解一圈,就已然放弃。
八八折优惠!扫码学习课程

具身智能之心联合业内知名具身导航专家联合开展了一套入门到进阶课程,包含VLN和目标导航两个大模块,特别关注:
直击痛点,快速入门 构建领域框架,提升研究能力 理论结合实践,学以致用
1)视觉语言导航
本课程专注于视觉语言导航部分,从VLN仿真环境、基准、隐式端到端VLN、显示端到端VLN、数据增强策略、实战、大作业检测等多个部分展开,从0到1为大家铺开。大纲如下:

学后你将收获:
对VLN技术框架、VLN的发展历史和未来前景有深刻认知; 理解如何将视觉、语言和行动结合,提升机器人导航系统的智能化水平; 掌握课程中的视觉预训练、图神经网络和强化学习的核心逻辑; 熟悉3D场景仿真环境接口,有创造力的学员可以尝试定义新任务; 了解VLN的代码框架,未来接触新工作时可以快速上手; 学后达到1年VLN从业经验;
试听如下:
2)目标导航
本课程从语义导航框架、Habitat仿真、端到端导航方法论、模块化导航架构、LLM/VLM驱动的导航系统、实战、大作业等多个方向展开阐述!学后能够掌握:
目标驱动导航技术框架,涵盖端到端强化学习、模块化语义地图构建及LLM/VLM集成方法; 具备Habitat仿真环境开发能力,可复现VLFM/PIRLNav等主流框架; 实现零样本导航、开放词汇识别等关键技术落地; 理解Sim2Real部署流程,增强算法向真实场景迁移能力; 能独立开展论文级算法改进与工程优化,匹配科研探索与工业应用需求;
大纲如下:

试听如下:
学习&咨询课程
八八折优惠!扫码学习课程



- 点赞 0
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊