点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

图片

以下文章来源于知乎,计算机视觉life整理 

https://www.zhihu.com/question/601158699/answer/1928517284160316781

SLAM的最终形态应该是什么样的?

问题引入:SLAM的最终形态应该是什么样的?

当前的SLAM系统还存在很多问题,比如很多需要先建图,再实时定位。场景规模大了由于内存性能问题,很难建图。随着之后软硬件的发展,SLAM最终能否达到,一旦部署,终身运行,自己能够处理一些环境变化,信息的整合与鉴别。

回答一来自半闲居士

建图:输入传感器数据,输出一个地图。不断输入新的数据,就会不断输出新的地图。

这个过程叫“建图”还是叫“训练”,不重要。传感器数据就是很多的token,地图就是一张图。

地图也不必长的真的跟图一样,不必真的给人看,就是一堆数据或者一个模型。

定位:给定一个地图模型,输入传感器数据,输出该数据对应的pose。输入连续的数据,能输出连续的pose。

同样的,这个过程叫“定位”还是叫“推理”,也不重要。

中间计算过程也不重要,跑滤波器/图优化还是跑模型推理,都无所谓。

连续性是重要的。输入时间上相邻的数据,输出也得在空间上相邻。

这大概是比较本质意义上的slam。

现在传统方法的难点是:

传统方法原理没啥变化,都在搞corner case。搞不定的就真搞不定,没什么解法。

传统方法没法随数据增长有明显的性能提升。

新方法的问题是:

不够通用:性能跟数据分布相关,而传统方法几乎是无限通用的,跟数据无关。

性能不够:在千元级别硬件上,建图至少要到100ms/帧,定位至少要在20ms/帧,才有可能落地。目前训练至少达不到,推理过程兴许可以。

不好解bug:出了问题只能多加数据,不像传统方法通常能给出根本原因,知道怎么调。

大部分新方法都处在比较尴尬的情况:传统方法搞的定的,他可能百分之七八十搞的定。传统方法搞不定的,他可能也是百分之六七十搞的定。但下游的应用通常期望你在搞的定的场景下百分之百搞得定,搞不定的场景可以不卖。

当然这一切原因很可能就是,单纯的,数据不够多,模型不够大,端上性能不够强,然后slam也没怎么搞过几十T带真值pose的数据,花个几百万去训的。没这个动力。

未来主流肯定是数据驱动的方法。在滤波器人肉调那些噪声参数肯定比不上让GPU一口气帮你弄上几百万个数一块儿调(两者本质算是一回事)。

回答二来自forward

华为天才少年的往日峥嵘任历历在目,现在小米千万年薪招聘deepseek的95年ai萝莉的新闻更是冲上热搜。

 相关链接:

https://www.zhihu.com/question/55901895/answer/51544581939?utm_psn=1858846542540173312

该如何从0(绝对的零)开始学习SLAM?

  • 突破性的技术创新开始由当时的年轻人做出,技术迅速进步意味着过去的经验在快速贬值去魅。

  • 后浪推前浪的速度在加快,曾经霸榜舆论的技术和人在新的技术周期出现后声量渐失。

  • 可以预见,正有更年轻者摩拳擦掌,当红花旦不会永远红。就像流星一样,烟花易冷绚丽短暂却耀眼夺目难以忘怀。

  • 成功者是少数,幸存者偏差,能飞回来的只有翅膀中弹的飞机,更多的年轻人正顶着烈日送外卖。聚光灯下的他和烈日下的他,最开始没有什么不同。

站在从业多年的算法工程师如何看待这个问题呢?

 相关链接:

https://www.zhihu.com/question/666625418/answer/70000243116?utm_psn=1858846228835622913

选择slam会不会把路走窄了?

第一,悲观且乐观,天才万里挑一,总有年轻人,但人不总年轻。

第二,持续学习,如果无法做开拓者,那就紧紧跟随。

第三,思考技术和落地的关联,从只顾犁地的开荒猛牛进化为解决方案平台。

接着回到这个话题。随着新技术的产生,旧技术的稳定,变化悄然而生。对于SLAM技术本身而言,我感觉会有2点趋势:

与硬件集成,与感知合并

当一个事物成熟了,状态稳定了,不会修改了,提高效率降低成本的做法就是集成。举一个例子,当初那么贵,是因为它的每个零件都是独立的,制造一个LiDAR堪比作坊手搓私人定制。后来随着量铺开,越来越多的零件被集成到一起只提供特定功能,BOM清单越来越短,成本自然越来越低。

相关链接:

https://www.zhihu.com/question/269069887/answer/3618921890?utm_psn=1857547024167206912

能否推荐几个比较有研究价值的slam方向?

SLAM遗留问题是(高级语义)特征提取+匹配,一般需要采用深度学习的方式,站在组织和程序效率的角度看,这不应该由SLAM团队做,应该是感知做。既然感知已经做了从图片和LiDAR学习深层特征这个事情,那么SLAM特征对于他们而言只是多一个head或者分类的事情,对于SLAM团队而言则是重新造轮子。

相关链接:

https://www.zhihu.com/question/419264201/answer/3611060914?utm_psn=1857546679273795584

为什么目前落地的主流SLAM技术很少用神经网络进行特征提取?

而且SLAM提供的里程计是被部分感知任务需要的,SLAM和感知对数据的要求(同步标定配对)在同一个设备上又是一样的,因此往后会有更多的业务和组织重叠。

对SLAM从业人员而言,要么是技术路线变更实现华丽转身,技多不压身,多个备胎多条路,一碗水端平雨露均沾;要么是针对现有技术在不同产品上的开发和维持,不断打磨深耕,一条道走到黑,深情专一,做if之王。

相关链接:

https://www.zhihu.com/question/661361369/answer/3604463621?utm_psn=1857416502938066944

坚守SLAM还是拥抱大模型?
本文仅做学术分享,如有侵权,请联系删文。

3D视觉硬件,官网:www.3dcver.com

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

3D视觉全栈学习课程:www.3dcver.com

3D视觉交流群成立啦,微信:cv3d001

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!