【万字长文】独家圆桌对话:具身下一站,我们究竟需要怎样的本体?
- 2025-06-26 10:00:00

圆桌发起人:赵仲夏 格灵深瞳算法总监 北京大学和智源研究院访问学者(小红书id:夏染)
圆桌嘉宾:智元机器人遥操负责人 王文灏
圆桌嘉宾:清华大学自动化系副教授,灵御智能首席科学家 莫一林(知乎ID:莫一林)
圆桌主持人:知乎大V,沃尔沃哲晰软件(Zenseact)深度学习负责人 刘斯坦
圆桌主持人:具身智能之心 Gloria

关于这场“一拍即合”
圆桌的起源和嘉宾
具身智能之心 Gloria
本场圆桌起源于一个普通的周末清晨。本次发起人赵仲夏老师拉着我畅谈了半个小时的具身本体未定论,当时饥饿又不清醒的我听完后非常酣畅淋漓。
是啊,“入局”这么久,见过和摸过的本体很多,到底哪种构型才是具身从业者需要的呢?
于是我们一拍即合,当机立断:
这个主题,必须来一场圆桌!
于是三天后的晚上,我们定下了这桌有关具身本体构型的“好饭”!
本场圆桌畅谈不少深度的好东西,比如:
1. 嘉宾机械臂构型实践经验分享
2. 机器人需要什么样的机械臂
1)多少轴才能满足需求
2)实际工程应用中有何优劣式
3)不同自由度的机械臂选型是否会影响技术路线?
4)六轴和七轴臂的应用use case是否有区别,选择哪种机械臂是不是产品和成本出发的纯商业驱动,无关技术?
3. VLA,RL能不能弥补六轴构型的算法缺陷?
4. 夹具还是灵巧手
介绍环节
知乎大V,沃尔沃哲晰软件
(Zenseact)深度学习负责人 刘斯坦
嗨大家好,我是知乎刘斯坦,这次是跟Gloria一起来主持这一场圆桌论坛。
格灵深瞳算法总监
北京大学和智源研究院访问学者
赵仲夏
大家好,我是赵仲夏,是格灵深瞳机器人与具身方向负责人,也在北京大学和智源研究院做访问学者和技术顾问,格灵深瞳是第一家科创板上市的计算机视觉公司,然后过去十几年的话,格灵深瞳在AI方面有很多实践和落地的经验。2018-19年的时候,就当时我还没有来格灵深瞳,但是偶然的机会,我在公司的仓库里看有一个人形机器人的残骸。然后我就打听了一下,那个时候大家打算做一套绳控的人形机器人方案,并且还做了一个可以夹起来一个名片绳驱的灵巧手,然后自然现在它已经就是支离破碎了。格灵深瞳踩过了几乎所有的坑,大家能想到的这十年来所有的坑都踩过,所以对于具身智能和人形机器人这一波,格灵深瞳更多是一个跟随者与观察者的视角,所以我也就是从观察者的视角的话做了很多调研。

另外的话,我目前在北京大学就读,也在北京智源人工智能研究院做技术顾问,主要负责一些具身方面的研究,具身大模型,还有大小脑的一些设计和训练。在这个过程中又算是一个一线的从业者。所以我算是同时有两个视角,一个观察与跟随者视角,一个是从业者视角,然后给大家带来一些观点和分享。谢谢。
智元机器人遥操负责人 王文灏
Hello大家好,我是王文灏。我现在在智元机器人负责摇操作相关的方向。在这之前我在宾夕法尼亚大学grasp实验室,主要做的是shared autonomy相关的研究,就是研究怎么样把模型和遥操更好地做结合,提高人的操作效率。当时我们发现,如果完全靠人遥操 超越机器人的时候,很有乐趣,但也会非常累,因为你需要百分之百 全神贯注地操控一个和你不同的身体。所以我们想要把模型加进来,来逐渐减轻人的负担。我们同时也认为,我们会在这种辅助驾驶阶段停留很长一段时间。所以我现在的研究方向也大致是偏向于如何把遥操作和interactive limitation learning结合。比如我们最近的工作,精灵百夫长,让一个人遥操多台机器人采集数据:http://genie-centurion.github.io
清华大学副教授,
灵御智能首席科学家 莫一林
好,大家好,也感谢赵老师的邀请。最开始也是在知乎上看到赵老师的帖子,然后回复了一下,我们俩就讨论了起来。我这边其实一直是研究控制,可以认为是有控制或者自动化的背景。其实如果大家对控制比较了解,就会知道有很多人在知乎上吐槽:控制灌水太多,全都是数学。我们这边其实也是想改变一些现状,就是一个跟控制比较接近的方向就是机器人,这个里面其实有很多的应用。
然后我们大概也是从去年开始,就是在那个Aloha出来之后,我们觉得遥操作这个方向可能是一个很值得探索的方向,也是尝试了一些比如不同的构型,比如说最开始像Aloha这种的构型,就是斯坦福大学的那一套。后面我们现在觉得他们那一套构型,如果从遥操作的角度来说,可能会有一些比较别扭的地方。当然一会儿可以跟各位具体讨论一下。

MobileAloha,特点为6轴机械臂,正装。
我们现在在做一些新的构型的本体。我现在也在灵御智能做首席科学家,也是主要专注在这个机器人的遥操作方向。
大家都玩过什么臂?
知乎大V,沃尔沃哲晰软件
(Zenseact)深度学习负责人 刘斯坦
我们今天的话题主要就是和机械臂有关。我们经常讨论机器人有那么多的构型,比如双足,轮式,还有四足等等,各种各样的这种都有。但是今天我们根据赵老师和王老师建议,把话题集中在manipulation上面。
Manipulation就主要跟手臂有关。想问一下各位嘉宾老师,手这个东西现在有没有形成标准。比如对于足而言,轮式就是轮子,双足就是双足的locomotion,这没什么太多可谈的。但是手的话现在是五花八门,什么都有。就比如说四轴的、五轴的、六轴的、七轴的;然后有各种手型,比如夹具,比如灵巧手,各种各样的造型都有。显然整个业界还没有把手臂的构型完全定下来。
请各位嘉宾老师说一说,大家平时接触过哪些构型的手。在实际的工作经验中,各种构型的手你觉得有什么优劣势?工程应用上,落地方面有什么特点和难点?
格灵深瞳算法总监
北京大学和智源研究院访问学者
赵仲夏
OK !我们做操作任务话主要是指手臂。我这边的话其实接触手臂比较晚,大概是三年前接触的手臂。那时候我们做的是一个复合机器人,要做一个高铁的巡检任务。然后这时候手臂就是一个类似于UR那种协同臂,是一个偏紧凑型的一个构型。然后选了一些国产的替代,比如说越疆、节卡和遨博,那时候印象比较深刻的是一个叫法奥意威的。他们当时做了一款2万块钱售价的机械臂,说是要打穿这个地板价。后来接触具身之后,我们当时想的是那就做一个双臂的机器人,然后我们就拿越疆的协同臂去做。后来发现这些臂太重了,然后就开始接触一些轻量级的像睿尔曼。此外去年的时候出了很多款轻量级力控臂,比如方舟无限、星海图和松灵的一整套的Aloha的套件。我这边跟机械臂的相关的就基本就是这些。构型的话其实不仅不同的轴数,同轴数的不同的机械臂它们的构型也不完全一致,在实际体验中也都不完全一样,可以一会儿再跟大家分享一下。
智元机器人遥操负责人 王文灏
在实验室的时候大家应该比较接近都是用协作臂。比如说franka、kuka,他俩构型是完全一样的,然后还有UR。那个时候感觉很明显,协作臂构型设计是为了对着桌面操作的。所以当你在操作一些空间任务,比如横着把一个瓶子从桌子上拿起来的时候,操作会比较痛苦,很容易关节超限。后来我们接触了比较多的人形机器人的构型,比如说傅立叶的或者宇树机器人的,工作了用我们自己搭的机器人。这方面的经验我们在后面的话题里面慢慢说。
清华大学副教授,
灵御智能首席科学家 莫一林
我其实算入行更晚了,可以说是去年才开始摸一些机械臂。其实六轴的接触的比较多,比如像方舟无限,松灵的我们可能会用的更多一点。松灵的机械臂,六轴,它是一个肩部是两个自由度,然后肘部一个自由度,然后三个腕部自由度这种构型。

松灵PiPER机械臂,特点:肩部2自由度,肘部1自由度,腕部3自由度,且3轴交于一点。奇异点:J5伸直,46电机共轴时;腕点过J1轴线时;J3关节导致腕点最远离/靠近肩点时。
后来我们就转向七轴的这种机械臂。我们开始用的是也是一个协作臂,它是一个类似Franka Panda的这种构型,就是肩部是从两个自由度升级到三个自由度。这样的话它灵活性会好一点。但是它腕部的三个自由度是有一些问题,就是腕部的三个轴不交于一点。

Franka Emika Panda,特点:肩部3自由度,肘部1自由
度,腕部3自由度(3轴垂直但不交于一点)
然后就是现在是我们正在做的事一个比较标准叫SRS构型,就是肩是3自由度的一个相当于球状关节。然后肘是1自由度,然后腕部也是3自由度球状关节。
纷繁复杂的“臂”,
六自由度好还是七自由度好
知乎大V,沃尔沃哲晰软件
(Zenseact)深度学习负责人 刘斯坦
嘉宾们都接触过这么多的不同的机械臂,我们就对其中比较细节的内容深入讨论一下,先说自由度吧?也就是轴的数目。赵老师我想问您,就是您说您接触过四五六轴,但据我所知人是七自由度的对吧?
格灵深瞳算法总监
北京大学和智源研究院访问学者
赵仲夏
所以我想着其实人,有可能是九自由度。
如果你要做抖肩的话,其实胸锁这边还有两个自由度。对,如果这个在人形里面搞表演艺术的话,没准会用到。但是我们实际干活的话,大概率用不到这两个自由度。
知乎大V,沃尔沃哲晰软件
(Zenseact)深度学习负责人 刘斯坦
那咱们就先不讨论跳舞之类的东西,虽然说现在的机器人大部分都是拿来跳舞(手动狗头一下),但这个咱们先不提。毕竟跳舞摔跤之类的事情,在日常生活中可能并不是那么有必要。我想问,既然七自由度就可以完成大部分的事情,那我们干嘛不直接大家一起都肝七自由度不就完了吗?还搞什么四五六轴?各位老师怎么看待这个问题?
格灵深瞳算法总监
北京大学和智源研究院访问学者
赵仲夏
有关自由度的话,因为这块儿莫老师是专家,然后我这边就大概讲一下。我觉得六自由度是到达所有工作空间最少的自由度。所以说为了完成到达所有的工作空间,六自由度是必须的。在这个基础上的话,六自由度也会遇到一些问题。比如说你遇到一些奇点,就是你六个轴在设计的时候有可能两个轴,然后会有一个在某些点会有一些共轴的情况。为了解决奇点问题,再之后是遇到一些不可达点的一些情况,然后才引入了七轴。因为七轴的话可以更好的解决几点的问题。再之后是在一些特殊的情况,我们要以一个比较平滑的轨迹做一些避障的时候,七自由度其实要比自由六自由度好很多。
然后说回到四自由度和五自由度,我觉得它其实是要比协同臂更早的一个阶段。我看到四自由度其实是一个这样的自由度:就是我挥挥出去,然后像一个剪刀一样完成一个抓取也好,完成一个定点的操作也好,它应该丧失了末端的一个灵巧性,然后五自由度的话,我不知道那算不算五自由度,应该是有一个并联的特殊的一个构型。是为了完成比较快速的抓取的一个情况。所以四自由度、五自由度有点像是在一个受限的任务上去工作。而六自由度是完成一个通用的一个最小解,就完一个通用任务的最小解。七自由度是在六自由度基础上,再做了一个升维。为了让它更灵巧,为了让它更更好的完成一些任务,针对六自由度天然天然的一些问题做了一个修正。再之后是七自由度是可以做成完全拟人型的,就是这种刚刚莫老师讲的SRS这样一个构型,这个是我的一个看法。


SCARA构型-四轴机械臂和 DELTA构型-五轴机械臂
智元机器人遥操负责人 王文灏
对我而言,自由度是否够和机械臂的设计其实有非常大的关系。它能做什么不仅仅取决于它的自由度是多还是少,也取决于它具体怎么设计。我们市面上目前见到的六自由度的机械臂,其实有两个大类。
1. 第一个大类是像UR臂那样,当时是为协作臂设计的,这样的机械臂在设计的时候,最大的考量是你想要达到空间的一个pose,那六自由度是必须的,它是一个最小的自由度。对于同一个pose六自由度的机械臂一般是有有限个解的。为了解决这个问题,后来的人们就在协作臂上迭代出了7自由度。
2. 另外一种就是近期比较火的Aloha。它当时为什么选六自由度我不太了解。我更多的感觉原因可能是为了它适配后面的一个主臂的构型而选择的一个在桌面任务上操作起来比较灵巧,又比较好适配臂控臂的构型。这种构型对于很多的操作桌面任务来说够用。
我个人会比较倾向于七自由度,原因主要是以下几个:
第一个原因是当我们关注解可不可达的时候,我们还应该关注它的解是不是连续的,指的是我希望它的末端连续运动的时候,它的解在关节空间内是不是连续。它和遥操很有关系。如果你的解是不连续的,那么很有可能你控制它的末端动一点点,它的后面的几个关节需要转很大一圈来满足末端的动一点点。这样对于遥操来说是不够丝滑流畅的。所以这是我觉得7自由度好的地方,它能够更多的保证解空间连续。
第二个点就是因为 人是七自由度的,和人保持一致。如果我完全不知道任何机器人有关的知识,那么六自由度还是七自由度我们不好选。但是我们可以确定的是,如果你做出来的臂和人完全一样,那么机器人可以确保的硬件上是没有问题的,因为你可以做人能做的所有事情,所以这是一种稳妥的选择。和人保持一样,它是一个被已经大自然或者自然选择验证过的,是一件可以行得通的事情。
补充一点,仿人构型还有一个好处是它会有更多的数据。最近有很多人的灵巧操作的数据集。比如说苹果刚刚发的,它就是直接从视频中或者从视频中处理来学习。就把我们youtube上的大量的视频直接提取人的关键角度,然后一个policy直接部署上去。对于和人构型越接近的机械臂来说,这样的policy的部署的sim to real或者retarget难度是最低的。所以我会觉得未来的机械臂都会收敛到七自由度仿人型。
清华大学副教授,
灵御智能首席科学家 莫一林
我觉得我可能先补充一下前面的那个两位老师。首先我们其实主要是刚才说六轴,六轴是能够满足末端位姿的要求的。位置其实是两个部分,一个是位置,一个是姿态。这样是相当于一个末端要六个约束,那反正就解六个方程,就需要六个自变量,大家把这个解出来,所以这个就带出来六自由度。
然后我比较同意刚才王老师说的这个观点,也是我们现在在做的。我们认为你目的是在工厂里面去做一个事情,那我觉得很多时候可能六轴是OK的,甚至很多像这种SCARA机械臂(四轴臂)也是OK的。但是如果我们的目的是希望这个机器人是能够像人、类人的机器人,这个机器人应该能够完成人能做的事儿。那我觉得四轴、六轴是不够的。
在我看来,具身智能里面,遥操作目前来看是一个没有办法去避免去谈的一个问题。而且我们刚也跟王老师观点一样,我们觉得这个具身智能很长时间会停留在一个L2(对标自动驾驶)的阶段,也就是说一个人机共驾的阶段,那么我们的问题就变成什么样的机械臂是更适合人来做遥操作的。在这个情况下,我觉得就是几个必须要解决问题。
首先就是机械臂的工作空间必须要跟人工作空间一样。也就是说人认为能够够到的东西,那个机器人也一定要能达到,否则的话我的学习成本就很高,需要去掌握这个东西本来我手能够,但是机械臂因为各种诡异的形状,结果够不到的情况。
在此之上,甚至我们可能还希望一件事情,就是如果我们真的工作在一个很狭小的空间的场景。因为我们刚才谈的是位姿,他只是关注末端,就是手的位置。但是要手的位置定的情况下,你的胳膊还是有一些额外自由度的。比如说我们在一个很狭小空间我们操作,我们可能会把肘收回来,对吧?虽然我这个手在这个地方,但是我的肘会收回来,这样我就不会碰到东西。
所以我觉得除了末端的工作空间和人类似,其实我们另外一个希望的是他整个胳膊的姿态都能尽量跟人是一致的。因为这样的话,人脑子当中的一些避障的东西,可能就可以直接的就不需要再去训练去使用。
最后还有一点我觉得比较细节,就是我们在使用很多六轴机械臂的时候,我们的感觉是它整体的遮挡是很严重的。就对人来说,一个是你有触觉,所以遮挡可能没有那么的关键。另外很多时候你拿东西,我们的手会避开这个把眼睛挡住这个情况。比如说拿瓶水,其实你还是能看到那瓶水的。但是我们在用很多六轴的时候,因为它那个末端位姿的工作空间可能有一些问题,还有一点就是他那个夹爪会比人手要大或者粗,他就把那个东西挡住了,然后我就啥都看不见,这个就很崩溃。
所以我整体觉得就是说如果从一个遥操作的角度,就是让人能够很容易的去控制这个机械臂的角度来讲,我觉得这个答案肯定是一个七轴。
格灵深瞳算法总监
北京大学和智源研究院访问学者
赵仲夏
我这边提供一个另外的观点,我这边当前是这样的感受。我从模仿学习,包含大模型角度去看,我觉得可能更需要一个相对简单的构型,就是六轴,我这边其实相对比较站六轴的。这个观点是出于我自己的一个背景,因为我本身逆解解得不好。从我的观察而言的话,我觉得七轴的就是大家玩的都不是很明白,所以从那个具身的角度看,我会觉得中间可能会有一个中间态。这个中间态可能是一个六轴的形态,而这个六轴的形态只是为了简洁。
简洁有什么好处呢?我真机采的数据一致性会比较好,就当我的轴比较少的时候,然后不同的人采同一段数据,它的一致性会更好一点。而这个一致性的数据的话更方便让模型收敛。所以从这个角度看的话,我觉得对于从算法出身的搞具身的人而言的话,他们更向于选六轴、就从我角度看的话,我对七轴还是比较尊重的。因为我感觉六轴都没有玩明白,我上七轴的时候我感觉还是有点压力。
智元机器人遥操负责人 王文灏
我想给莫老师补充一点,我有一个结论——人在经历了十几年、二十几年对自己手臂的控制之后,他的神经网络里面会有一个对自己手臂类似构型的机械臂的控制的先验。你已经有了一个神经网络去控制像人手一样的机械臂了,那你映射到类人构型的机械臂上会更好用一些。
清华大学副教授,
灵御智能首席科学家 莫一林
对我觉得您说这个东西其实是一个很核心的问题。像现在具身智能很多人在做大脑和小脑,但是我觉得至少在遥操这个阶段,因为我们机器人的大脑和小脑可以说可能还有很长路要走。我们可能希望尽量借助人本身的训练的大脑和小脑。
我其实有一个很有意思的观察。就是人其实很擅长,比如说拿着一个筷子,或者我拿着一个乒乓球拍,或者拿一个网球拍、羽毛球拍,我都能够到我想要够到的东西。这件事情从机械臂的角度上来说,就是我的这个末端固然延长了很多。甚至比如说我拿着一个拍,这个末端跟我手的方向也是不一样。但是这样我都能很轻易的碰到,所以就是人脑子当中的这个神经网络,同样的还帮助解算了一下这个末端的这个位置。在日常生活中,你可能没觉得有什么。比如说你拿手指头去点一个东西,可以拿筷子去点一个东西,你都能碰到。但我觉得这件事情其实从机械臂的角度,我感觉这件事情还是挺神奇的。
智元机器人遥操负责人 王文灏
再补充一点,就是人的这个policy它不仅仅是运动学的有一个先验,它的动力学也有先验。
举个例子,就是你打拳击的时候,首先你的手首先要在一个非常灵巧的空间,你的手是弯折的,它不在奇异点。然后你打出去的时候,在即将到达你的奇异空间的时候,你这个时候是会把力收一下的。所以说我们人类的policy有对dynamics非常好的建模。
知乎大V,沃尔沃哲晰软件
(Zenseact)深度学习负责人 刘斯坦
就这个问题我也想问几位老师,我们说六轴这个构型,它有各种奇点,求逆解不方便,还有就是会有遮挡,然后可能解的空间不平滑等等,有各种各样的问题。那么我想问了,有没有办法,比如说把六轴的这个轴的排布方式可以设计一下,可能提高解的平滑度或者减少奇点出现的可能性。
其次能不能引入神经网络做一些prediction,就是说进行预测。比如可以直接预测轨迹?比如有没有可能直接通过学习的方法预测奇点?是不是六轴会产生各种各样的这种算法。这些问题背后,是六轴本身构型的问题,还是说只是数学的问题,抑或是说六轴本身机械方面存在这些问题?
格灵深瞳算法总监
北京大学和智源研究院访问学者
赵仲夏
我的感受就是其实大家喜欢用自己擅长的领域解决问题。做硬件的人会想着用硬件解决,然后做算法人用算法去解。其实这个问题的话,硬要解的话,算法和硬件都有解。然后我们看到之前有人给我分享过,他们用一些更好的逆解的方式,然后规避了一些七轴和六轴都会出现的一些通用问题。
智元机器人遥操负责人 王文灏
六轴有什么问题,主要取决于你是做什么任务。如果你只是做桌面任务,像Aloha那样构型的。大概率是够用的。如果你要做其他的比较刁钻的任务,那他在某个特定的任务上,轨迹在机械上到达不了,是常见的。在算法上比较主流的两种方式,一种是在关节空间,一种是在末端空间。如果在末端的空间做,就需要用IK去解,可能会碰到一些问题。如果所有采的数据全部是在关节空间,训练的policy也是在关节空间,那就不存在这个问题了。
我会觉得,像Aloha这种,pi0这种,还是像人形这种,它是两条在"科技树"上的两个分支,并且这两个分支有一定的竞争关系,对数据的竞争,对本体的竞争。如果哪一个分支上跑出来一个效果更好的成果,那么他就会变得更火,然后大家会往这里面投硬件、投人、投数据,这个分支就会越来越繁荣。最后另外一个分支很有可能会因此消亡,当然也有可能会过20年后他重新崛起,像强化学习和MPC对吧。
短期来说,像pi0那样的构型可能会领先一段时间。但是如果我们想实现AGI的话,想实现像让机器人去探索火星的话,我仍然相信是人型(上半身)最好,(下半身不一定)。顺便打个广告,如果IK解的不好,可以看一下我们之前的工作。(https://humanoid-manipulation.github.io)
知乎大V,沃尔沃哲晰软件
(Zenseact)深度学习负责人 刘斯坦
所以是这样的,一个是极简构型,一个是仿人构型,这是大家的点。极简就是我可以拿到更多一致性的数据,而仿人是我可以利用更多的人类数据。这是两个支撑点。
机械臂有哪些问题?
我们需要怎样的机械臂?
具身智能之心 Gloria
就刚才说到了一些很极端的场景,是不是可以理解为像自动驾驶领域那种corner case。然后我很想知道这种极端的这种任务场景会是什么样子。
智元机器人遥操负责人 王文灏
举个例子,你需要把你的手机转360度以上,对人来说就是一个非常极端的场景。
清华大学副教授,
灵御智能首席科学家 莫一林
我们感觉就是我们在遥操的情况下,极端场景这其实跟构型有关系,比如有很多构型会频繁出现在奇异点附近反复的反复横跳的情况。另外遥操的场景与传统机械臂还有一些不同,传统的机械臂是让走一条已经预先规定好的轨迹(当然这个中间还有很多避障防碰的东西),因为轨迹是预先示教好的,所以它不需要去考虑太多我说的问题,比如说解出问题了会怎么样,因为如果出现问题,手工就可以把它修复了。但是我们现在比如说我们要做这个摇操作的话,因为是需要实时的映射人的,而人做的动作是各式各样的,像我们现在可能大概应该做到1秒钟以100hz的这种频率去求逆解,那比如说你有1%的情况下求解出问题,那就是你每秒都会出一次问题,这个其实很多时候也不是能够接受的。事实上七轴机械臂的求解在大量情况下也是通过加一个冗余的自由度,把它转化成六轴去求解的。这个冗余自由度可能是某一个关节的角度,七轴我就单独规定一个关节的角度(比如说臂角),然后按剩下六轴去求解。
其实六轴机械臂如果设计比较好的话,我的感觉是可以避免大量奇异点出现的。这个其实是跟构型有关系的。举一个最简单例子,就是在肘部的构在腕部,因为腕部实际上是一个对人来说手腕实际上是一个非常灵活的一个地方。在腕部的话大致上来说,现在看到其实之前知乎上看到有一个吴老师,(https://zhuanlan.zhihu.com/p/1891810651699118977)他写了一个人形机器人腕部的拆解,就是各种各样不同的腕部构型。其实比如说让大家看那个有的构型,它就是所谓的叫做,就类似于这个叫他们应该叫Roll-Pitch-Roll。Roll的两个电机一般是四和六电机,然后这种构型实际上就是说当五电机打直的情况下,然后你会发现四和六电机就共轴了,然后就会产生非常严重的这个问题。而且你经常就会在在这个点,因为你手伸直是一个很常见的一个动作,然后你就开始在这个上面蹦迪。还有刚才那个赵老师推荐的那个紧凑型机械臂,它采用的腕部结构实际上是一个Roll-Pitch-Yaw的一个构型。也就是说它三个轴是垂直的,但是这种构型也有一些难度的,因为一般来说就是你需要一些额外结构,你才能保证它垂直。但是这样垂直的好处就是说除非你的第五轴是正90度和-90度,它才会出现奇点,否则的话它是不会有这个奇点的。

Roll-Pitch-Roll构型与Roll-Pitch-Yaw构型
人的腕不是电机,它是类似于是一堆肌肉驱动的。其实现在也有另外一套思路,就是他们做的那个叫臂手一体,就是他在灵巧手上集成一些腕部的自由,比如说像特斯拉,他们那个好像他腕部可能有两个自由度在手上,包括最近像那个ETH刚刚开源灵巧手,也有腕部的自由度。
所以其实是可以通过一些构型的选择来规避这些可能出现的问题。我觉得这个其实反而是一个更好的选择。就是说如果我能够通过结构的设计来规避一些数学上困难,因为我的背景是控制的,所以我们可能更喜欢搞一些这种很很很困难的很困难的东西。但是我觉得现实就是能走捷径就尽可能还是走捷径。
格灵深瞳算法总监
北京大学和智源研究院访问学者
赵仲夏
我之前玩机器人遇到了很多问题,刚好刚刚各位老师都讲到了,然后我也来分享一下
首先就是太笨重,有的时候会遇到机械臂头部相机里会挡住自己的末端,我们在做这个腕部相机的时候,发现有的特殊的情况,这个夹爪也会把腕状的相机挡到。
第二个是我觉得也是一个比较好玩的问题。就是协同臂其实那个时候考虑到离人很近,所以他对安全系数要求的时候会比较高。然后有一些操作或者和一些外界的环境产生交互,就会产生一些硬件方面的急停,然后解除急停就比较有复杂。
第三个就是我们刚刚聊到的那个构型问题,有的构型奇点过多。还有我不知道是因为逆解的原因,还是因为供应链选型的原因,导致它响应速度和执行速度会非常慢,不够跟手。另外就是一些Roll-Pitch-Roll构型的臂我们遥操的时候需要两只手扶着一个才能完成一些特殊动作。他不能像人的腕部一样去完全灵活的控制另一个腕部。
所以就是从这个角度去看的话,我有一个同事推出一个好玩的结论,机械臂的发展从工业臂到协同臂再到具身臂,三种场景的需求是完全不一致的。工业臂需要更大的力量、速度和末端精度,但是工作空间不需要很大,也不需要很灵活。协作臂其实会要求更灵巧一点,然后要求更安全,但是对力量的要求会很低。到了具身的臂的设计时,需要的就是更大的工作空间,更灵巧的末端位置,更大的力量,但是对末端精度的要求会放宽,然后还有就是更快的响应速度以及更舒服的可操作性。所以我过去的调研到最后就是在聊具身对机械臂设计的要求,然后我发现符合我要求的机械臂还没有。这是让我觉一个觉得非常惊悚的一件事情。
清华大学副教授,
灵御智能首席科学家 莫一林
我觉得如果说要求更大的力量,其实我不是特别确定。就像我们买的这些机械臂,基本上末端负载是在两到三公斤左右。但实际上这两到三公斤是它胳膊伸直的状况下可以拿住两公斤的东西,可以一直维持在那个地方。我觉得未经锻炼的人类是做不到这件事情,可能就是对于常见的人类的这些东西来说,可能两到三公斤,甚至最多可能四到五公斤可能就OK了。当然要干一些就是不是人做的工作,那可能的确需要更大的对,但是这个其实也涉及到一个很复杂的事情。就是因为前面其实我们讲的更多的是一个运动的问题,就是能不能到一个地方,你这个东西就涉及到一个复杂动力学的问题的。因为人的肌肉的发力的方式和这个机械臂也不一样。那就可能是比如说机械臂在某个方向劲儿比较大,然后人在某个方向力量会更大一点。
格灵深瞳算法总监
北京大学和智源研究院访问学者
赵仲夏
我的感受是其实最终可能机器人应该还是会分成类似于max、mini或者Pro这种形式。因为人也会分那个男人女人有对有做精细活的,然后也有做力量活的。所以从这个角度看的话,我觉得机器人设计除了要求力量之外,它还要求长宽高,以及机器人压下去后能够允许一个最大高度。就是每个工作场景里面,或者每一类工作场景里面,可能都会衍生出一来也衍生出一类机器人的这种参数。然后人类为了匹配这些参数的话,可能会创造几种形态,有点像是苹果手机那种分类一样。所以从这个角度看的话,机器人的设计可能还是得回归到我想解决什么样的场景的绝大部分的任务这种事情上。
智元机器人遥操负责人 王文灏
有战士型英雄,也有ADC。
清华大学副教授,
灵御智能首席科学家 莫一林
其实我可以再补充一点,就是你这个地方我们觉得也是很重要一点。比如说我们是以遥操或者说至少是有视觉反馈的情况下,我们去做机械臂的和具身智能,其实他对末端的这个定位精度的要求是变低了的。一般来说,常见的这些工业机械臂,它的这个末端精度其实是指的是从控制角来说,更像是一个开关的精度。就是我我闭着眼睛,然后我一伸手我就能摸到那个东西,它是这样一个感觉。但是实际上我睁着眼睛的话,我因为有这个视觉,其实我最后精度更多的是取决于我视觉系统的这个精度。
然后实际上在这一点上,我们的感觉是对整个机械臂的可能再说细一点,就是对整个机械臂的驱动器的选择是很有讲究的。因为我们实际上看到传统的协作机械臂,它大量应用的是谐波减速器。一般的减速器它是一个齿轮结构,齿轮结构就是会有一个所谓叫背隙的东西,也就是说这个齿轮两个尺之间,它不可能是百分之百紧紧地咬合的,它总有一些空隙。那么这个齿轮正着转和反着转,它就会有一段死区。这样的一个动让大家打那个,比如你在车上打方向盘,其实他经常也会有一些死区。
但是如果你要求这个东西的定位精度非常高,比如说协作臂一般能做到0.0几毫米定位精度。这个死区可能就是一个不可接受的事情,在这种情况下就需要用谐波减速器。谐波减速器也有一些问题,至少我们用到的谐波减速器一般是一个大减速比的(比如说一个1比100的)。这个核心带来的问题四它可能很难单纯靠这个电机的本体去做这个力控,因为这个减速比实在太大了,导致它这个力传到电机上的这个力,其实已经是不太对。
所以在放宽了末端精度的要求以后,现在比如说你看像方舟无限,比如星海图或者是松灵,他们的机械臂更多的是使用这种行星减速器机。也就是其实是类似于比如像现在很popular的一些,比如像宇树的机器人机器狗,也是使用了行星减速器。然后这种方案的好处就是它对于力量是比较透明的,你感受到这个力就比较准,然后它的响应速度也会很快,因为它的减速比比较低。但是让它用行星的话,就是有这个齿轮的情况,那你就是有这个背隙,你上下是会有这个“死区”的问题,所以它的精度其实没有那么高。反正就是我觉得这个是一个取舍的事情,我们整体上感觉还是运用行星的话还是会会好一些。
知乎大V,沃尔沃哲晰软件
(Zenseact)深度学习负责人 刘斯坦
现在我想问大家有关机械臂的最后一个问题,如果我们有这么多的情况的话,能不能多一个关节,它带来的成本的增加会很大吗?为什么干脆以七轴为标准、做七轴算了呢?
格灵深瞳算法总监
北京大学和智源研究院访问学者
赵仲夏
我觉得应该不是一个电机的问题。它的难点在于就是多了这个电机带来的反而带来很多复杂的事情。比如更好的IK比如说更好的遥操方式,比如更好的数据采集的这种形式。我的感受就是并不是我们明明可以加一个电机解决所有问题,而是因为这个电机又产生了一些问题,然后这个行业还没有推进到把它解决。所以就是从一个使用者,就是算法有点像是供应链和本体的一个使用者。然后从使用者角度看的话,我宁可先不往前走一步,我先解决我自己的科研的问题,这是我的一个观点。
知乎大V,沃尔沃哲晰软件
(Zenseact)深度学习负责人 刘斯坦
所以赵老师说这个六轴是七轴之路上必经的阶段,是这么一回事。
格灵深瞳算法总监
北京大学和智源研究院访问学者
赵仲夏
至少当前这个阶段里面有点趋势。就是physical intelligence这家公司有点像是具身里的OpenAI,然后它有点那个味儿,有选择六轴的趋势。其实具身在解决这样一个问题,要用不同的机器人在不同的场景完成不同的任务。但模型如果解决不了不同的本体,不同的场景解决不同的任务。那我可以先固定住一个本体,固定住几个任务,然后变换不同的环境。Pi它固定住了一个六轴的正装的本体,固定了住了家庭这个环境里的一些任务,然后来变换不同的家庭,这是他的一个路线。
灵巧手还是各种夹具?
大家对末端怎么看
知乎大V,沃尔沃哲晰软件
(Zenseact)深度学习负责人 刘斯坦
接下来我想抛出个新的问题,我们刚刚在讲各种机械臂,我们讨论已经非常充分了。还有一个问题就是手的选择,现在有的是带夹具的手,有的是灵巧手。如果按照王老师刚才说法,如果大家直接all in human,就是仿生的话,大家直接做灵巧手就不要搞什么夹具了?各位认为现在夹具和零巧手还有必要再去研究吗?大家直接all in 灵巧手不就完了吗?
格灵深瞳算法总监
北京大学和智源研究院访问学者
赵仲夏
我的感受就是稍微有点悲观,因为我觉得灵巧手的算法做的还都不是很好用,模仿学习、强化学习都没有办法把灵巧手玩的很好。然后再之后是灵巧手的硬件设计很难,灵巧手是五根机械臂,在一个20cm空间里面打架。然后大家对它的力量上限要求也没有多少,也没有也没有明确定义出来,而且就是灵巧手必做触觉。就是如果我要做一家灵巧手的公司的话,我要用最牛的硬件团队,最牛的做结构的人,最牛的算法团队,去做一个最晚落地的东西。所以这是我的一个感受。所以就是我灵巧手就是充满敬畏。对,就是我一想到它是一个20公分的五根并联机械臂,我就非常恐惧。
具身智能之心 Gloria
我能想到最直接的差异就是价格肯定是不一样的,而且差的可不是一个数量级。
智元机器人遥操负责人 王文灏
现在的灵巧手主要偏科研方向。我们看到的很多市面上能够买到的灵巧手,其实本质上和夹爪差距也并不大。能用六自由度灵巧手做的事情就是夹爪都能做,它并没有带来什么额外的帮助。更高自由度的灵巧手确实在算法上很困难,在硬件上也很困难。所以在对末端执行器上,我觉得现在用夹爪是没有问题的。
但是在臂的构型上,我还想补充一点,就是Pi的路线很危险。它可以做到它在某一个场景下,比如说叠衣服叠的非常好,然后能够在每个人家里叠衣服,如果他能够成功,那么非常好,它会成为OpenAI,然后解决很多问题。但如果他没成功,那就很痛苦了。
我觉得具身应该是有一条退路的,你大不了让人去遥操,最坏的情况无非是后面有个人,至少是可以一个人在这个地方遥操以后,他马上可以传送到下一个操作点去遥下一台机器人。所以即使在算法没有任何进步的前提下,这些硬件也是可以卖得出去的。所以我会觉得你看虽然Pi选择了aloha的构型,但是英伟达、苹果和特斯拉都选择人形。
清华大学副教授,
灵御智能首席科学家 莫一林
我再补充一点,就是Pi0叠衣服。其实我观察到一个很有趣的现象,包括很多叠衣服,我发现他们叠的都是短袖T恤衫,就是没有人去叠裤子,也没有人去叠衬衫。我觉得这个是一个反正正好是我的一个observation,就是大家叠了各种不同颜色不同花纹的短袖T恤衫。但是如果我觉得哪天你来一个女士连衣裙,我相信他的算法一定崩溃。
另外,我觉得其实在末端选择上,其实不只是夹爪和灵巧手。就是灵巧手我们一般是讲五指手,人的五指大概是21个自由度。实际上我因为我们之前也接触过一些灵巧手,我觉得现在灵巧手实在是太贵了,就是我可能做一套双臂的机器,就比如说我买两个松灵的机械臂,这个机械臂可能卖我一万多块钱。但是如果我给这个机械臂装上这个手,这个手可能现在一个比如说比较接近于人的,比如十二自由度的时候,可能接近六七万块钱,那这个远比这个机械臂要贵。而且这个手实际上能干到事儿,包括刚才王老师说的,它能够比夹爪强多少,其实是一个很打问号的,就是你花这么多钱,你可能还不如几百块钱的夹爪。另外还有力量和容易坏什么等等这些问题,让我觉得end game的话,可能也不一定是五指手。
对人来说,大家比如说看那个射雕英雄传,九指神丐就是少了一个指头也可以是这个五绝,对吧?所以你说或者说这个杨过独臂大侠,少了一个手臂也可以是五绝,这个都可以,打架都很厉害。
另外就是在我们的经验当中,末端非常重要。人的手可能它不是为抓取设计,人的手是让你仔细去看的话,首先它手指是有弧度的,然后它本身就是软的。所以你这个手指在很大的一个范围之内,你去碰一个表面,它都是一个面接触,它本身这个摩擦系数......
Anyway,就是反正你越研究,你就觉得这个设计实际上是非常合理的,我觉得最后大概率,因为你可能很难达到真正像人的手链,我觉得大概率可能会出现多个末端,比如说我就做一些快装,比如说我现在有一个机器人对吧?就是你像正常人的话,我可能比如说我是一个电工,那我这个有一个围裙,围裙里面或者是有一个腰带,腰带里面有螺丝、螺丝刀什么乱七八糟一堆东西,对吧?我就需要的时候我就掏一个,然后我就去拧。比如说现在要拧螺丝,那我是拿着一个螺丝刀,真正的地去转,还是我拿一个电动螺丝刀这样弄着,然后我按一个按钮,还是说我这儿做一个快装,那我觉得这个是一个值得商榷的。
实际上我觉得可能其实好多,比如说那些电影里面展示机器人都是这样,它自动就会转。所以我觉得,我的感受是如果真想做通用机器人的话,也许一个更好的方法是一个底座。这个底座可能是一个三指手,它不一定是有五指手,或者是一个两指或者三指或者四指,配合上若干个可以快装的这个末端的这个就可以快速的改。就像人比如说你要去弹一些乐器,你也需要假指甲,你也不是用自己的手去弹。所以我觉得这个可能是真正当然有的人就会觉得这个东西不智能就不通用了,但是我觉得这个东西是比较靠谱一点。
知乎大V,沃尔沃哲晰软件
(Zenseact)深度学习负责人 刘斯坦
我想问一下,如果手指不是五个了,跟人不一样了,那是不是像遥操,各种方面其实就搞不了了。
清华大学副教授,
灵御智能首席科学家 莫一林
这个其实也还好,因为我们其实你真正去看的话,你会发现大量的灵巧手的这些demo,其实都没有必要用五个手指头。就是事实上你看了很多灵巧手的demo。比如说你现在看一个demo,然后你把它停掉,然后你闭上眼睛,你问心自问就是说这个东西用夹爪做的了做不了。在90%的情况下,你的回答都会是yes,就是一个自由度就搞定。真正能够体现多个自由度的情况下,而且还是真正达到我手指头的,我觉得很少。我我们因为我们当时去年我们专门去做过一些五指的一些demo。我们后来想到可能就是两个可能性:一个是我需要做一些in hand的manipulation,就是包括像一块现在也有这种比赛,就我要在手里面,比如盘个核桃或者我要单手拧个魔方这种我需要去做这件事情;另外一个就是有可能会出现就是说我一只手要抓好几个东西。就是多物体抓取,这个可能是有意义的。
但是真正说你这个价钱是指数上升的。甚至就是因为你比如说我只做这个,那我可能十几个自由度我需要花的钱和我做20个自由度在这么小的空间之内要花的钱,这肯定是不一样。但是你真说这两个能给你带来这么大的价格的所对应的优势,我觉得这个是很fashionable。
智元机器人遥操负责人 王文灏
之前有生物学方面的研究,他们认为人手五个字,五个手指头是有冗余的,小指头是可以不用的,只用四个手指头你就可以做绝大多数事情了。并且在法律上,小指头掉了和大拇指掉了是完全不同的量刑概念。因为我们发现小指的调查对人的影响没有那么大,而大拇指掉了以后,它直接影响抓握功能。
格灵深瞳算法总监
北京大学和智源研究院访问学者
赵仲夏
刚刚补充一点,就是说到手的冗余,我忽然想到了另外一个冗余。就是我觉得人类的双臂构型不光是为了干活的,他可能是为了拥抱的,也为了吃东西的对,就是突然想到一个好玩的事情。就是这个因为手的想到的,因为我那时候就思考,我觉得一个好的构型未必是人形里面还有一个很好的点,就是我们的构型其实更方便的是我们操作甜点位置在内部,我们的甜点位不在外界。这是一个好玩的观点。
双臂还是单臂?
知乎大V,沃尔沃哲晰软件
(Zenseact)深度学习负责人 刘斯坦
OK,刚才我正想说这个事情,就是说机械臂我们说了这么多,还有一个东西就是说我们到底是需要双臂吗?还是单臂?其实因为两种工作都有,我们说手是有冗余的,其实还有独臂大侠?杨过,独臂他他也能打得过别人,对吧?当然现实生活中并没有内功。就是这个这个双臂和单臂,你觉得这个是不是完全不一样的技术路径和应用场景,还是他们其实是一个进阶的关系。
格灵深瞳算法总监
北京大学和智源研究院访问学者
赵仲夏
从我的角度看是这样的,首先我这边还是做橘生算法的研究,算法研究最后就会出一些好玩的结论。
第一个结论就是比如说是否有智能涌现。具身智能里面我们用某一个构型才大批量的数据,它最后有没有智能涌现。第二就是3D、触觉、力反馈、声音,或者是分层、自纠正、强化学习,它们能够对单个任务的成功率提升有多少。
一旦得到这些结论之后,我们就要研究的归研究,业界的归业界。每一个业界会提出它最终的构型需求,我觉得像发动机一样,我觉得研究最终给出来一个发动机,我们用这些发动机和我们的这个被催化过的供应链,找出一个解决方案,也许是单臂,也许是双臂,也许是一些不同的末端,然后最终去解决一个场景的最大化的需求。我可以确认就是某一个场景它一定是单臂比双臂更好,而且这个单臂要求举重能力极强。因为我们之前看到的那个韩国,韩国那边现在还是哪里,然后有一个物流的场景,那个就是一个可移动的单臂,就是有点像是把以前的工业臂做了一些转换。对,所以就是从这个角度看的话,就是我觉得单臂双臂取决于应用场景。
对于算法研究而言的话,我们倾向于拥有一个符合科研的一个好的构型。比如我现在觉得一个符合科研的好构型是它可能是六轴的,至少是极简的,那个带3D带触觉,可以方便我一波流采集数据,采完数据之后验证包含大模型的智能涌现,包含3D的点云如何处理能对模仿学习提升多少成功率。然后再说是触觉有多少用,还有就声音,就我碰到一个东西的时候,它会有声音,声音模态有没有价值?对我觉得得到这些结论之后,科研的工作就算结束了。对,剩下就是交给行业的,这就是一个结论性的东西,交给行业,这是我的一个观点。
知乎大V,沃尔沃哲晰软件
(Zenseact)深度学习负责人 刘斯坦
王老师您怎么看这个问题的?
智元机器人遥操负责人 王文灏
在做特定一些家庭任务的时候,双臂更好。比如说叠衣服,你需要把衣服的两个角一起揪出来,这样会叠得更好。但对于大多数任务来说,很难说。我们不一定需要所有的机器人都去做家庭任务,就是可能在人的家里这个场景双臂会更合适。现在比如说在物流场景,为什么一定要像人呢?直接把现在的VLA或者是DP直接部署到现在的协作臂上或者工业臂上也可以,也是一种方式。
具身智能之心 Gloria
我有个不成熟的想法,是不是有一些双臂任务,其实它只要是如果是单臂的场景,他把时间拉长一点,它其实也是可以完成。比如叠衣服,就是我可能两个揪起来叠会快一点,但是单笔的话我可能就是多倒腾几次,其实也能把他衣服叠好。
格灵深瞳算法总监
北京大学和智源研究院访问学者
赵仲夏
有的操作可能得要转起来。
智元机器人遥操负责人 王文灏
大家可以很简单,就是大家试一天如果把一只手一直背着去做日常生活中看自己生活会受到多大影响就知道了。
清华大学副教授,
灵御智能首席科学家 莫一林
一些情况下,甚至你需要三只手。就是有很多工作他会有一个夹的东西,然后再就有一些很精细的工作。我整体觉得这个东西反而是跟场景有关,就像那个其实还是看看最后场景的需求。但是双臂在我们看起来就是双臂遥操作的确比单臂要难很。不是说左胳膊是左胳膊,右胳膊是右胳膊这种情况。就比如举一个最简单的例子,如果我希望比如说我希望拿起一个盒子,然后这个事情实际上如果你用单臂做遥操的话,其实是挺困难。首先你这个位置这个就涉及到一个力控了,就是你需要给盒子两只手给盒子施加一个合适的力,你才能把它给打起来。比如说就像刚才那个王老师说的,你这样拿这个衣服,你希望把它刚好弄平,然后这件事情其实你遥操还挺困难的,就除非你有很好的力反馈。双臂其实有很多情况下我们会发现,你单纯靠这种基于位置的操作,实际上是做不到的。你有很多大量这种操作是需要等于两边同时给这个东西施加一个力,使它刚好平衡在中间,不管是往里压还是往外蹬这种情况。然后这个事情事实上我目前也没有想特别清楚。
本体构型设计的终局是什么?
知乎大V,沃尔沃哲晰软件
(Zenseact)深度学习负责人 刘斯坦
大家觉得具身智能构型的终局会是什么?就是大家如果为了未来发展的一个路径的话,终局会是什么样的一个终局?
格灵深瞳算法总监
北京大学和智源研究院访问学者
赵仲夏
我还是想让大家推荐看一下那个PI0.5的那个构型。那个构型里面其实是没有头的,然后它是两个触角,一个朝前的相机,一个朝后的相机。那个构型是一个便携式的六轴的朝前的正装的一个构型。我只是讨论我可能需要的一个科研上的一个构性。然后因为没有头的话,遮挡会小一些。
然后我有考虑过,如果要不要再加一个升降模块,如果加了一个升降模块的话,我可能需要五个眼睛。这里还需要一个眼睛跟着我一起走,然后前后两个眼睛负责导航,然后需要在里面有触觉,有3D,有声音。整体的价格很重要,价格的话我想他如果能够到2万块钱以内,我就觉得这太棒了。因为从我已知的这个范围而言的话,这样的一个产品它应该能够覆盖家庭生活以及一些工业场景里面60%到70%的一个任务了。我就觉得这已经很恐怖了。
从我角度看的话就是具身就是个造发动机的过程。就是我们那个大模型提供了一个发动机,可能未来强化学习、触觉3D再提供一个发动机,供应链提供了一个发动机。不得不说,遥操作是给大家兜底的,就是遥操是能够保证大家能活着往下游下去的这么一个东西。然后我觉得最终的一个终局是遥操作操可能是一个很复杂的一个驾驶舱。就是我觉得我们有点像是在马车时代去做自动驾驶。我们讨论构型,是讨论流线型,讨论越野车,讨论一些形态。而那个遥操是驾驶舱,是方向盘。如果你没有方向盘,没有驾驶舱的话,这个车一点价值都没有。而自动驾驶提供的是一种新的饼,一种未来的燃料,能够让大家继续往前迭代下去。所以从我角度看的话,我觉得就像是做自动驾驶一样。然后有一个车,然后车里有一个方向盘,然后方向盘有驾驶舱,然后大家可以驾驶这个车完成很多任务。而真正的智能是诞生在人驾驶车的这个过程中的。
最后,然后我给大家安利两个人,一个是我们的陈正翔老师,陈正翔老师的视频号,大家可以去关注一下,是觉得非常酷的一个机械臂设计的视频号。
另外一个是我之前有看到的一个花5000块钱可以完成一个方舟构型的一个开源项目(pathera)的作者伟诚(bilibili:肥牛芝士榴莲)。这是我的一个构型的最终的一个设想,以及夹带了两个私货。
智元机器人遥操负责人 王文灏
这很取决于具身智能的scaling laws,究竟在什么时候能够看到一个非常明确的增长或者放平放平缓。就是在大语言模型里我们有很多很多的数据,这些数据是不需要什么成本就可以获取的。因为我们已经在网上发了足够多的文字。
但在机器人领域这样的事情很难获得。如果完全靠遥操的话,这个数据会不会不够,我觉得很难说。如果这个数据不够的话,那么我们有两种解法:第一种是用仿真,第二种是用视频。用仿真的问题可能是你希望教会机器人一个非常general的物理规律,但是你仿真中能够提供的物理规律是你手写的,总结出来那么几条。那它是否能够在你手写的这几条中悟出一个外层世界的规律,这个东西值得讨论。如果是另外一种方式用视频的话,那天然的就会人型更适配。最近有很多相关的工作,比如说最近苹果发了一个比较大的人类规模的数据集,然后比如说斯坦福发了一些人形的全身遥操的数据。我会觉得这也是一个值得探索的方向。
我们会在接下来的几年以内期待:我们能不能从视频中学习里面有非常大的突破?我们的数据会不会指数级别的增长?如果会的话,我们会看到越来越多的数据采集方式是直接让人带着一个摄像头他去做manipulation。它就不需要靠一个机器人本体了,它是可以极大的扩展我们的数据量的。一个摄像头的成本只要几百块钱,对吧?一个机器人的成本要几十万,从成本上来说可能获得成百上千万的增长。
这是关于构型。另外一个是我觉得关于终局,我跟很多做算法研究的同事的可能的对机器人的想法不一样。对很多人来说,机器人是一个工具,它是帮你做一些事情的一个自动化的设备。但在我看来,机器人是一个人机交互平台。它之前是手机或者是电脑,或者是各种各样的东西,它是一个人机交互的平台,一直是你是和这个机器人在不断的交互的。他这种交互可能是你在他的身体中,也有可能是你和他对话。如果是这样子的话,我们去一个完全自动的机器人是不是真的是我们想要的呢?或者说即使有了一个真正完全自动机器人,我们会不会仍然会希望你拥有一具钢铁身体,然后这个钢铁身体可以传送到很多地方?我觉得是需要的。
我一直想打造一个这样的平台。我会觉得在手机时代有安卓,在电脑时代有微软,那在机器人时代有什么呢?如果机器人真的是一个遥操平台的话,我觉得它就是一个能够无拓展你的能力,把你人类肉体的能力拓展到一个钢铁之躯的这样一个平台。
它首先它会以遥操作为一个基础,然后在此基础上我们会对人的能力有相当的增强。比如说对视觉的增强,我们希望你在机器人身体里的时候,你的眼睛就是尺,你可以测量任何一个像素的距离。我们会希望有听觉增强,你听到的任何东西,你都可以直接分析出它的频谱或者是定位它的距离。然后对力量的增强,对速度增强,对各方面的增强。我会觉得这是我梦想中的一个能够完成的一个像钢铁侠一样、像贾维斯一样的产品。这是我希望做的事情,也是我觉得即使在有一天机器人能够完全自主的时候,仍然有价值的东西。
清华大学副教授,
灵御智能首席科学家 莫一林
我觉得刚才那个王老师说的我其实很有同感,就是我可以抛几个“暴论”,这样比较有趣。就是我觉得其实很多时候大家会说说具身智能是希望机器人自主的做一些事情。但是我觉得这个其实本质上来说还是一个人机交互的问题。
就是从人机交互的角度来讲,比如我让机器人去把这个屋子收拾干净这件事情,首先就是大家现在默认,大语言模型非常的成功,人机交互方式就是语言。实际上,语言和对于物理世界描述是非常不精确。比如说现在的大量的其实这些机器人做的任务,在我们看起来就是说他虽然是在做一个稍微相对通用的任务,但事实上你还是很难跟他有什么有意义的交互的。比如说你说叠衣服这件事情对吧,那他可能就是在在叠衣服。比如说你想跟他说我要这个衣服这么叠,那这件事情可能用语言本身就很难表达。或者说我希望机器人干一件事情,那到底是我用嘴说让他去干一件事情更简单,还是我比如说我伸一下手,然后他直接和我的手互相之间映射在一起,然后去拿这个东西更简单。我觉得这个实际上是一个值得商榷的,就是说你到底哪种方式?
因为最本质的来说,人机交互在于传递的信息,然后语言本身是一个传递信息量非常差的一个工具。就是你说话大概一秒钟可能也就是没有多少个比特。但是你的一个动作当中可能蕴含了非常多的信息,而且你这个动作是比较精确的。那就是说从人机交互角度来说,就是我觉得很难说把这个操作这件事情彻底的去除。就是我比如举一个最简单的例子,我们不需要考虑机器人,我们现在就用嘴去命令一个人干一些事情。比如说让他去把家庭给打扫了,你会发现这件事情非常痛苦。就是你要告诉他什么东西应该放在哪儿,什么东西应该放在哪,这件事情你会非常痛苦。那你为什么就只能指望这个机器人就能magical be的理解你所有的东西,然后就把这件事情给做了。我觉得这有一个很大的不确定性的。
而且我觉得另外一件事情就是说,现在其实大语言模型,很多时候它是一个交互式的对话。就是我让它去干一件事儿,比如说我说一句话让你去写一个东西,你写完之后我很多时候我不满意,然后我让它再去重新写一下。但是这个是建立在它的这个输出实际上没有任何后果的情况下,我反正输出一句话,你不满意我就去改。那你比如说让机器人干一件事儿,然后你不满意,那这个事情已经发生了,这个事情在物理的现实当中已经出现了,那你没有办法让他改,你很难跟机器人建立这样一种交互式的一个对话的方式。因为很多事情你不能就不能往回倒了。所以我觉得实际上我们现在还没有很好地去探讨:假设是一个有智能机器人,我们怎么去跟他去去交互。
我觉得实际上是不可能抛开这种动作上的交互的,就是不可能完全用语言完成。当然也有可能过几天变成脑机接口了,就是大家也不需要说话,就是直接连着我脑电波一切都解决。这个我觉得是终极方案,就类似于其实当时说那个什么就是类似于大家如果很早之前看过高达,就是那个高达,就是穿一个衣服,然后在里面反正这些什么痛觉什么的都能传过来。我觉得那个就属于是一个很终极的方案。
对我觉得这个是第一点。然后另外一点,我觉得其实这个事情其实取决于他这个名词。我其实从我个人角度来说,我不是很喜欢具身智能这个词儿。因为我觉得这个词儿是首先认定了智能这个东西已经存在了。我们现在需要的是给这个智能赋予一个身体。就是你如果从不同的角度去看这个东西,因为我们终于要达成的一个东西是一定的。但是这个具身智能等于预设一条路线,就是从智能迈向一个有身体的智能。我觉得这个事情实际上是一个很有就是过于把你的思维给框死了。
其实我想提一个另外概念,比如说比如说前一段时间很很热门,比如说像这个元宇宙,或者说VR,或者说云游戏这些概念。实际上我们会发现,比如我们在做遥操作的时候,很多时候我们是在做一个所谓的云上的VR游戏。就是我可以想象这个人他就是在玩一个游戏。只是这个游戏里面并不是在比如说英伟达的TPU上跑的一个physics x的物理引擎,而是在真实的地球online,就是在真实的物理世界当中在跑的。
实际上这些技术很多时候都已经在这里。当我们做遥操作的时候,我们非常surprise,就各种VR设备的定位精度非常准。然后这个事情我们是让一个mind的blown,可以说就是因为以前我们觉得可能你需要一套动捕设备,就是几十万动捕设备。实际上你花几千块钱买个pico或者买个pico3,然后就是或者pico这些就是你会发现VR实际上把这些事情都已经做了。就是他的他对人体的捕捉非常的精准,这个都是毫米级的,然后100赫兹左右的数据给你。然后实际上你现在然后实际上你现在可能就是不需要做什么事情。所以如果你从VR的角度过来说,我只不过是给VR游戏对吧?到了一个机器人的实体,那你可能会比较认可这个聊操作的概念。
或者我觉得如果是我是一个做控制的人我可能会认为我是给实体,我是先造好一个实体。就比如说如果我从自动驾驶的角度来说,我先造一辆好开的车。甭管这个车是这个车可能没有任何智能,但是它是一个L0好开的车。这车上集成了需要的比如ABS系统等等这些辅助的帮助你开车的系统。然后它对人来说是一辆好开的车,然后我就让大家去用呗。
如果他能够用的话,在真实场景当中采集一些数据,也许这个东西我就可以逐渐的弄一个,比如说定速巡航,然后跟车车道保持,可能这些很低级的自动驾驶,然后带一点点升级呗。所以我觉得这个实际上是取决于你从哪个方向过来。我其实并不是特别喜欢军人智能这个词儿的,根本就是说他把你过来的方向给圈定了,就是你必须得从智能往这个方向走。我觉得这样我们应该抱有一个更加开放的态度。
实际上有很多很多不同的society,他们做的东西都是可以借鉴的。然后从这个角度上来说的话,我觉得,事实上我个人觉得目前来说,我觉得L2会是一个大家的公约数,是一个有限的自动驾驶。然后这个当中还有大量的人的干预,我觉得这个会是一个目前我觉得是一个比较容易实现的,而且是一个最大公约数。如果是在这个角度下来说的话,我觉得会很长时间。实际上就像王老师说的,一个类人的机器人是一个对于人的操作来说更加直观,然后未来也更容易去量产,然后更容易去产生大量数据的一个平台。
编辑:具身智能之心,赵仲夏

- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊