资讯配图



  新智元报道  

编辑:编辑部
【新智元导读】WAIC大会上,这个机器人凭惊艳实力引起了层层围观!叠衣服、分拣物品、听指令取货,他们研发的Mech-GPT多模态大模型和「眼脑手」系统,让机器人的高难度操作性能暴增。现在,这家公司已经成为市占率连续五年的行业冠军了。

最近,马斯克的「擎天柱卖爆米花」再次让具身智能进入大众视野。

特斯拉主题餐厅最近试营业,Optimus在餐厅上岗,装爆米花的动作娴熟流畅,引得大批人类围观——

现在的具身智能,已经进化成这样了吗!

资讯配图

注意看他的眼睛,尤其是中的盒子没有被捏扁变形,「眼睛」还会随着动作向你看来。

这些拟人的、连贯的动作对于机器人「大脑」是很大的挑战。

而在世界人工智能WAIC大会上,我们终于见到了又实用、又通用、速度又快的具身机器人!

而且,不仅有人形,还有单臂、双臂等各式各样的形态。

这些机器人都来自同一个展台——梅卡曼德机器人。

资讯配图

在梅卡曼德自研的Mech-GPT多模态大模型加持下,不管是何种样态的机器人,都够高效地执行各种精细的动作和高难度的复杂任务。

对于前者,下面这个机器人轻松地摆出「承让」「ok」的手势。

资讯配图

资讯配图

对于后者,那场景可就多了:

比如,摆在这个双臂机器人面前的,便是典型的柔性物体——一件衣服

想要把它叠好的难点在于,这一个长序列任务,需要机器人连续不断地完成一系列指令。

而且在动作做下去后,柔性物体会产生很难预测的结果,这就对机器人随机应变的能力提出了极高的要求。

不过,双臂机器人最终十分顺利地完成了这个长序列复杂柔性叠衣服任务。

资讯配图

4倍速

更进一步的,机器人还能自主分拣海量的随机真实物体,具备对各种各样真实货品泛化操作的能力。

可以看到,下面这个双臂机器人,它的面前现在准备了9个分类框和几十种物体,如此复杂的货品,它都能做到丝滑地操作和分类。

更神奇的是,如果我们把标签换掉,它甚至还能根据情况随机应变。

在这个过程中,它既展现出了广泛物品的识别能力,也展现出了对广泛物品的操作能力,以及对文字的识别和常识分类的能力

有趣的是,这个过程中它不仅在完成收集物体的任务,同时也在为自己收集大量数据,让自己的能力不断提升。

而且在现场,这家公司丝毫不怕让观众亲身体验。展位上早已摆满琳琅满目的小物件,信心十足地等待现场观众的测试。

现场的人们可以随意用自然语言发出颇有难度的指令,比如让下面这个单臂机器人「把物品放到对应的纸上」。

在听到自然语言的命令后,机器人搭载的百亿参数大模型就会综合语言输入、视觉输入,准确认识到自己该执行什么任务。

另外,它还可以从货架上准确无误地取货。

观众在服务台ipad上下单选择相应饮料,机器人收到订单后,就会行驶至货架处,取回对应饮料,回到服务台递给观众,赢得满堂喝彩。

资讯配图

2倍速

在这场备受瞩目的世界人工智能大会上,为何这家机器人公司能有如此充足的底气,大胆展示自家产品?

自然是因为,他们家的机器人,性能足够硬核。

资讯配图
具身智能,从哪里突破?

从上面这些惊人的demo可以看出,具身智能应用需要具有极高的丰富性和实用性。

比如,在机器人的速度、节拍、任务泛化性和物体泛化性上,都需要有极其优异的表现,才能丝滑地完成各种多样化的任务。

而梅卡曼德的机器人之所以能在这么多项指标上都表现亮眼,正是因为它的「眼脑手」充分做到了一体化。

资讯配图

手:Mech-Hand五指灵巧手

首先,就是Mech-Hand五指灵巧手

它的设计紧凑,灵活度高,稳定性好。

再加上可以搭配泛化的AI抓取算法,就可以毫不费力地精细抓取各类物体了,比如抓一个灯泡、一个鸡蛋,或者敲键盘。

这些动作中包括了「捏、拿、摸、点、放、提、拽、拉、按、写、拔」等几乎所有「人类手」能完成的操作。

资讯配图

资讯配图

眼:Mech-Eye高精度3D相机

梅卡曼德机器人的「眼」,就是Mech-Eye高精度3D相机了。

这个「眼睛」搭配自研先进AI成像算法,因此可以对透明、反光的物体进行高质量成像。

这些3D相机具有多种型号的设计,可以满足不同场景下小体积、大视野、高精度、抗环境光等要求。

比如,它可以「看见」各类常见的复杂、真实物体。

还能「看见」各种颜色/细节丰富的各种真实货品。

资讯配图

资讯配图

资讯配图

脑:Mech-GPT多模态大模型

梅卡曼德机器人的「脑」,就是Mech-GPT多模态大模型

梅卡曼德通过自研AI大模型,可以让机器人具备类人的学习、理解和推理能力。

机器人可以理解自然语言指令及复杂环境,还能自主执行复杂任务。

只要我们发出指令,它便能准确完成「把食肉动物放到最大的容器里」等任务。

如果告诉它你饿了,它还会在思考后,主动递给你一只香蕉。

正是因为「眼脑手」的配合,才让机器人具备了高阶的智能,能够理解人在说什么,还能从人类的自然语言中推理出我们究竟想要什么,从而完美完成任务。

资讯配图

实用场景广泛

从机器人的货架取货场景,我们可以看出,正是因为有了「眼脑手」和人形机器人的综合配合,它的速度才能这么快,效率才能这么高,才能在多种常见的使用场景中发挥作用。

从以上的种种demo中,我们可以清晰地感觉到:「眼脑手」和不同形态机器人配合后,使用的场景太丰富了!

比如叠衣服和GPT单臂的「眼脑手」功能,都体现了机器人在丰富居家场景中的可用性:处理多样且复杂的任务。

而机器人在货架上取货,则属于零售和商超场景,而且效率很高。因此在未来,它们非常有希望运用到千行百业中。

而且,现在梅卡曼德的机器人已经在工业场景大规模落地了。

资讯配图

这套系统早已不是实验里的样品,而是真正落地在了汽车制造等工业现场,已经广泛服务数十家车企

通过高精度的3D相机、人工智能软件和工业机器人的结合,让它能在不到2秒钟内就能抓取一件物体,对海量物体的抓取和操作,都是自主执行的。

这样的速度,让它完全可以替代人类员工完成任务了。

资讯配图

而在医疗、工业等领域,因为对透明物体识别和抓取上料有超强的泛化性,它也有了超多的用武之地。

下面的场景,就体现出了梅卡曼德机器人对于透明物体强大的识别能力。

注意,这个过程中可不仅是摄像头,而是采用了很多AI技术,否则机器人不可能如此准确地识别这些难度极高的全透明物体。

资讯配图

更令人印象深刻的是,梅卡曼德技术迭代非常快,在AI等前沿技术上,他们一直在不断升级。

资讯配图
具身智能大混战,为何他们率先上桌?

8年里,梅卡曼德通过「眼手脑」的战略和AI技术的不断迭代,让自家的领域覆盖了工业、物流、重工等多个行业。

用创始人、CEO邵天兰的话说,这是一个「既要、又要、还要、也要」的过程:要有靠谱的硬件,有通用的AI算法,有落地快的部署能力,还有完善的培训、技术支持、合作伙伴网络,总之,这是在拼一整张「行业地图」。

然而,他们却扛住了压力,连续五年做到了市占率第一,成为全球「AI+机器人」领域最大的独角兽之一。

怎么做到的?这就要讲到,创始人的独特眼光了。

十几年前,邵天兰开始了一段孤勇的逆行之路:在清华本科毕业生中,他是唯一一个选择去德国学机器人的人。这个选择,在当时看来十分非主流。

那时,AlphaGo刚刚击败李世石,让他看到一个时代正在眼前开启。

在他看来,真正改变行业格局的,正是AI。不是要做单一控制的机器人动作,而是让机器人真正具备感知、理解、决策能力。

这也就是为什么梅卡曼德不做机器人「本体」,而是专注去打造「眼」「手」「脑」。

服务这么多行业,需要疯狂定制吗?答案是否定的。梅卡曼德靠的恰恰就是极致标准化的产品+通用的AI算法。

原因在于,「眼」和「大脑」是共性的,个性的只是手脚动作而已。

在宜家,一把椅子只要几十块,但找木匠定制就要上千。而梅卡曼德,走的就是「宜家模式」。

资讯配图

未来十年,机器人进入家庭

10年前的自动驾驶已经证明:谁先把业务跑起来,谁就能先积累数据、验证模型,就能笑到最后。

今天的具身智能机器人,也是如此。

而现在,梅卡曼德已经上桌了。

这家由清华海归团队在2016年创办的公司,才短短9年,就成为了全球为数不多的,真正把具身智能机器人做成跨行业、多场景、大规模落地的佼佼者。

他们的机器人已经在全球的15000多个场景落地,服务了超过100家的《财富》五百强客户,业务遍布了50多个国家和地区。

根据第三方咨询公司高工机器人产业研究所和睿工业的市场统计数据,梅卡曼德机器人在细分领域,已经在2020-2024年连续五年市场占有率排名第一。

工厂上料、快递分拣、厨房助手……机器人助理,已经成为下一个时代的标配。

甚至根据邵天兰的说法,指望机器人养老,可能比指望孩子更靠谱一点。

在他的设想中,90后在退休之前,就能看到机器人达到L4、L5的级别。

同时他也坚信:让机器人进入家庭,未来十年一定会实现。

而梅卡曼德「眼+脑+手」的三重开挂,正在让这种可能性越来越近。

资讯配图

资讯配图