机器之心原创

作者:张倩


还记得那个会「功夫」的机器人吗?


今年 4 月份,一个名叫「功夫 boy」的机器人火出了圈,它的一招一式颇有练家子的味道。有意思的是,眼尖的观众还从中发现了马保国独创的「闪电五连鞭」。打那时起,我们就一直盼着能见到这款机器人。



没想到,在 3 个月后的 WAIC 上,这个愿望实现了。现场的「功夫 boy」已经进行了全新升级,能够完成「分钟级」的武术表演,吸引了很多人围观。


资讯配图


更有趣的是,我们在论坛上还看到了另一个场景:款功夫机器人与文生视频的人物同步演示武术动作,勾勒出从一幅人工智能从虚拟存在走向物理世界的完整图景



回到展区,我们发现它还不是「一个人」来的,旁边还有它的「兄弟姐妹」——  一个个头稍小、长相更可爱的机器人(TeleBot M1一个能让机器人远程控制做出各种动作的遥操作系统


资讯配图


在技术上,这些机器人很有代表性。


「功夫 boy」能做出那些高难度动作,而且在保持速度的同时又不失平衡,证明它的「小脑」非常发达,足以精确控制身体的每一个环节,即使在机器人扎堆的 WAIC 现场,这种程度的控制也不多见。


小尺寸机器人则更考验硬件研发能力,因为从外形上看,这显然不是从宇树等硬件厂商采购的标准本体。


遥操作系统学名叫「远程全身遥操作系统 TeleHumos」,通常在参观机器人数据生产车间的时候能见到。这个系统做得好不好直接关系到机器人智能水平的迭代速度,毕竟众所周知,大部分具身智能厂商都卡在数据上。但从「驾驶舱」的豪华配置来看(上肢双臂外骨骼,下肢全向行走平台,天翼 5G 公里级通信,还带力觉反馈),这应该不止用于数据采集,有望使机器人在危险的场景中作业,而人类只需要在舒适的地方远程遥操。



来逛展之前,我们对这些机器人背后的机构 ——中国电信人工智能研究院(TeleAI)有所了解,知道他们由中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授带领,在大小脑的研发上是走在前面的。但完整看下来之后,不得不感叹一句:不愧是央企,技术栈还是太全面了。


再一想,其实他们的王牌优势 ——「通信」还没有在现场完整展示,很容易被逛展的人忽略。但作为从「单机智能」迈向「群体智慧」的神经系统,通信的重要性在未来不言而喻。


说实话,单看这几个展台,就能感受到这家央企在机器人上的野心不小。那么问题来了,他们到底想做什么?深挖之后,我们发现了答案。


TeleAI—— 具身智能赛道的「全能选手」


首先上结论:和很多聚焦于单个技术方向的具身智能公司不同,TeleAI 确实有全栈自研的打算,并且已经做得非常不错了


他们做出这个选择也不难理解。从整个行业的发展轨迹来看,虚拟和现实正结合得愈发紧密。之前做大模型的公司很多都不再甘心只困在屏幕后面,而是想要一个「身体」。这一方面是为了产生更大影响,另一方面也是智能进阶的新突破口。与此同时,做机器人的厂商很多也不再甘心只是做硬件,而是想要给自己的机器人配上大小脑,毕竟谁也不想永远当代工厂,光有躯壳没有灵魂的机器人在市场上也很难有差异化竞争力。这样一来,双方都在向对方的领域渗透,全栈技术几乎成了实力玩家的理想选择。


更关键的是,真正复杂的应用场景下,各个技术模块必须深度协同才能发挥作用,简单的技术拼凑很难应对火场救援、精密操作这些高难度任务。 


而且,作为一家央企,TeleAI 本就承担着抢占科技制高点、提升国有企业国际竞争力、推动国有企业产业升级的重任,因此全栈自研对于别人来说是「选择题」,对于他们来说却是「必答题」。而只有把必答题都做好,央企才算真正兑现了国家赋予他们的时代使命。


硬件、软件、数据……

TeleAI 展开了全方位的技术探索


那 TeleAI 在这些必答题上答得怎么样了呢?从公开资料和 WAIC 现场的介绍中,我们发现了很多「亮点」。这些亮点不止增强了 TeleAI 的竞争力,还为整个具身智能行业贡献了新的思路。


自研、不受限的硬件


现在做机器人的公司很多,但真正自研硬件的并不多,大部分都是从宇树、波士顿动力这些厂商采购标准本体,然后在上面跑自己的算法。这种做法当然有好处,省时省力,能快速出 demo。但问题是,你永远受限于别人硬件的能力上限,想要的功能实现不了,算法再优秀也白搭。


TeleAI 显然不想走这条路。从现场展示的情况来看,他们在硬件上下的功夫一点也不比软件少。


如我们所料,展区的小机器人确实不是采购的标准本体,而是从算法到硬件都走了自研路线。从现场来看,它能稳稳地站立和行走,因为内部搭载了自研的多电机协同驱动控制嵌入式硬件系统和运动控制算法。不仅如此,它的上肢还支持个性化定制。对于研发人员来说,这应该是一次非常难得的体验,因为你想要什么功能就能直接在硬件层面实现,而不用迁就别人的设计思路。更重要的是,这些在小尺寸机器人上积累的经验可以很自然地扩展到 TeleAI 即将推出的全尺寸人形机器人上。 


资讯配图


为了让全尺寸机器人更加灵活,TeleAI 还自研了一个关键部件 —— 六自由度并联腰部关节。这个听起来很技术的名字背后,其实解决的是一个很实际的问题:怎么让机器人在颠簸的路面上也能平稳行走,同时还能完成需要上肢配合的精细任务,比如端一杯水而不洒出来。他们的方案是在腰部设计一个具有三自由度转动和三自由度移动的全向防摇隔震结构,有效降低上下肢之间的相互干扰,保证行走和操作的误差隔离。


资讯配图


除了机器人本体,TeleAI 在现场展示的全身遥操作硬件平台也很有技术含量。说到遥操作,它的核心是将操作者的动作同步传递给远端设备。它既能给真实场景部署机器人提供安全底线,又能在此过程中收集真实世界的数据。这其实是通往自主操作路上一个非常重要的中间步骤,就像自动驾驶场景中的「安全员」。如果遥操作系统足够完善,自主操作所需的数据飞轮就能很快建立起来。


但现实是,大多数遥操作系统还做不到真正的「遥」。受限于通信基础设施,它们基本只能在室内近距离操作,这就大大限制了应用场景。TeleAI 的创新在于利用自家的 5G 专网和智传网(将 AI 与通信融合起来的一项基础设施)技术,把遥操作的工作范围扩展到了公里级。这意味着什么?在火场、没有氧气的机房这些危险环境中,机器人可以作为人类的「替身」去完成任务,而操作员可以在安全距离之外进行控制。此外,它还能帮忙收集一些实验室很难收集到的负样本。



从硬件层面来看,TeleAI 的思路很清晰:与其像大多数公司那样采购标准本体然后跑自己的算法,不如从底层开始自研。这种做法的价值不仅仅是为了差异化,更重要的是能为国内机器人硬件行业带来新的技术思路。软硬件一体化往往能通过双方的相互迭代和配合,催生意想不到的创新。


大小脑协同的软件架构


如果说硬件是机器人的「躯壳」,那么大脑和小脑就是它的「灵魂」。不过在软件这块,行业面临的挑战和硬件端又不太一样。 


先说大脑。现在做机器人大脑的公司都有一个共同的痛点 —— 数据。训练一个聪明的机器人大脑需要海量的操作数据,但问题是,大家都在用自家的机器人采集数据,结果就是数据和特定硬件强绑定了。用 A 家灵巧手采集的数据,训练出的模型很难直接用在 B 家的夹爪上;即使都是做抓取,不同的机器人本体之间也很难共享数据。这就造成了一个尴尬的局面:虽然整个行业的数据总量看起来不少,但分散到每个具体的机器人平台上,又变得很稀缺了。


这种数据孤岛不仅限制了单个公司的发展速度,更阻碍了通用操作模型的进步。毕竟,如果每家公司都只能用自己那点数据训练模型,那距离真正智能的机器人大脑还有很长的路要走。


TeleAI 显然意识到了这个问题,他们的解决思路是:通过跨本体 VLA 大模型,在统一的隐空间内,对齐不同机器人本体的动作空间。简单来说,不管你的机器人有 20 个自由度,还是只有 7 个,这个模型都能找到一种通用的「语言」来描述它们的动作。 


基于这种对齐,模型在训练时就能利用所有不同来源的数据,而不再局限于特定硬件。这样带来的效果是显著的:当需要将模型部署到一个新的机器人平台时,仅需要极少量的样本数据进行微调,就能实现高效的泛化。以下视频中「分钟级」厨房长序列操作任务的执行就是这种泛化性的直观体现。



再来说小脑。小脑的问题非常直观 —— 很多机器人压根站不稳,更别说做复杂动作了。 


你可能还记得机器人马拉松上那些「花式摔倒」的名场面,很多都是小脑出了问题。现在市面上的机器人,要么只会单一的走路步态,遇到不平的地面就懵了;要么虽然能做一些炫酷动作,但稳定性堪忧,动不动就失去平衡。更关键的是,很多机器人的运动控制还停留在预设轨迹的层面,缺乏对环境的感知和自适应能力。 


这种状况的根本原因在于,很多团队把小脑当成了一个单纯的控制问题来解决,用传统的控制算法让机器人「按部就班」地执行动作。但真实环境远比实验室复杂,地面有高低起伏,还可能有各种突发状况,这时候僵化的控制策略就暴露出了局限性。 


TeleAI 在小脑这块的思路是:既然真实环境这么复杂,那就让机器人学会更多种步态,然后根据实际情况灵活切换。他们开发的统一多步态混合专家模型让机器人掌握了走、跑、跳、蹲、爬等超过 10 种步态能力,更重要的是,机器人能利用视觉传感器感知地形,然后从这个「步态库」中自主选择最合适的方式来应对不同的地面条件。



但 TeleAI 的野心显然不止于此。他们还向武术、舞蹈这些高难度仿人运动发起了挑战,构建了高动态具身小脑。这块的技术难度要比普通的行走控制高出不少,因为武术动作不仅要求精确,还要保持连贯性和稳定性。


他们的解决方案有两个核心创新:一是通过物理约束驱动的动作预处理,确保从视频中提取的动作对机器人来说是物理可行且稳定的;二是采用了一种动态调整精度的自适应跟踪机制,让机器人先学习长段动作的基本轨迹,再逐步提高模仿的精度。这种由粗到精的学习方式,既保证了训练的稳定性,又确保了最终动作的质量。


正是通过这些技术,TeleAI 成功让机器人实现了分钟级的长序列武术表演动作兼具稳定性和表现力。同时,他们还开源了这项研究的代码,为整个行业贡献了高效的小脑方案。


资讯配图

TeleAI 的高动态仿人运动相关研究 ——KungfuBot。开源地址:https://github.com/TeleHuman/PBHC


TeleAI 近期将这项工作进行了升级,首先支持了文生视频接口,由星辰大模型生成人类复杂动作视频,随后由机器人模仿人类行为,实现文生视频人物和机器人高度同步;其次扩展了武术动作的长度,首次实现人形机器人「分钟级」武术动作复刻



当然,有了聪明的大脑和灵活的小脑还不够,关键是要让它们能够有效协同。我们发现,TeleAI 在大小脑协同方向也做了一些工作,比如能让机器人在摇晃的公交车上刷卡的全身协同系统 ——ALMI。他们还同步开源了超 80000 条高质量全身协同数据,在算法和数据方面都为行业做出了贡献。开源地址:https://github.com/TeleHuman/ALMI-Open


高效、贴近现实的具身智能数据平台


说完大脑小脑,还有一个更根本的问题需要解决 —— 数据,各种数据。这可能是整个具身智能行业最头疼的问题之一。


和做大模型的公司不同,机器人公司没法直接从互联网上「薅」数据。你想让机器人学会抓杯子,就得真的找个机器人去抓成千上万次。


很多公司想到了用仿真来解决这个问题,在虚拟环境中让机器人「练习」千万次,然后再迁移到现实中。但仿真环境再逼真,和真实世界还是有差距的。这个 Sim2Real Gap 几乎是每个做机器人的公司都会遇到的拦路虎


更麻烦的是,即使解决了仿真问题,生成数据的效率也是个大问题。很多公司的仿真平台还停留在手工搭建场景、手动设计任务的阶段,这种方式根本无法满足大规模训练的数据需求。


在这个问题上,TeleAI 的思路很有参考价值,那就是让仿真环境尽可能贴近现实,同时用 AI 来自动化生成数据。 


具体来说,他们在自己的数据平台上构建了一个逼真的虚拟世界。平台引入了真实世界的扫描资产,并通过 3D 高速点云技术,在重建场景时保留丰富的几何与语义信息。针对铰链物体等复杂资产,平台会进行物理属性的推理和重建,以满足物理稳定性和适应性的要求。


在搭建好虚拟场景后,一个由大模型驱动的「数据采集智能体」便开始在其中高效地工作。这个智能体可以自动化地执行一系列任务,包括生成多样化的操作任务、推理物体的功能、生成空间约束并自动规划生成机器人的运动轨迹。


资讯配图

开源地址:https://github.com/TeleHuman/HumanoidGen


为了让仿真数据能够更好地指导现实,平台还引入了「世界模型」作为核心驱动。世界模型本质上是一个可学习的环境模拟器,它能让智能体在其中理解环境动态、预测未来状态,甚至生成想象中的交互轨迹,从而摆脱对真实环境数据的依赖。


资讯配图

TeleAI 团队提出的两阶段双臂轨迹预测流程,通过微调文本到视频模型来预测机器人轨迹,并利用扩散策略生成动作,以应对通用性和数据稀缺性的挑战。


这个虚实结合的数据平台大大加快了 TeleAI 的研发进度,前面提到的小尺寸机器人的导航能力就是依靠该平台合成的数据训练出来的。


而且,这个数据平台其实也体现了 TeleAI 全栈技术思路的一致性。无论是前面提到的硬件自研,还是大脑小脑的协同设计,背后都有一个共同的逻辑 —— 掌握核心环节的主动权。数据作为 AI 的「燃料」,自然也不能例外。当别人还在为数据稀缺发愁时,他们已经能够自动化、规模化地生产高质量训练数据了。 


从单机到协作

TeleAI 的机器人不是「孤岛」


有了这些技术积累,一个新的问题浮出水面:机器人要真正走向实用,光靠单机智能够吗


想象一下这样的场景:机器人需要进入火场救援,或者在核辐射环境中执行任务。这些地方人类无法直接进入,但任务又极其复杂,需要机器人具备强大的感知、决策和操作能力。问题来了 —— 前面提到的那些先进技术,无论是跨本体 VLA 大模型还是高动态具身小脑,都需要强大的算力支撑。但机器人作为端侧设备,不可能背着一台服务器到处跑。


更现实的挑战是,这些复杂环境下的任务往往变化多端,单靠事先训练好的模型很难应对所有突发情况。你需要云端的大模型实时分析情况、制定策略,然后传回给机器人执行。但这就涉及到网络传输问题了 —— 高清视频、各种传感器数据需要实时上传,控制指令需要毫秒级下发,任何延迟都可能导致任务失败甚至安全事故。


从这个角度来看,前面讲的那些技术 —— 无论大脑小脑多聪明、硬件多先进 —— 如果被困在单机模式下,能发挥的作用始终有限。真正的突破在于让机器人不再是一个「孤岛」,而是整个智能网络中的一个节点。


正是基于这样的思考,TeleAI 在机器人技术之外,还在同步布局和研究一个很重要的方向——智传网(AI Flow)。简单来说,这是一套专门为 AI 应用设计的网络架构,能够让智能能力在「端、边、云」之间像数据一样自由流动。


资讯配图


对机器人而言,这意味着什么?复杂的推理任务可以交给云端的大模型处理,实时性要求高的控制任务可能在边缘侧完成,而机器人本体只需要专注于执行层面的工作。更关键的是,基于 5G 专网的通信能力,整个过程的延迟可以控制到极低,完全满足实时操控的需求。


这就是为什么 TeleAI 能够实现公里级的遥操作 —— 他们背后有一张能够支撑实时智能传输的网络。


这种端边云协同不仅解决了算力分配问题,还带来了意想不到的好处。比如,多个机器人可以共享同一个云端「大脑」的计算资源,一个机器人遇到的新情况可以快速共享给其他机器人学习。原本相互独立的机器人个体,变成了一个能够协同作战的智能网络。


从技术发展的角度来看,这种思路其实很符合当下 AI 领域的整体趋势 —— 从单点突破走向系统协同。TeleAI 的智传网技术,本质上是为具身智能提供了一个更大的「舞台」,让机器人的智能上限不再受制于本体的物理限制。这种将 AI、具身智能与通信网络深度融合的能力是他们的独特优势。


央企进军具身智能的「另一种打法」 


当我们再次看到「功夫 boy」行云流水般的武术表演时,或许应该透过现象看本质。这不仅仅是一场技术秀,更是中国具身智能产业厚积薄发的一个缩影。


从实验室的算法研究,到硬件平台的自主研发,再到数据、算力、通信等基础设施的协同,TeleAI 正在证明一件事:具身智能的未来,不在于单打独斗的技术突破,而在于生态级的协同创新。因此,虽然他们选择的技术路径投入更大、周期更长,但一旦形成闭环,便能积蓄起无与伦比的长期发展动能。


在整个具身智能行业中,TeleAI 也是最适合走这条长期路线的团队,因为中国电信本身有很多现成的场景,需要借助具身智能去实现无人化、自动化,例如算力中心的自动化巡检、运维、部件更换、清洁等。所以只要把能力搭建起来,TeleAI 的机器人就有很多场景可以去部署。


长期来看,作为央企旗下的实验室,TeleAI 全栈自研能力的提升也是国内具身智能行业自主能力的保障 —— 他们在关键节点提供可控备份,并向产业链持续输送可复用的技术模块。


这种深度整合的发展路径,或许正是中国在全球具身智能竞赛中最大的差异化优势。当技术能力与应用场景、基础设施形成有机统一时,真正的产业变革才会到来。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com