资讯配图
资讯配图

原文作者:

Pannag Sanketi,Google DeepMind 机器人团队高级工程师兼技术主管。

Heni Ben Amor,亚利桑那州立大学副教授,互动机器人实验室主管。


几乎每天,全球各地的学术实验室或商业公司都在发布令人瞩目的新型机器人平台。特别是在人形机器人领域,它们协助工厂作业的能力正日益增强,并有望最终拓展至家庭和医院等场景。然而,要让这些机器人真正具备实用价值,它们必须拥有复杂的“大脑”来精确控制其物理躯体


传统上,为使机器人达到预期的性能表现,专家需要投入大量时间编写程序,精心设计复杂的行为脚本,并细致且反复地调整参数(如控制器增益或运动规划权重)。尽管机器学习(ML)技术展现出很大的潜力,但要让机器人学习全新的复杂行为,目前仍普遍需要大量的人工监督和系统性再设计。


在 Google DeepMind,我们一直在思考一个核心问题:如何让机器人实现更全面、更持续的学习与适应能力,从而在每次取得重大性能提升或掌握新技能时,减少对专家干预的依赖?


这一思考始终是我们机器人研究的核心驱动力。我们正在探索一种新的研究范式:让两个机器人智能体(agent)在相互对抗的环境中,达到更高的自主性,实现自我提升。这种范式旨在超越那些仅可以执行预先编程的固定任务或适应性有限的机器学习模型,转而训练出能够在实际操作中学习广泛技能的 agent。


基于我们在机器学习领域的前期工作,例如 AlphaGo 和 AlphaFold 项目,我们将目光聚焦在了乒乓球这项高难度运动上,将其作为理想的测试平台。


我们之所以选择乒乓球,是因为这项运动在一个相对受限但同时又高度动态的环境中,体现了机器人技术所面临的最严峻挑战。


要打好乒乓球,机器人必须掌握多种复杂技能:除了需要敏锐的感知能力外,还必须具备极高的精准控制力,从而以恰当的角度和速度拦截对方来球,并通过巧妙的战略决策来战胜对手。这些要素共同使得乒乓球成为开发与评估学习算法的绝佳领域——这些算法需要能够处理实时交互、复杂的物理计算、高级推理,并制定出适应性强的策略。


这些能力,不仅可直接应用于制造业等场景,甚至可能在未来适用于非结构化的家庭环境



自我提升挑战


传统的机器学习方法很难实现持续、自主的学习。以模仿学习为例,机器人通过模仿专家行为来学习,通常要求为每一项技能或其变体提供大量的人类演示数据;如果我们想让机器人持续学习新任务或随着时间的推移不断提升性能,这种对专家数据收集的依赖便会成为一个瓶颈。


同样地,强化学习通过奖励或惩罚来引导 agent 进行试错训练,但这通常需要人类设计师精心设计复杂的数学奖励函数,从而精确捕捉多维任务中的预期行为,且这些函数还需要随着机器人需要提升或学习新技能而进行调整,这无疑限制了其可扩展性


从本质上讲,这两种成熟的机器学习方法都涉及大量的人类参与,尤其是在目标设定为让机器人在初始编程之后仍能持续自我提升的情况下。


因此,我们提出了一个直接的挑战:机器人是否能够在学习与提升的循环中,以极少甚至无需人类干预的方式,自主地学习并提升其技能?



在竞争中学习:机器人vs.机器人


我们探索的一种创新方法借鉴了 AlphaGo 的策略:让 agent 通过与自身竞争来学习。我们尝试让两台机器人手臂进行乒乓球对决,这个想法虽然简单,却非常有效。当其中一台机器人发现更优策略时,其对手被迫随之适应并提升自身能力,从而形成一个技能水平持续提升的循环。



为了支撑这种学习范式所需的大规模训练,我们设计了一个完全自主的乒乓球环境。该系统可以持续运行,具备自动球收集的功能,并支持远程监控与控制,这使得我们能够在无需人工干预的情况下进行长时间的实验。


作为第一步,我们通过强化学习在模拟环境中成功训练了一个机器人 agent,并将其和复制版本部署在两个机器人上,使它们能够进行合作式对打。随后,我们在真实的机器人对战环境中对 agent 进行了数小时的微调,最终获得了一种能够维持长时间对打的策略。接着,我们将研究重点转向了竞争性的机器人对战问题。


在竞争性对战中,原本的合作式 agent 表现并不理想。这其实是可以预料的,因为在合作对打阶段,球的来回通常会稳定在一个相对狭窄的区域,这限制了 agent 能够击回的球的分布范围。


我们的假设是,如果继续在竞争性环境中进行训练,并且奖励每个机器人击败对手的行为,那么这种球的分布范围会逐渐扩大。尽管前景看起来不错,但在现实世界中通过竞争性自我对战来训练系统面临着挑战。由于模型规模的限制,分布范围的扩大实际上相当严重。


本质上,模型在有效学习新击球方式的同时,难以避免地会遗忘旧的击球方式,并且在训练过程中迅速陷入了局部最优解:短暂的对决之后,一台机器人会打出对手难以回击的制胜球,而另一台机器人则束手无策。


尽管机器人间的竞争性对战仍然是一个重大难题,我们的团队同时也探索了机器人如何与人类进行竞争性对战。在训练初期,人类玩家通常更擅长保持球在场内,这增加了机器人可以学习的击球分布范围。我们仍然需要开发一种策略架构,其应该包括具有详细技能描述的低级控制器和负责选择低级技能的高级控制器,以及支持从模拟到现实零样本迁移的技术,从而使系统能够实时适应未曾遇到过的对手。


在用户研究中,尽管机器人在与人类顶尖玩家的对决中全部落败,但它在与初学者的对决中全部获胜,并在与中级玩家的对决中取得了约 50% 的胜率,这显示出其具备了相对稳定的业余人类水平。


凭借这些创新,再加上相比合作模式更优越的起点,我们已经处于一个有利的位置,可以重新聚焦于机器人间的竞争性训练,并继续推动系统的快速扩展。


详情查看:100%打赢人类新手!DeepMind推出首个媲美人类中级选手的乒乓球机器人,正反手、旋转球都能接



当VLM成为AI教练


我们探索的另一个有趣思路是:视觉语言模型(VLM)是否能够扮演教练的角色,观察机器人的表现并提供改进建议?


资讯配图


该项目的一个关键洞见在于,VLM 可以用于实现可解释的机器人策略搜索。基于这一洞见,我们开发了 SAS Prompt(即 summarize 总结、analyze 分析、synthesize 合成)方法,其能够利用 VLM 的检索、推理和优化能力,通过迭代学习与适应机器人的行为,最终合成新的行为模式。我们的方法可以看作是一种新型可解释策略搜索方法的早期实践,并且搜索完全在 LLM 内部完成。


此外,这种方法无需依赖明确的奖励函数——VLM 能够直接根据任务描述中的观察结果来推断奖励。


因此,VLM 可以作为教练,持续分析“学生”(即机器人)的表现,并提供相应的改进建议


资讯配图



迈向真正自主学习的机器人


突破传统编程和机器学习技术的局限性,对于机器人技术的未来发展至关重要。我们正在研究的方法,其目标正是减少对繁琐人类工作的依赖。我们的乒乓球项目,就探索了机器人自主获取并提升复杂技能的途径。


尽管仍面临重大挑战——例如,稳定机器人之间的学习过程,以及扩展基于 VLM 的教练系统——但这些方法无疑提供了独特的机会。我们对此持乐观态度,在这条道路上开展持续研究,将最终带来更强大、适应性更强的机器。这些机器能够学习在我们这个结构复杂的世界中有效且安全运作所需的各种技能。


这条探索之路充满挑战,但真正智能且有益的机器人伙伴所带来的巨大潜力,使得这项研究极具价值,值得我们不懈努力。


原文链接:

https://spectrum.ieee.org/deepmind-table-tennis-robots


☟☟☟

☞人工智能产业链联盟筹备组征集公告☜


精选报告推荐:

11份清华大学的DeepSeek教程,全都给你打包好了,直接领取:


【清华第一版】DeepSeek从入门到精通

【清华第二版】DeepSeek如何赋能职场应用?


【清华第三版】普通人如何抓住DeepSeek红利?

【清华第四版】DeepSeek+DeepResearch让科研像聊天一样简单?

【清华第五版】DeepSeek与AI幻觉

【清华第六版】DeepSeek赋能家庭教育

【清华第七版】文科生零基础AI编程:快速提升想象力和实操能力

【清华第八版】DeepSeek政务场景应用与解决方案

【清华第九版】迈向未来的AI教学实验

【清华第十版】DeepSeek赋能品牌传播与营销

【清华第十一版】2025AI赋能教育:高考志愿填报工具使用指南

 10份北京大学的DeepSeek教程

【北京大学第一版】DeepSeek与AIGC应用

【北京大学第二版】DeepSeek提示词工程和落地场景

【北京大学第三版】Deepseek 私有化部署和一体机

【北京大学第四版】DeepSeek原理与落地应用

【北京大学第五版】Deepseek应用场景中需要关注的十个安全问题和防范措施

【北京大学第六版】DeepSeek与新媒体运营

【北京大学第七版】DeepSeek原理与教育场景应用报告

【北京大学第八版】AI工具深度测评与选型指南

【北京大学第九版】AI+Agent与Agentic+AI的原理和应用洞察与未来展望

【北京大学第十版】DeepSeek在教育和学术领域的应用场景与案例(上中下合集)

8份浙江大学的DeepSeek专题系列教程

浙江大学DeepSeek专题系列一--吴飞:DeepSeek-回望AI三大主义与加强通识教育

浙江大学DeepSeek专题系列二--陈文智:Chatting or Acting-DeepSeek的突破边界与浙大先生的未来图景

浙江大学DeepSeek专题系列三--孙凌云:DeepSeek:智能时代的全面到来和人机协作的新常态

浙江大学DeepSeek专题系列四--王则可:DeepSeek模型优势:算力、成本角度解读

浙江大学DeepSeek专题系列五--陈静远:语言解码双生花:人类经验与AI算法的镜像之旅

浙江大学DeepSeek专题系列六--吴超:走向数字社会:从Deepseek到群体智慧

浙江大学DeepSeek专题系列七--朱朝阳:DeepSeek之火,可以燎原

浙江大学DeepSeek专题系列八--陈建海:DeepSeek的本地化部署与AI通识教育之未来

4份51CTO的《DeepSeek入门宝典》

51CTO:《DeepSeek入门宝典》:第1册-技术解析篇

51CTO:《DeepSeek入门宝典》:第2册-开发实战篇

51CTO:《DeepSeek入门宝典》:第3册-行业应用篇

51CTO:《DeepSeek入门宝典》:第4册-个人使用篇

5份厦门大学的DeepSeek教程

【厦门大学第一版】DeepSeek大模型概念、技术与应用实践

【厦门大学第二版】DeepSeek大模型赋能高校教学和科研

【厦门大学第三版】DeepSeek大模型及其企业应用实践

【厦门大学第四版】DeepSeek大模型赋能政府数字化转型

【厦门大学第五版】DeepSeek等大模型工具使用手册-实战篇

10份浙江大学的DeepSeek公开课第二季专题系列教程

【精选报告】浙江大学公开课第二季:《DeepSeek技术溯源及前沿探索》(附PDF下载)

【精选报告】浙江大学公开课第二季:2025从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例(附PDF下载)

【精选报告】浙江大学公开课第二季:智能金融——AI驱动的金融变革(附PDF下载)

【精选报告】浙江大学公开课第二季:人工智能重塑科学与工程研究(附PDF下载)

【精选报告】浙江大学公开课第二季:生成式人工智能赋能智慧司法及相关思考(附PDF下载)

【精选报告】浙江大学公开课第二季:AI大模型如何破局传统医疗(附PDF下载)

【精选报告】浙江大学公开课第二季:2025年大模型:从单词接龙到行业落地报告(附PDF下载)

【精选报告】浙江大学公开课第二季:2025大小模型端云协同赋能人机交互报告(附PDF下载)

【精选报告】浙江大学公开课第二季:DeepSeek时代:让AI更懂中国文化的美与善(附PDF下载)

【精选报告】浙江大学公开课第二季:智能音乐生成:理解·反馈·融合(附PDF下载)

6份浙江大学的DeepSeek公开课第三季专题系列教程

【精选报告】浙江大学公开课第三季:走进海洋人工智能的未来(附PDF下载)

【精选报告】浙江大学公开课第三季:当艺术遇见AI:科艺融合的新探索(附PDF下载)

【精选报告】浙江大学公开课第三季:AI+BME,迈向智慧医疗健康——浙大的探索与实践(附PDF下载)

【精选报告】浙江大学公开课第三季:心理学与人工智能(附PDF下载)

【精选报告】浙江大学公开课第三季:人工智能赋能交通运输系统——关键技术与应用(附PDF下载)

【精选报告】浙江大学公开课第三季:人工智能与道德进步(附PDF下载)


相关阅读

干货推荐:
AI加油站】第一部:《大型语言模型应用检索增强生成:改变搜索、推荐和 AI 助手》附下载
【AI加油站】第二部:《程序员的自我修炼手册》(附下载)
【AI加油站】第三部:《大规模语言模型:从理论到实践》(附下载)
【AI加油站】第四部:《使用生成式人工智能和Python开始数据分析》(附下载)
【AI加油站】第五部:《使用生成式人工智能和Python开始数据分析》(附下载)
【AI加油站】第六部:《时间序列:建模、计算与推断》(附下载)
【AI加油站】第七部:《因果关系的逻辑理论的好书-A Logical Theory of Causality》(附下载)

【AI加油站】第八部:《模式识别(第四版)-模式识别与机器学习》(附下载)

【AI加油站】第九部:《Python深度学习(中文版)》(附下载)
【AI加油站】第十部:《机器学习方法》(附下载)
【AI加油站】第十一部:《深度学习》(附下载)
【AI加油站】第十二部:《从零开始的机器学习》(附下载)
【AI加油站】第十三部:《Transformer入门到精通》(附下载)
【AI加油站】第十四部:《LLM 应用开发实践笔记》(附下载)
【AI加油站】第十五部:《大模型基础 完整版》(附下载)
【AI加油站】第十六部:《从头训练大模型最佳实践》(附下载)
【AI加油站】第十七部:《大语言模型》(附下载)
【AI加油站】第十八部:《深度强化学习》(附下载)
【AI加油站】第十九部:清华大学《大模型技术》(附下载)
【AI加油站】第二十部:Prompt入门神书-《Prompt 学习指南》(附下载)
【AI加油站】第二十一部:吴恩达&open AI联合推出《大模型通关指南》(附下载)
【AI加油站】第二十二部:《李宏毅深度学习教程》值得反复阅读的神书!(附下载)
【AI加油站】第二十三部:Prompt经典中文教程-《提示工程指南》(附下载)
【AI加油站】第二十四部:爆火下载28万次!MIT最新神书《理解深度学习》(附下载)
【AI加油站】第二十五部:LLM4大名著,OpenAI专家强推《深度解析:大语言模型理论与实践》(附下载)
【AI加油站】第二十六部:NLP大牛Thomas Wolf等新书《Transformer自然语言处理》(附下载)
【AI加油站】第二十七部:哈工大博士耗时一年整理《PyTorch常用函数手册》,轻松掌握PyTorch的各种操作(附PDF下载)
【AI加油站】第二十八部:大模型炼丹大师必备《深度学习调优指南中文版-系统性优化模型》(附下载)
【AI加油站】第二十九部:炸裂发布!《大语言模型:导论》重磅发布!(附下载)
【AI加油站】第三十部:最值得读的LLM书!下载量10w+!《基于Transformer和扩散模型的生成式AI》(附下载)
【AI加油站】第三十一部:RL稀缺宝典!《强化学习的艺术》(附下载)
【AI加油站】第三十二部:一本醍醐灌顶的教科书!《大语言模型提示工程:构建LLM应用的艺术与科学》(附下载)
【AI加油站】第三十三部:机器学习好评榜第一《机器学习基础》(附下载)
【AI加油站】第三十四部:所有大模型领域学习者必读,没有之一!由深度学习三巨头联合撰写!(附下载)
面试推荐:
【AI加油站】AI面试专题一:BIO,NIO,AIO,Netty面试题(附下载)
【AI加油站】AI面试专题二:Git常用命令面试题(附下载)
【AI加油站】AI面试专题三:Java常用面试题(附下载)
【AI加油站】AI面试专题四:Linux系统的面试题集(附下载)
【AI加油站】AI面试专题五:Memcached 面试题集(附下载)
【AI加油站】AI面试专题六:MyBatis框架的面试题(附下载)
【AI加油站】AI面试专题七:MySQL相关的面试题资料(附下载)
【AI加油站】AI面试专题八:Netty面试题资料(附下载)
【AI加油站】AI面试专题九:Nginx的面试题资料(附下载)
【AI加油站】AI面试专题十:RabbitMQ的面试题资料(附下载)
【AI加油站】AI面试专题十一:Redis的面试题资料(附PDF下载)
【AI加油站】AI面试专题十二:Spring的面试题资料(附PDF下载)
【AI加油站】AI面试专题十三:Apache Tomcat的面试题资料(附PDF下载)
【AI加油站】AI面试专题十四:Zookeeper的面试题资料(附PDF下载)
【AI加油站】AI面试专题十五:《阿里巴巴Java开发手册》终极版的面试题资料(附PDF下载)
【AI加油站】AI面试专题十六:大数据技术面试题资料(附PDF下载)
【AI加油站】AI面试专题十七:Java并发多线程面试题资料(附PDF下载)
【AI加油站】AI面试专题十八:设计模式的面试题资料(附PDF下载)
【AI加油站】AI面试专题十九:Java虚拟机(JVM)的面试题资料(附PDF下载)
【AI加油站】AI面试专题二十:Elasticsearch的面试题资料(附PDF下载)
【AI加油站】AI面试专题二十一:TCP UDP Socket Http网络编程的面试题资料(附PDF下载)
【AI加油站】AI面试专题二十二:消息队列Kafka的面试题资料(附PDF下载)
【AI加油站】AI面试专题二十三:Spring Boot的面试题资料(附PDF下载)

人工智能产业链联盟高端社区




资讯配图
精选主题推荐:
Manus学习手册
从零开始了解Manus

DeepSeek 高级使用指南,建议收藏

一次性说清楚DeepSeek,史上最全(建议收藏)

DeepSeek一分钟做一份PPT

用DeepSeek写爆款文章?自媒体人必看指南

【5分钟解锁DeepSeek王炸攻略】顶级AI玩法,解锁办公+创作新境界!

DeepSeek接入个人微信!24小时智能助理,随时召唤!
PS×Deepseek:一句话编写PS脚本,搞定PS批量导出图层
如何让AI给自己打工,10分钟创作一条爆款视频?
荐:
【中国风动漫】《姜子牙》刷屏背后,藏着中国动画100年内幕!
【中国风动漫】除了《哪吒》,这些良心国产动画也应该被更多人知道!

【中国风动漫】《雾山五行》大火,却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折!

资讯配图
声明

免责声明:部分文章和信息来源于互联网,不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题,请立即与小编联系(微信号:913572853),我们将迅速采取适当的措施。本订阅号原创内容,转载需授权,并注明作者和出处。如需投稿请与小助理联系(微信号:AI480908961)

编辑:Zero

资讯配图


资讯配图
资讯配图

资讯配图