点击下方卡片,关注“具身智能之心”公众号


作者丨Bin Liu等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

核心观点与背景

本篇综述探讨了贝叶斯统计与具身智能之间深层次的概念联系。具身智能理论认为,认知能力从根本上源于并受制于智能体与环境的实时传感器交互。这种适应性行为本质上需要在不确定性下进行持续推理。贝叶斯统计为此提供了一个原则性的概率框架,通过将知识表示为概率分布,并根据新证据更新信念。

研究指出,尽管存在这种深层概念联系,贝叶斯原则在当今的具身智能系统中并未得到广泛应用。本文通过两个关键视角分析这一现象:搜索和学习——这两个主题被Rich Sutton在著名文章"The Bitter Lesson"中强调为现代AI的核心。

搜索与学习:现代AI的两个基础主题

Rich Sutton的"The Bitter Lesson"强调,搜索和学习代表了能够随着计算能力增加而驱动AI重大突破的通用方法。搜索指系统地探索大量可能解决方案的算法,而学习则涉及通过数据训练模型以提高任务执行能力。

Sutton的"苦涩"洞见在于:研究人员设计的系统虽然在早期阶段往往成功,但性能往往会达到瓶颈。相比之下,基于可扩展的通用方法(如搜索和学习)构建的系统随着计算资源的增加而持续改进。这种"苦涩"源于研究人员往往倾向于将领域特定知识嵌入系统,这种方法最终可能阻碍长期进展。

当前具身智能的常见实践

当前主流的具身智能方法建立在AI基础模型的最新进展之上,如预训练的大型语言模型和视觉-语言模型。这些基础模型通过大规模数据驱动学习,为机器人等具身代理提供了关于世界的丰富先验知识。

然而,基础模型本身不足以满足具身智能系统的所有要求。这些模型中编码的先验知识是静态和粗粒度的,不足以指导机器人在动态环境中执行精确、细粒度的动作,特别是在训练数据未涵盖的特定领域。

从模型和算法设计的角度,目前有两种主要方法解决这一问题:

  • 基础模型驱动系统:将预训练基础模型作为更大系统的构建模块,并添加额外模块(如记忆、原子技能模型、感知、传感器控制和导航)
  • 端到端建模:收集领域特定数据,微调基础模型或基于它们训练新模型,使结果模型能够以端到端方式将感知和指令输入映射到动作

在数据驱动学习范式中,端到端方法的搜索操作通常嵌入在模型训练或微调过程中,而基础模型驱动方法可能包含用于规划的显式搜索机制,类似于AlphaGo和AlphaZero中使用的蒙特卡洛树搜索。

贝叶斯与具身智能之间的深层联系

从深层哲学角度看,贝叶斯主义和具身智能紧密相连。贝叶斯主义将概率解释为主观信念的量化,强调通过证据动态更新知识(从先验到后验)。本质上,它承认认知的不完整性,并通过迭代更新寻求逼近真理。同样,具身智能认为智能是从身体、环境和大脑的持续互动中涌现的现象,身体被视为认知的主体而非被动对象。

这种联系在论文的Table 1中得到了清晰对比,展示了贝叶斯智能与具身智能在定义、重点等方面的异同。两者共享同源的学习机制:将认知/智能视为依赖动态互动而非静态数据的过程。这符合涌现智能的范式——智能既非天生也非仅被获取,而是从智能体(包括其身体)与世界之间的持续对话中产生。

资讯配图

贝叶斯统计为处理具身智能中的不确定性提供了严格的概率框架,通过概率分布表示知识并根据新证据动态更新信念。具身智能的核心计算过程——包括感知、动作选择、学习甚至高级认知——都可以有效地解释和建模为贝叶斯推断的形式。

然而,现代具身智能的主流实现框架并非基于贝叶斯方法。从学习和搜索的角度看,贝叶斯方法与当前实践之间存在显著差距。贝叶斯学习方法通常依赖结构化先验或显式模型假设,这可能会阻碍可扩展性,与Sutton倡导的数据驱动、假设轻量的方法形成对比。

Table 2进一步对比了贝叶斯智能与Sutton"苦涩"偏好的差异,突显了模型依赖性、人类知识注入频率、学习可扩展性和搜索方法等方面的根本区别。

资讯配图

贝叶斯方法如何塑造具身智能的未来

现代具身智能系统,特别是基于深度学习和大型预训练模型的系统,已采用数据驱动、假设轻量的方法,这些方法能很好地随计算和大规模数据集扩展,这在精神上与Sutton的"苦涩"偏好一致。

然而,这种数据驱动范式的有效性取决于获取大量预先收集的训练数据,这些数据与部署环境条件高度一致。在数据稀缺的情况下,主要有两种缓解策略:

  1. 收集人类示范数据
  2. 诉诸模拟——构建物理世界的数字对应物

当前大型预训练模型(如LLMs和视觉-语言模型)最多可被视为世界模型的粗略近似,远不能支持在丰富、动态和三维物理世界中的具身智能。实际上,当今的具身AI系统通常局限于预定义的操作范围,对应于一个简化的、受约束的物理环境。这种环境有边界,而由此产生的具身AI系统仅在这些边界内有效。换句话说,这些系统在封闭物理世界中运行,而非真正开放的世界。

从终极目标看,具身智能应能在开放物理环境中发挥作用。在这种更广泛的环境中,所有在封闭世界设置中获得的知识和技能都可以被视为先验知识。当进入开放世界时,具身代理与环境进行实时传感器交互,并必须持续适应其行为。这种适应性行为从根本上需要在不确定性下进行持续推理。

具身智能的核心计算过程——包括感知、动作选择、学习甚至高级认知——可以有效地理解为贝叶斯推断的形式。这表明,旨在在开放物理世界中运行的具身智能系统可以被框架化为分层贝叶斯推断引擎。

此外,各种现成的贝叶斯方法已开发用于复杂系统的无导数全局优化,特别是在传统基于梯度的方法不适用的情况下。例如,贝叶斯优化已广泛应用于神经网络架构搜索和自动机器学习等任务。具身智能驱动的机器人系统代表了一类可以从这些贝叶斯计算工具中受益的复杂系统。

重要的是,贝叶斯方法对结构化模型假设的依赖可以放松——例如,通过在模型集合或候选模型集上操作,而不是承诺单一固定模型——从而提高现实场景中的灵活性和泛化能力。

参考

[1]Exploring the Link Between Bayesian Inference and Embodied Intelligence: Toward Open Physical-World Embodied AI Systems

资讯配图