点击下方卡片,关注“大模型之心Tech”公众号

戳我 -> 领取大模型巨卷干货


写在前面 & 笔者的个人理解

普林斯顿大学、普林斯顿AI Lab、清华大学、卡内基梅隆、上交等团队最新的自进化Agent综述!系统梳理了这个关键节点,尤其展开研究了三个核心问题:

  1. 进化什么?(模型、记忆、工具、架构等)
  2. 何时进化?(Test-Time 阶段内 vs 阶段间)
  3. 如何进化?(通过奖励、反馈、记忆、搜索等机制)

我们总结了相关都最新算法、评估指标与基准任务,并总结了多个应用场景,旨在探讨面向 Super Intelligence 的长期路径 。

  • arXiv: https://arxiv.org/pdf/2507.21046
  • HuggingFace:https://huggingface.co/papers/2507.21046
  • GitHub: https://github.com/CharlesQ9/Self-Evolving-Agents

大语言模型(LLMs)在多种任务中展现了卓越的能力,但其本质上仍是静态的,无法在面对新任务、不断进化的知识领域或动态交互环境时调整其内部参数。随着LLMs被越来越多地部署于开放、交互式环境中,这种静态特性已成为一个关键瓶颈,迫切需要能够实时进行自适应推理、行动和进化的智能体。这一范式转变——从扩展静态模型转向开发自我进化的智能体——激发了人们对能够实现从数据、交互和经验中持续学习与适应的架构和方法的日益关注。本综述首次对自我进化智能体进行了系统而全面的回顾,围绕三个基础维度组织该领域:进化的对象(what to evolve)、进化的时机(when to evolve)和进化的机制(how to evolve)。我们考察了智能体各组成部分(例如,模型、记忆、工具、架构)的进化机制,按阶段(例如,测试内、测试间)对适应方法进行分类,并分析了指导进化适应的算法与架构设计(例如,标量奖励、文本反馈、单智能体与多智能体系统)。此外,我们分析了专为自我进化智能体定制的评估指标和基准,重点介绍了其在编程、教育和医疗等领域的应用,并指出了在安全性、可扩展性和协同进化动态等方面的关键挑战与研究方向。通过提供一个理解与设计自我进化智能体的结构化框架,本综述为推进研究和现实应用中更具适应性、鲁棒性和多功能性的智能体系统建立了路线图,最终为实现人工超级智能(ASI)铺平道路——在该愿景中,智能体能够自主进化,在广泛的任务上达到甚至超越人类水平的智能。

资讯配图

简介

It is not the most intellectual of the species that survives; it is not the strongest that survives; but the species that survives is the one that is able best to adapt and adjust to the changing environment in which it finds itself -- Charles Darwin

大语言模型(LLMs)在多种任务中展现了卓越的能力。然而,它们本质上仍是静态的,在面对新任务、不断进化的知识领域或动态交互环境时,无法调整其内部参数。随着LLMs越来越多地被部署于开放、交互式的环境中,这一局限性已成为一个关键瓶颈。在此类场景中,传统的知识检索机制显得力不从心,从而催生了能够实时动态调整其感知、推理和行动的智能体。这种对动态、持续适应性的新兴需求,标志着人工智能领域的一次概念性转变:从扩大静态模型的规模,转向开发能够从新数据、交互和经验中实时持续学习的自进化智能体,从而打造出更稳健、更灵活、更有能力应对复杂动态现实世界问题的系统。这一转变正引领我们走向通往人工超级智能(ASI)的一条充满希望且具有变革性的道路,在此愿景中,智能体不仅能以不可预测的速度从经验中学习和进化,还能在广泛的任务上达到甚至超越人类水平的智能。

与受限于无法适应新奇和不断变化环境的静态LLMs不同,自进化智能体旨在通过持续从现实世界反馈中学习来克服这些局限。这一发展重塑了我们对智能体的理解。作为核心概念,自进化智能体将成为ASI的先驱,扮演着为智能的终极进化铺平道路的中介角色,如图1所示。近期的研究工作日益聚焦于开发能够从经验中持续学习和适应的自适应智能体架构,例如在智能体框架、提示策略以及不同优化方式以实现进化方面的最新进展。尽管取得了这些进步,现有的综述大多将智能体进化作为其综合智能体分类中的一个次要组成部分。先前的综述主要提供了对通用智能体开发的系统性概述,而对自进化智能体在受限场景下的自进化机制的覆盖则非常有限。例如,Luo等人讨论了自我学习和多智能体协同进化等多种进化方式,而Liu等人则明确从智能体的不同组成部分(如工具和提示)的角度引入了进化概念。此外,一些研究专门关注语言模型本身的进化,而非智能体这一更广泛的概念。然而,目前尚无一项系统性综述致力于将自进化智能体作为首要研究范式进行专门且全面的探讨。这一空白导致一些根本性问题尚未得到充分探索:智能体的哪些方面应该进化?适应应在何时发生?以及在实践中应如何实现这种进化?

据我们所知,这是第一篇专注于自进化智能体的系统性、全面性综述,为理论探究和实际部署提供了清晰的路线图。我们围绕三个基础性问题——“进化什么”、“何时进化”和“如何进化”——来组织我们的分析,并为每个问题提供一个结构化框架。具体而言,我们系统地审视了智能体的各个组成部分,包括模型、记忆、工具及相应的工作流程,研究了它们各自独特的进化机制;然后,我们根据不同的时间阶段,将现有的进化方法划分为不同的学习范式,例如监督微调、强化学习和推理时进化(;最后,我们总结了指导智能体进化的不同信号(如文本反馈或标量奖励)以及智能体进化的不同架构(如单智能体和多智能体进化)。此外,我们回顾了用于追踪自进化智能体现有进展的评估指标和基准,强调了智能体与评估之间协同进化的重要性。我们还探讨了在编程、教育和医疗等领域的新兴应用,这些领域中持续适应和进化至关重要。最后,我们指出了持续存在的挑战,并概述了有前景的研究方向,以指导自进化智能体的发展。通过对自进化过程在正交维度上的系统性分解,我们提供了一个结构化且实用的框架,使研究人员能够系统地分析、比较和设计更稳健、更具适应性的智能体系统。总而言之,我们的主要贡献如下:

  • 建立了一个统一的理论框架,用以描述智能体系统中的自进化过程,该框架围绕三个基本维度:进化的对象、进化的机制和进化的时机,为未来自进化智能体系统的设计提供了明确的指导。
  • 进一步研究了专为自进化智能体定制的评估基准或环境,突出了与适应性、鲁棒性和现实世界复杂性相关的新兴指标和挑战。
  • 展示了在自主软件工程、个性化教育、医疗保健和智能虚拟助手等多个领域的关键实际应用,阐明了自进化智能体的实际潜力。
  • 指出了关键的开放性挑战和有前景的未来研究方向,强调了安全性、个性化、多智能体协同进化和可扩展性等方面。

通过本综述,我们为研究人员和从业者提供了一个更结构化的分类体系,以便从不同角度理解、比较和推进自进化智能体的研究。随着基于LLM的智能体越来越多地被集成到关键任务应用中,理解其进化动态变得至关重要,这已超越了学术研究的范畴,延伸至工业应用、监管考量以及更广泛的社会影响。

定义与基础

在深入进行全面的综述之前,我们首先为自进化智能体(self-evolving agents)提供一个正式的定义,并介绍其关键方面的分类体系。我们还将讨论自进化智能体与其他著名学习范式(如课程学习、持续学习、模型编辑和遗忘)之间的关系,以突出自进化智能体的适应性、动态性和自主性本质。

定义

环境 我们首先将智能体系统所处的环境(包括用户和执行环境,例如Linux shell)定义为一个部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP),表示为一个元组 ,其中:

  •  是一组潜在目标。每个  是智能体需要实现的任务目标,例如一个用户查询。
  •  是一组状态。每个  代表环境的内部状态。
  •  是一组动作。每个动作  可以是文本推理、检索外部知识和调用工具的组合。
  •  是状态转移函数,它定义了在给定动作  下,从状态  转移到状态  的概率,即 
  •  是奖励函数,它为在状态  执行动作  提供一个标量奖励信号 
  •  是一组观测值。每个观测值  代表环境向智能体提供的信息,例如网页内容或API响应。
  •  是观测函数,它定义了在状态  下生成观测值  的概率,即 
  •  是折扣因子,用于衡量未来奖励的重要性。

智能体 智能体  是一个从观测值序列映射到动作的策略 ,即 。该策略可以由一个大型语言模型(LLM)实现,其参数为 。智能体通过与环境的交互来完成任务 ,其目标是最大化累积奖励 

自进化智能体 自进化智能体是一种能够通过与环境的交互,自主地、持续地改进其自身组件(如模型、记忆、工具和工作流)的智能体。这种改进旨在增强其在当前和未来任务上的性能、适应性和通用性。与传统的静态模型或仅在推理时通过上下文学习(ICL)进行适应的智能体不同,自进化智能体能够通过多种机制(如参数微调、记忆更新、工具创建和架构调整)实现更深层次的、持久的进化。

资讯配图

与其他工作的关系

资讯配图

自进化智能体与多个现有的学习范式密切相关,但又有着本质的区别。理解这些关系有助于明确其独特性。

资讯配图
  • **课程学习 (Curriculum Learning)**:课程学习通过从简单任务到复杂任务的有序安排来训练模型。虽然课程学习关注学习过程的顺序,但它通常是在一个固定的模型架构和参数集上进行的。自进化智能体则更进一步,不仅学习任务本身,还能动态地调整其内部结构(如创建新工具或优化工作流)以适应不断变化的挑战,体现了更强的自主性和适应性。

  • 持续学习 / 终身学习 (Lifelong Learning):持续学习旨在让模型在不遗忘旧知识的前提下,持续学习新任务。它主要关注知识的保留(Retention)和前向迁移(Forward Transfer)。自进化智能体不仅包含了持续学习的目标,还强调了后向迁移(Backward Transfer, BWT)——即通过新任务的经验来提升在旧任务上的表现——以及更广泛的适应性(Adaptivity)和效率(Efficiency)。此外,自进化智能体的“进化”不仅限于模型参数,还涵盖了工具、记忆和架构等多个层面。

  • **模型编辑 (Model Editing)**:模型编辑技术旨在对预训练模型的特定知识进行精确、局部的修改,而无需对整个模型进行重新训练。这可以看作是自进化智能体在“模型”层面的一种特定进化方式。然而,自进化智能体的进化范围更广,不仅包括参数层面的编辑,还包括通过创建新工具或更新记忆库来扩展能力,其目标是实现更全面、更自主的系统级进化。

  • 遗忘 (Unlearning):遗忘是指从模型中移除特定知识或能力的过程。这在自进化智能体中也是一个重要的考量,尤其是在需要遵守隐私法规或纠正错误知识时。一个成熟的自进化框架应该能够同时支持知识的“习得”和“遗忘”,以确保其行为的安全性(Safety)和可控性。

资讯配图

What to Evolve?

从预编程的静态系统向真正自主的智能体转变,其关键在于一个核心能力:自进化。这种持续改进的能力并非单一的;相反,它体现在智能体自身的各个方面。因此,自进化智能体的第一个关键方面是识别进化的组件——在智能体系统  中,哪些组件可以随着时间的推移被明确地改变?

我们可以将智能体系统分解为四个基本的、可进化的支柱。

我们的研究首先从智能体的认知核心——模型  开始,探讨如何通过智能体自身的经验持续更新其推理和行为的基本参数。然后,我们考虑塑造其行为的上下文 ,研究其遵循的指令以及用于保持信息并适应的长期记忆的进化。在这一内部基础之上,我们转向智能体的外部能力,分析它如何通过自主创建、掌握和管理新技能来进化其工具集 ,以克服其固有的局限性。最后,我们将视角扩展到智能体系统本身,研究如何动态优化智能体系统的架构和协作结构,以提升整体性能和效率。我们在表2中展示了这些进化维度的一个子集。

资讯配图

When to Evolve

基于大语言模型(LLM)的智能体的自进化在时间维度上,主要关注学习过程与任务执行之间的关系。因此,自进化智能体的第二个关键方面是确定进化的时机,即在哪个阶段调用并应用自进化策略  到智能体系统上。为此,我们提出一个分类体系,区分两种时间模式的自进化:测试时内自进化(Intra-test-time self-evolution)和测试时外自进化(Inter-test-time self-evolution)。

测试时内自进化指的是在任务执行期间发生的适应性过程。在此模式下,智能体在面对特定问题时识别出自身的局限性,并启动有针对性的学习机制,以实时增强其能力。这种进化模式的特点是与当前任务紧密耦合:智能体针对所遇到的具体问题提升其解决问题的能力,从而在性能与适应性之间形成一种动态的相互作用。

测试时外自进化指的是在任务完成之间发生的学习过程,它利用积累的经验来提升未来的表现。这一类别涵盖了多种方法论途径:通过迭代精炼从预先收集的数据集中提取知识的离线学习范式,以及基于流式交互数据持续适应的在线学习范式

在这些不同时间阶段实现自进化,依赖于大语言模型中的三种基本学习范式:

  1. 上下文学习(In-context learning, ICL):通过上下文中的示例来调整行为,而无需修改模型参数。
  2. 监督微调(Supervised fine-tuning, SFT):在标注数据上通过基于梯度的优化来更新模型权重。
  3. 强化学习(Reinforcement learning, RL):通过基于奖励的策略优化来塑造行为。

尽管这些学习范式在不同的时间背景下概念上保持一致,但它们在数据可用性和学习目标方面存在差异:

  • 测试时内自进化的特点是其在线性(online nature):学习数据在任务执行过程中动态产生,优化目标直接针对提升当前问题实例的性能。这种实时耦合要求具备能够处理学习数据和反馈信号,并在主动解决问题的时间限制内修改行为的快速适应机制。
  • 相比之下,测试时外自进化的特点是其回顾性(retrospective nature):学习算法作用于历史数据(无论是来自精心策划的数据集还是积累的行为轨迹),其优化目标旨在提高在任务分布上的预期性能,而非最大化某个特定问题实例的成功率。这种时间上的解耦使得更复杂的学习程序(learning procedures)成为可能,这些程序能够识别跨任务的模式、整合多样化的经验,并发展出可泛化的能力(capabilities),而不受主动执行任务时紧迫性的限制。
资讯配图

How to Evolve

追求自进化是构建先进、自主且日益通用的人工智能的核心。对于大语言模型(LLMs)及其智能体扩展而言,如何持续、自主且高效地进化其能力已成为一个核心挑战。因此,第三个关键方面是如何实现进化

与在静态数据集上训练或一次性监督微调不同,自进化强调一个持续的过程:模型从真实世界的交互中学习,主动寻求反馈,进行自我反思,生成或整理新数据,并根据动态环境调整其策略。这种持续的进化不仅仅是扩大数据或计算规模的问题;它要求智能体获得一系列元能力,包括自我纠错、自主数据生成、知识迁移和多智能体协作。因此,自进化的格局变得越来越丰富和多面化,每个方法论分支都在探索不同的反馈轴、学习范式、数据源和进化尺度。

本章旨在系统地梳理和分析主要的自进化方法家族,为理解其原理、机制和相互作用提供一个统一的框架。我们首先从基于奖励的进化开始,该方法的核心在于设计奖励信号——从自然语言反馈和内部置信度指标到外部或隐式信号——以指导迭代的自我改进。接着,我们探讨模仿与示范学习,即智能体通过学习高质量的范例(无论是自我生成的,还是由其他智能体或外部来源提供的)来提升自身能力。当示范丰富或能够自主合成时,这一范式尤其强大,并已在推理和多模态领域推动了显著进展。最后,我们介绍基于群体和进化的方法,这些方法借鉴了生物进化和集体智能的灵感。这些方法维护着智能体变体或协作智能体的群体,利用选择、变异、交叉和竞争等机制并行探索解空间,促进多样性,并催生出新颖的策略或架构创新。

资讯配图
资讯配图
资讯配图
资讯配图

Where to Evolve?

自进化智能体已在众多领域和应用中推动了显著进步。总体而言,这些应用可以系统地分为两大类:(1)通用领域进化(general domain evolution),即智能体系统通过进化以扩展其在各种任务中的能力,这些任务大多处于数字领域;以及(2)专用领域进化(specialized domain evolution),即智能体专门针对特定任务领域进化,以提升其在该领域的专业能力。本质上,通用型智能助手的进化侧重于将学习到的经验迁移到更广泛的任务集上,而专用智能体的进化则侧重于在特定领域内深化其专业知识。

资讯配图

Evaluation of Self-evolving Agents

评估自进化智能体带来了一系列独特的挑战,这些挑战超出了对静态人工智能系统的传统评估范畴。与通常在固定任务集上于单一时间点进行评估的传统智能体不同,自进化智能体旨在通过与动态环境的持续交互来不断学习、适应和改进。因此,对它们的评估不仅需要捕捉即时的任务成功率,还必须涵盖其他关键方面,例如随时间推移的适应能力、知识的积累与保留、长期泛化能力,以及将在顺序或全新任务中习得的技能进行迁移的能力,同时还要减轻灾难性遗忘的影响。这就要求我们必须从根本上从传统的“一次性”评估模式,转向对其成长轨迹的纵向审视。

资讯配图
资讯配图
资讯配图
资讯配图

未来方向

个性化人工智能智能体

随着对自进化智能体兴趣的日益增长,部署个性化智能体已成为研究界一项至关重要且日益重要的目标 。例如,在聊天机器人、数字孪生和情感支持对话等应用中,一个关键挑战是使人工智能智能体能够准确捕捉并适应用户在长期互动中的独特行为模式或偏好。现有的个性化智能体通常严重依赖于标注数据和后训练方法。最近,WIN-GPT利用电子健康记录创建患者的数字孪生体,从而提高了临床试验结果预测的准确性。然而,这些现有策略都基于一个关键假设,即大语言模型能够持续获得高质量、大规模的用户数据。在实际部署场景中,主要挑战仍然是冷启动问题:即使初始数据有限,智能体也需要逐步完善其个性化理解,准确解读用户意图,并有效构建用户画像。此外,在个性化规划与执行方面仍存在重大挑战,例如有效的长期记忆管理、外部工具集成以及个性化生成(确保输出始终与个人用户的事实和偏好保持一致)。更重要的是,必须确保自进化智能体不会无意中强化或加剧现有的偏见和刻板印象,这凸显了未来研究的另一个关键方向。

随着个性化数据的整合,用于评估个性化自进化智能体的指标应超越内在评估(例如,使用ROUGE 和BLEU 等指标直接评估个性化生成文本的质量)或外在评估(例如,通过推荐系统、分类任务和其他特定应用间接评估个性化效果)。传统的个性化评估指标往往无法充分捕捉自进化智能体固有的动态进化特性。因此,未来的研究呼吁开发更轻量级、更具适应性的评估指标。此外,为了更好地评估自进化个性化智能体,显然需要灵活、动态的基准测试,能够准确评估智能体的性能,特别是在其自进化过程中管理长尾个性化数据方面。

泛化能力

自进化智能体在实现跨不同任务领域和环境的强健泛化方面也面临着相当大的挑战。专业化广泛适应性之间的根本性矛盾,仍然是该领域最紧迫的挑战之一,对可扩展性、知识迁移和协同智能有着重大影响。

可扩展的架构设计:开发可泛化的自进化智能体,其核心挑战在于设计出可扩展的架构,使其在复杂性和范围增加时仍能保持性能。当前的智能体系统经常面临专业化与泛化之间的权衡,即为特定任务优化的智能体在面对新环境时,难以将其学到的行为进行迁移。此外,基于大语言模型(LLM)的智能体在进行动态推理时,其计算成本会随着适应机制复杂性的增加而非线性地增长,这在现实的资源限制下,对可实现的泛化能力构成了实际约束。近期研究表明,配备反思能力记忆增强功能的自进化智能体在提升泛化能力方面展现出巨大潜力,尤其是在小型、资源受限的模型中。然而,这些方法在应对需要长期持续适应的复杂现实场景时,仍然存在局限性。

跨领域适应:实现跨领域的泛化是自进化智能体面临的一个关键前沿。当前的方法通常依赖于特定领域的微调,这限制了智能体在不进行重新训练的情况下适应新环境的能力。近期在测试时扩展(test-time scaling)和推理时适应(inference-time adaptation)方面的进展,为增强跨领域泛化提供了有前景的途径。这些技术允许智能体通过在推理过程中动态分配额外的计算资源,来应对不熟悉的场景,从而避免了增加模型参数的需要。此外,元学习(meta-learning)策略在促进向新领域的快速少样本(few-shot)适应方面也表现出相当大的潜力。然而,这些方法的有效性在很大程度上取决于智能体准确判断何时需要额外计算资源,并高效地将这些资源分配到不同推理任务上的能力。

持续学习与灾难性遗忘:自进化智能体必须在不断适应新任务的同时,保留先前获得的知识,而LLM固有的灾难性遗忘(catastrophic forgetting)现象使这一挑战更加严峻。在基于基础模型的智能体中,稳定性与可塑性之间的两难困境尤为突出,因为为每个新任务重新训练的计算成本过高,难以承受。近期研究探索了参数高效微调方法、选择性记忆机制和增量学习策略,以在保持适应性的同时减轻灾难性遗忘。尽管如此,如何在效率和防止模型漂移之间取得最佳平衡,仍然是一个重大的开放性挑战,尤其是在智能体在资源受限或处理具有严格隐私要求的流数据时。

知识可迁移性:近期研究发现了人工智能智能体在知识迁移方面的关键局限性。这些工作指明了几个重要的未来研究方向:1)有必要更好地理解一个智能体所获得的知识在何种条件下可以被可靠地泛化并传递给其他智能体;2)开发量化智能体知识迁移能力局限性的方法,可以更清晰地揭示智能体协作中的瓶颈;3)需要建立明确的机制来鼓励形成稳健、可泛化的世界模型,这可以显著提高自进化智能体的协作效能。

安全与可控的智能体

随着自主人工智能智能体在学习、进化和独立执行复杂任务方面的能力日益增强,越来越多的基于智能体的研究正在将重点转向部署更安全、更可控的智能体。这些安全问题主要源于用户相关风险(例如,模糊或误导性的指令导致智能体执行有害操作)以及环境风险(例如,接触到恶意内容,如网络钓鱼网站链接)。

许多研究旨在解决智能体自动适应带来的安全问题。例如,TrustAgent 实施了事前规划、事中规划和事后规划策略,以促进更安全的智能体行为。此外当目标涉及欺骗性或不道德的方法时,管理智能体的行为会带来进一步的困难,因为持续学习的不确定性加剧了可控智能体部署过程中的这些安全挑战。这种不确定性同样体现在模糊的上下文和设计不佳的记忆模块中。因此,部署一个可靠、可控且安全的自进化系统已成为一个关键问题。

未来的研究应着重于收集更大规模、更多样化的现实场景数据,以支持对安全行为的全面学习。进一步完善“智能体宪法”(Agent Constitution),通过制定更清晰、更易理解的规则和案例库,这一点至关重要。此外,探索更安全的训练算法,并深入研究隐私保护措施对智能体效率的影响,是实现自主人工智能智能体更平衡、更安全部署的必要步骤。

多智能体生态系统

多智能体自进化系统面临着若干独特的挑战,需要进一步探索。

平衡个体与集体推理:近期研究凸显了在多智能体环境中平衡独立推理与有效群体决策的困难。尽管集体讨论可以显著增强诊断推理能力,但智能体往往存在过度依赖群体共识的风险,从而削弱其独立推理能力。为缓解这一问题,未来的研究应探索能够动态调整个体与集体输入相对权重的机制。这种方法有助于防止决策被单个或少数几个智能体主导,最终促进稳健、平衡的共识构建与创新。此外,开发明确的知识库和标准化的更新方法论——利用智能体的成功与失败经验——可以进一步提升智能体的自进化能力,并加强其在协作环境中的个体推理贡献。

高效的框架与动态评估:另一项关键挑战在于开发高效的算法和自适应框架,使智能体能够在协作的同时,保持其个体决策的优势。解决这一问题需要新的框架,这些框架必须明确地整合持续学习和自适应协作机制。此外,现有的多智能体评估基准大多是静态的,因此无法捕捉智能体角色的长期适应性和持续进化。未来的基准应纳入动态评估方法,以反映持续的适应、不断演变的交互以及多智能体系统内的多样化贡献,从而为自进化智能体提供更全面的评估指标。

结论

自进化智能体的出现标志着人工智能领域的一次范式转变,它推动了人工智能从静态、单一的模型向能够持续学习和适应的动态智能体系统演进。随着语言智能体越来越多地被部署在开放、互动的环境中,智能体必须具备进化能力,能够根据新任务、新知识和反馈来调整其推理过程、工具和行为,这对于构建下一代智能体系统至关重要。在本综述中,我们首次对自进化智能体进行了全面而系统的回顾,围绕三个基础性问题展开:智能体的哪些方面应该进化、进化应在何时发生,以及如何有效地实施进化过程。此外,我们还讨论了多种评估自进化智能体进展的方法,包括衡量指标和基准测试,并介绍了相应的应用和未来研究方向。展望未来,充分发挥自进化智能体的潜力对于奠定人工超级智能(ASI)的基础至关重要。这些智能体的进化将需要在模型、数据、算法和评估实践等方面取得重大进展。解决灾难性遗忘、在自主进化过程中实现与人类偏好的对齐,以及智能体与环境的协同进化等问题,将是解锁不仅具备适应性,而且值得信赖且符合人类价值观的智能体的关键。我们希望本综述能为研究人员和从业者提供一个基础性框架,以设计、分析和推进自进化智能体的开发与进步。

大模型之心Tech知识星球交流社区

我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。 

星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo大模型预训练后训练知识蒸馏量化推理模型MoE强化学习RAG提示工程等多个版块)、科研/办公助手AI创作工具/产品测评、升学&求职&岗位推荐,等等。

星球成员平均每天花费不到0.3元,加入后3天内不满意可随时退款,欢迎扫码加入一起学习一起卷!

资讯配图