当提示词优化器学会进化，竟能胜过强化学习

机器之心
2025-07-31 16:58:21

机器之心报道

编辑：Panda

仅靠提示词优化就能超越 DeepSeek 开发的 GRPO 强化学习算法？

是的，你没有看错。近日上线 arXiv 的一篇论文正是凭此吸引了无数眼球。

这篇论文提出的 GEPA（Genetic-Pareto）采用了一种名为 reflective prompt evolution（反思式提示词进化）的技术，可以实现比 GRPO 高 20% 的性能，同时还能将 rollout 次数减少到原来的 1/35。

那么，GEPA 究竟是如何做到这一点的呢？让我们翻开这篇来自 UC 伯克利和斯坦福等多家机构的论文一探究竟。

论文标题：GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning
论文地址：https://arxiv.org/abs/2507.19457

GEPA：反思式提示词进化

GEPA 的全称是 Genetic-Pareto（遗传-帕累托），这是一种用于复合式 AI 系统的样本高效型优化器，其核心原理包括：

遗传式提示词进化
利用自然语言反馈的反思
基于帕累托的候选选择

下图给出了 GEPA 的概况。

下面则给出了 GEPA 的算法。

GEPA 的输入是一个复合 AI 系统 Φ，其中包含待优化的简单提示词、训练数据集 D_train、该任务的标准评估指标 μ、反馈函数 μ_f 以及总部署预算 B。

遗传式优化循环

给定一个复合 AI 系统 Φ，优化过程的目标是确定一组参数 ⟨Π, Θ⟩_Φ，以最大化其在任务分布上的得分。

GEPA 首先会初始化一个候选池 P，其中候选项是该复合系统中一个带有可学习参数 ⟨Π, Θ⟩_Φ 的具体实例。

一开始，该候选池仅包含基础系统的参数 —— 这是唯一候选。然后，GEPA 进入优化循环，迭代地提出新的候选项并将其添加到池中，持续此过程直至耗尽评估预算。

通过突变或杂交修改现有候选集，GEPA 可以迭代式地提出效果越来越好的候选项。相关信息则来自收集的 rollout 的学习信号以及跟踪每个新候选集的祖先。这使得 GEPA 能够在优化过程中沿着遗传树积累经验教训。每个新候选项都会继承其父级的学习信号，以及当前 rollout 的信号。

在每次迭代中，GEPA 都会从候选池中识别出有希望的候选项（候选项选择），并提议一个新的候选项（可能通过基于反思反馈对模块中的提示词执行突变，或在两个候选项之间进行杂交）并在小批量任务上评估这个新变体。如果新提出的候选项在本地小批量数据上相对于其父集表现出更高的性能，GEPA 会将该新候选项添加到候选池 P 中。这需要跟踪内部数据结构，包括跟踪新候选项的祖先，以及在 D_pareto（用于候选项选择的验证集）上对新候选项进行全面评估。

预算耗尽后，GEPA 将返回在 D_pareto 上总体性能最佳的候选项。

反思式提示词突变

在复合 AI 系统执行过程中生成的自然语言轨迹能够体现其中间推理和底层推理步骤，从而提供对每个模块行为和职责的丰富可见性。

当这些轨迹与系统的最终结果（例如成功或失败）配对时，就能提供重要的诊断价值，从而帮助将错误或成功追溯到做出的具体决策 —— 可达模块级别。

然后，LLM 可以通过反思利用这些轨迹进行隐式 credit 分配，将最终结果的成败归因到相关模块。这种反思过程可用于对各个模块进行有针对性的更新，从而对整个系统的行为进行大规模且有效的更新。

GEPA 的操作如下：给定一个在优化循环的当前迭代中进行突变的候选模块，GEPA 使用候选参数更新系统，在系统中选择一个目标模块进行改进（通过循环调度确保所有模块都收到更新），并在从训练数据集中采样的小批量上生成一些 rollout，记录它们的结果（成功 / 失败）。

通过检查系统的执行轨迹，GEPA 可以识别目标模块的输入、输出和推理。据此，GEPA 使用 LLM 反思性地检查这些信息，将成功或失败归因于模块提示词的元素，并为目标模块提出新的指令。然后，一个新的候选模块被提出，作为当前指令的副本，目标模块的提示词也更新为新提出的提示词。

GEPA 用于执行反思提示词更新的元提示词可见原论文附录部分。

评估轨迹作为诊断信号：虽然系统自身的执行轨迹已经提供了有用的信息，可以成功进行反思和提示词更新，但该团队发现了另一个高度诊断性的信息来源：评估指标 μ。

通常，评估指标 μ 会应用丰富的策略来执行评估，以得出最终分数。例如，代码评估环境会运行一系列步骤（编译、执行、性能分析等），每个步骤都会生成自然语言轨迹，然后提供标量奖励。

该团队建议，除了系统自身的执行轨迹之外，还应使用这些评估轨迹来执行反思信用分配和有针对性的提示词更新。GEPA 将其操作化为对评估指标 μ 的简单更新，以创建反馈函数 μ_f，该函数会识别评估指标执行过程中生成的相关文本轨迹，并返回最终分数以及反馈文本 (feedback_text)。只要可用，这样的反馈函数还可以提供模块级反馈（例如，在 multi-hop 系统中，评估器可以在系统每一跳之后提供反馈）。

基于帕累托的候选选择

GEPA 是一种高度模块化的算法，能够支持在每次优化迭代中选择候选的各种策略。最关键的是，候选选择策略的选择决定了优化器所采用的探索 - 利用权衡。

一种简单的策略是始终选择池中表现最佳的候选。然而，这可能导致优化器陷入提示词空间内的局部最优：一旦找到占优策略，就很难超越它，优化器会在没有学习新的、可能更好的策略的情况下耗尽其预算。

图 6a 展示了使用此策略生成的示例搜索树。具体来说，请注意搜索过程如何找到一个新的策略（第一个子节点），然后不断尝试改进它，但在多次迭代中都失败了，最终耗尽了所有的 rollout 预算。

为了解决这个问题，GEPA 采用了基于帕累托的 illumination 策略（Mouret & Clune，2015），如算法 2 所示。

具体来说，GEPA 会确定池中所有候选项中每个训练实例所取得的最高分数，从而创建一个迄今为止优化过程所取得分数的「帕累托前沿」。然后，GEPA 会编制一份至少在一项训练任务中取得最佳分数的候选项列表。这会实现对候选池的过滤，筛选出那些采用了「获胜」策略的候选项，从而保留在任何反思突变中发现的所有宝贵见解。

接下来，GEPA 会修剪那些严格占优的候选项：例如，如果候选项 2 仅在任务 1 上取得最佳分数，但候选项 3 在任务 1 和任务 2 上都取得了相同的最佳分数，则将候选项 2 移除。

最后，GEPA 会从修剪后的列表中随机抽取一个候选项，为在更多训练实例中取得最佳分数的候选项分配更高的选择概率。

在实践中，该策略有助于 GEPA 避免陷入局部最优，而无需过度扩大搜索范围。通过将资源集中在那些已经展现出有效「获胜」策略的有潜力的候选项上，GEPA 可有效地平衡探索与利用，从而能够在优化预算范围内持续改进。

GEPA 表现如何？

该团队也通过实验验证了 GEPA 的表现，并将结果总结成了 5 点观察。

观察 1：反思式提示词进化具有极高的样本效率，其性能甚至超越权重空间强化学习。

在所有四个基准测试中，GEPA 在复合 AI 系统中展现出了快速的适应性和强大的泛化能力 —— 其性能比 GRPO（使用 LoRA 进行 24,000 次 rollout）高 19%，同时 rollout 次数减少到了其 1/35。

观察 2：反思式提示词进化可使单独的指令优化性能优于联合式指令和少样本优化。

该团队使用两个领先模型（GPT-4.1 mini 和 Qwen3 8B）在四个不同的任务中对 GEPA 与 MIPROv2（一种最先进的联合式指令和少样本优化器）进行了比较。

实验发现，GEPA 在所有设置下均始终优于 MIPROv2，在 GPT-4.1 mini 上实现了高达 11.1% 的优势，在 Qwen3 8B 上实现了高达 10.3% 的优势。此外，在所有基准测试和两个模型中，GEPA 和 GEPA+Merge 的总增益均是 MIPROv2 基线的两倍以上（分别为 +16.02% 和 +14.29%，而 MIPROv2 为 +7.04%）。

值得注意的是，不同于与先前的一些研究结果（指令优化主要通过准样本 (Quasi-Exemplars) 实现改进），GEPA 的提示词通常包含完成任务的详细声明式指令，如图 2 所示。

观察 3：下一候选项的选择策略对优化轨迹和最终性能有显著影响，其中基于帕累托的采样方法具有明显的优势。

GEPA 的目标是通过利用新版本中的反馈来迭代优化提示词。为了测试基于帕累托的候选选择策略的效果，该团队考虑了一个简单的基准来实例化 SelectCandidate 策略：始终选择当前表现最佳的候选项。

如表 2 中的消融结果所示，这种方法通常会导致对提示词搜索空间的探索不够理想，最终导致性能不佳 —— 采用基于帕累托的采样策略的 GEPA 比 SelectBestCandidate 策略的性能高出 8.17%，在所有基准测试中保持了 +6.4% 的总体优势。

图 6 展示了这种简单策略与该团队提出的基于帕累托的采样策略在优化轨迹上的显著差异。

始终选择当前最佳候选往往会在下一次迭代中立即带来改进，但随后会导致优化器停滞，耗尽其整个部署预算来尝试进一步改进该特定候选。相比之下，该团队基于帕累托的采样方法通过考虑所有 Pareto 最优候选（代表迄今为止发现的所有「获胜」策略）来扩展搜索范围，从而确保在探索和利用权衡之间取得紧密平衡 —— 最终在相同的部署预算内收敛到性能更高的解答。

观察 4：经过指令优化的提示词比少样本演示提示词计算成本更低，泛化能力更强。

除了强大的泛化能力外，反思式进化的指令还具有显著的实用优势：它们通常比少样本演示提示词更短，因此计算效率更高。这种优势在复杂任务中尤为明显，因为即使是单个少样本演示也可能非常长。当使用最新技术优化少样本示例时，问题会进一步加剧。诸如 MIPROv2 等先进方法，可以联合优化多个演示以便同时使用，从而进一步增加提示词长度。

观察 5：系统感知型杂交策略可以带来巨大的收益，但突变和杂交之间的最优预算分配以及何时调用合并仍需进一步研究。

该团队确定了一种独特的系统感知型杂交策略，并将其做成了一个操作 Merge。

GEPA+Merge 的性能比 GEPA 高出 5%，在 GEPA 已经拥有的强劲性能基础上再提升 2%。详细结果见表 1。该团队将这些收益归因于 GEPA+Merge 能够识别不同的优化谱系，这些谱系已经学习了互补策略（通过演化不同的模块），并通过从每个谱系中挑选不同模块的最佳版本来合并它们，从而提出一个单一的最优候选方案。

最后，如果你也疑惑 GEPA 的读音是什么又怎么与 JEPA 区分，Yann LeCun 发推给出了相当详细的解释：

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里

点赞 (0)
分享
微信扫一扫
加入群聊
扫码加入群聊