通义实验室大火的 WebAgent 续作：全开源模型方案超过GPT4.1 , 收获开源SOTA

机器之心
2025-07-29 18:31:06

WebAgent 续作《WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization》中，作者们首次提出了对 information-seeking（IS）任务的形式化建模并基于该建模设计了 IS 任务训练数据合成方法，并用全开源模型方案取得了 GAIA 评测最高 60.1 分的 SOTA 表现。

WebShaper 补足了做 GAIA、Browsecomp 上缺少高质量训练数据的问题，通义实验室开源了高质量 QA 数据！

WebShaper 体现了通义实验室对 IS 任务的认知从前期的启发式理解到形式化定义的深化。

GitHub 链接：https://github.com/Alibaba-NLP/WebAgent
huggingface 链接：https://huggingface.co/datasets/Alibaba-NLP/WebShaper
model scope 链接：https://modelscope.cn/datasets/iic/WebShaper

图表 1：WebShaper 在 GAIA 上取得开源方案 SOTA。

WebShaper —— 合成数据范式的转变

在大模型时代，「信息检索（Information Seeking， IS）」早已不是简单的「搜索 + 回答」那么简单，而是 AI 智能体（Agent）能力的重要基石。无论是 OpenAI 的 Deep Research、Google 的 Gemini，还是国内的 Doubao、Kimi，它们都把「能不能上网找信息」当作核心竞争力。

系统性地构造高质量的信息检索训练数据成为激发智能体信息检索能力的关键，同时也是瓶颈。当前主流方法依赖「信息驱动」的合成范式 —— 先通过网络检索构建知识图谱，再由大模型生成问答对（如 WebDancer、WebWalker 等方案）。这种模式存在两大缺陷：知识结构与推理逻辑的不一致性，以及预检索内容的局限导致的任务类型、激发能力和知识覆盖有限。

资讯配图

图表 2：WebShaper 从「信息驱动」到「形式化驱动」的范式转变。

WebShaper 系统开创性提出「形式化驱动」新范式，通过数学建模 IS 任务，并基于该形式化，检索信息，合成训练数据。形式化驱动的优点包括：

1. 全域任务覆盖：基于形式化框架的系统探索，突破预检索数据边界，实现覆盖更广任务、能力、知识的数据生成。

2. 精准结构控制：通过形式化建模，可精确调控推理复杂度与逻辑结构。

3. 结构语义对齐：任务形式化使信息结构和推理结构一致，减少数据合成中产生的错误。

Information Seeking 形式化建模

图表 3：形式化建模

WebShaper 首先提出基于集合论的 IS 任务形式化模型。

该模型包含核心概念「知识投影（Knowledge Projection）」，他是一个包含实体的集合：

每个 IS 任务都由 KP 的 R - 并集（R-Union）、交集（Intersection）、递归操作构成，能够精准控制推理路径和任务复杂度；
每个 IS 任务旨在确定一个复杂的由 KP 组合而成的目标集合 T 中包含的实体。

该形式化建模让 WebShaper 不再依赖自然语言理解的歧义，而是可控、可解释、可扩展的数据合成方案。

智能体式扩展合成：让 Agent 自己「写题」

为了与形式化建模保持一致，WebShaper 整个流程开始于预先构建且形式化的基础种子任务，然后在形式化的驱动下，将种子问题多步扩展为最终的合成数据。此过程采用专用的代理扩展器 (Expander) 模块，旨在通过关键过程 (KP) 表征来解释任务需求。在每个扩展阶段，系统都会实现逐层扩展机制，以最小化冗余，同时通过控制复杂度进程来防止推理捷径。

种子任务构建

为了构建种子任务，作者下载了全部 WikiPedia，并在词条中随机游走检索信息，合成基础的种子 IS 任务。

KP 表示

IS 任务形式化模型是复杂度的，其中包含大量的交、R - 并和递归操作。为了在 Expander 中表示和使用该模型，作者提出了一种 KP 表示。其中通过引入「变量」和「常量」，以及 R - 并的可交换性质，表示了 IS 形式化模型。

如，将如下的问题：

「Which player of a team in the 2004-05 season, who was born in 90s? This team is founded in 1966 and is an East German football team.」

表示为：

资讯配图

图表 4 ：形式化表示。

逐层扩展结构

数据扩展的策略是数据合成的关键。之前的方法在我们的形式化模型中将得到下图中的 Random Structure 和 Sequential Structure：

资讯配图

图表 5 ：扩展策略对比。

这样的结构存在两个问题：

冗余性：如上图中的 Random Structure 所示，存在一些已知常量与其他已知常量相联系。在这种情况下，诸如「柏林迪纳摩是一家位于柏林的足球俱乐部」这样的句子会存在于问题中。然而，这并没有增加任务解决的推理链。
推理捷径：如上图中的 Sequential Structure 所示，存在一个将常量直接连接到目标的推理链条。如果发生这种情况，模型可能会通过仅推理较近的常量而忽略较深的序列来猜测答案。

为此，作者提出如上图所示的逐层结构，每次扩展都选择叶结点常量进行扩展，有效地解决了上述的两个问题。

扩展智能体

具体扩展是由 Expander 智能体负责执行，他接受当前问题的形式化表示：