Akash Bajwa

2025年7月21日

上周,我们举办了一场关于浏览器智能体现状的圆桌讨论

在互联网商业模式正为迎接智能体网络而深刻变革的今天,这场讨论恰逢其时。

我们首先快速回顾了浏览器自动化的演进史,从上世纪九十年代的萌芽,到 Selenium(一个广泛使用的浏览器自动化框架,主要用于软件测试和质量保证) 引领的测试与质量保证革命,再到 2010 年后的无头浏览器(一种不需要图形用户界面的浏览器)时代。

如今,我们已步入一个由人工智能原生技术驱动的全新纪元。

如果说无头浏览器让大规模自动化在计算层面更为高效,那么像 Browserbase 这样的新一代平台则更进一步,它们提供的是一整套托管式基础设施。

这些平台利用大语言模型,将人类的自然语言指令直接转化为 Playwright 或 Puppeteer 代码。

当传统的页面元素定位失效时,它们还会启动备用策略,依靠计算机视觉模型来理解和操作界面。Browser Agent Market Map

这无疑极大地拓展了浏览器智能体可能实现的任务边界。

然而,这项技术在生产环境中的完全自主,依然道阻且长。

Web Bench 的基准测试揭示了一个核心问题:智能体在处理纯粹的读任务(如搜索、提取信息)时表现出色

但一旦任务切换到更复杂的写流程(如更新、删除、文件操作),其准确率便会断崖式下跌

任务步骤的急剧增多,无情地暴露了当前智能体在记忆力等核心能力上的短板。Web Bench Steps Analysis

其失败的根源主要来自两个方面:

  1. 智能体自身能力的局限:例如产生幻觉、会话长度不足、导航出错。
  2. 外部基础设施的阻碍:例如验证码、复杂的登录认证、代理服务器的封锁。

以此为基础,我们展开了长达一小时的深入探讨。

核心挑战:验证码

这是一个根本性的难题,一场永不停歇的猫鼠游戏。

自动化求解器能应对九成左右的常规验证码,但面对 v3 版验证码及 Cloudflare 的高级防护,仍显得力不从心。

作为备用方案,业界也存在由低成本劳动力提供支持的人工打码服务

IP 白名单正成为一种越来越普遍的解决方案,大客户会直接与平台协商,将自动化程序的 IP 地址列入信任列表。

在选择代理服务器以规避检测时,也存在一个公认的优先级:移动代理 > 住宅代理 > 数据中心代理

核心挑战:技术架构

对于那些依赖文档对象模型进行操作的智能体,技术架构至关重要。

网页的可访问性树信息量巨大,必须经过激进的“剪枝”,例如将 20 万个token压缩至 1 万个。

常用的剪枝技巧包括:移除网址、剔除重复元素、截断过长文本,并为元素添加引用编号以便追踪。

智能体通常采用一套分层回退的执行策略:确定性脚本 → 基于文档对象模型的操作 → 基于视觉模型的分析 → 最终诉诸操作系统层面的交互

目前,大家主要采用来自 OpenAI 或 Anthropic 的视觉模型。

核心挑战:评估体系

让大语言模型来扮演评测者的角色,需要海量且高质量的人工评估来不断校准。

评测者的可靠性决定了一切。如果评测者本身就不可靠,那么所有的评估指标都将失去意义。

因此,必须针对观测到的具体失败模式,设计专门的评测案例,进行失败归因分析

在生产级别的系统中,这意味着每天都需要运行数以千计的评估任务,才能确保系统的稳定和可靠。

核心挑战:记忆与优化

轨迹优化是一种有效方法,通过分析成功的任务执行路径,可以提炼并固化为最优策略。

同时,提示工程也不可或缺,需要根据不断的试错和失败模式,为智能体补充更精确、更具引导性的指令。

在实际应用中,我们看到了一个保险科技案例 (Meshed),它利用浏览器智能体处理财产保险报价,成功将处理时间从一小时锐减至九分钟。

智能体在此扮演了初级经纪人的角色,自主完成大部分工作,仅在卡顿时才请求人类专家介入。

一个贯穿全场的共识是:考虑到自动化失误可能造成的巨大经济损失,“人在回路” 的混合式架构,在可预见的未来,仍是唯一现实的选择

此外,与会者均表示,从未见过任何浏览器智能体被用于直接支付,因为这会给开发者带来沉重的 PCI 数据安全合规负担。


时代变革:Cloudflare 的新棋局

这自然而然地引出了上周 Cloudflare 发布的重磅消息。

正如思想家 Ben Thompson 所言,广告,是属于人类互联网时代的完美商业模式

互联网的初始形态是为人类服务的,而广告,无论是过去还是现在,都是将数字世界中唯一真正的稀缺资源——人类的注意力——进行变现的最佳方式。这套体系的激励机制完美自洽:用户免费获取海量信息,创作者触达最广泛的受众,广告商则找到前所未有的商业机会

然而,智能体网络的崛起,正在从根本上瓦解这套模式

当用户开始依赖 ChatGPT 这样的智能体获取答案时,这些智能体本身就成了内容的消费者。

而智能体,对广告是完全无感的。这条支撑了内容产业二十年的生命线,正面临被切断的危险。

来自 Cloudflare 的数据触目惊心:如今通过 OpenAI 获取流量的难度,是旧日 Google 的 750 倍;而通过 Anthropic,这个数字是 30,000 倍。

用户、广告商、内容发布者三方构筑的传统互联网市场,正在迅速走向终结。它的替代者会是什么?无人知晓。

Cloudflare,凭借其在内容分发网络市场的绝对优势,敏锐地捕捉到了这个历史性的机遇,并抛出了它对智能体网络的宏大构想:

  1. AI 爬虫付费墙:默认情况下,Cloudflare 的客户网站将阻止所有 AI 爬虫的访问,除非它们同意为所获取的内容付费。

  2. 构建贡献度市场:创建一个全新的激励市场。在这里,内容创作者的回报不再取决于流量,而是其内容对AI知识体系的贡献度。这旨在鼓励更高质量、更具深度的内容创作。

  3. 推行按次付费抓取模型:该模型将利用成熟的 HTTP 状态码和认证机制,为付费内容访问建立一个通用的技术框架。

尽管 Cloudflare 的公告目前主要针对用于模型训练的 AI 爬虫,而非执行任务的自动化智能体,但技术的现实却远比这模糊。

在我们的讨论中,浏览器智能体的开发者们早已在与各种反机器人措施进行着复杂的博弈。

这表明,合法的自动化与恶意的爬取之间,其界限更多在于意图,而非技术

Cloudflare 的付费抓取模式,未来是会仅限于内容采集,还是会扩展至所有形式的自动化网络交互?

这个问题的答案,将最终决定它对整个智能体网络生态的真正影响。


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!