热点丨OpenAI即将推出Agent模式，AI能力又进一步

AI芯天下
2025-07-21 20:30:00

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发

前言：

2025年下半年伊始，始终致力于定义AI领域的OpenAI，正式推出了其Agent模式的解决方案。

这一方案使ChatGPT能在虚拟沙盒中调用文本浏览器、可视化浏览器和终端工具，自主完成多步骤复杂任务，实现从信息检索到在线购物等操作，开启了从Chat到Agent的跨越。

作者 | 方文三

图片来源 | 网络

OpenAI自己的Agent模式亮相

近日，萨姆·奥尔特曼与四位OpenAI研究员通过直播形式介绍了即将发布的Agent模式。

观其演示过程可发现，该模式在用户交互层面的直观体验，与数月前引发广泛关注的Manus模式极为相似。

当用户提出需求后，系统均会自动创建一个虚拟环境，并开始执行任务。

任务执行期间，Agent会反复请求用户确认操作步骤，并允许用户随时手动接管进程。

同时，用户亦可在任务执行过程中插入新的需求指令，实现实时交互。

OpenAI首席执行官山姆・奥特曼表示，目睹ChatGPT智能体运用计算机执行复杂任务，使其真切感受到AGI的存在。计算机自主完成思考、规划与执行的过程，将产生显著差异的体验。

所有操作均在ChatGPT Agent专属虚拟计算机中完成，此举可在调用多工具时完整保留任务上下文信息。

该智能体可根据需求选择文本浏览器或可视化浏览器访问网页，执行文件下载操作，通过终端命令处理文件，并借助可视化浏览器审阅输出结果。

同时能够动态调整任务策略，以实现高效、精准的快速执行。

ChatGPTAgent专为迭代式、协同式工作流程设计，其交互性与灵活性远超既往模型。

任务执行过程中，用户可随时中断进程：进一步澄清指令以修正执行方向，或直接变更任务目标。智能体将基于新增信息继续推进工作，且完整保留先前进度。

同理，ChatGPT亦会在必要时主动要求用户补充细节，确保任务执行不偏离既定目标。

若任务耗时超出预期或陷入停滞，用户可选择暂停进程、获取进度摘要，或终止任务以提取现有成果。

当用户安装移动端ChatGPT应用时，系统将在任务完成后推送通知。

由Operator+Deep Research工具整合而成

根据OpenAI的介绍，Agent模式可调用三种工具：文本浏览器、可视化浏览器及终端。模型具备自主选择并切换这些工具的能力。

此工具组合的设计颇具巧思：文本浏览器专司大量文本信息的浏览与检索，可视化浏览器则负责在定位信息后执行键鼠操作或读取图像信息。

而终端工具，则用于运行代码、生成包括演示文稿与电子表格在内的文件，并调用特定的云端应用程序接口。

OpenAI此次推出的新型Agent模式，并非一项全新的技术创新，实则由该公司上半年发布的两项工具——Operator与Deep Research整合而成。

Operator原为仅向Pro用户开放的浏览器Agent工具，具备分析图形操作界面并执行基础操作的能力。

Deep Research则是一款深度研究分析工具，可读取大量网页内容并直接生成调研报告。

OpenAI在分别推广这两项工具时发现，许多用户通过Operator提交的提示指令更趋近于DeepResearch的任务范畴，例如[规划旅行行程并进行预订]；

而Deep Research用户强烈呼吁的[登录网站、访问受保护资源]功能，实为Operator已具备的能力。

这两个从不同维度推进的Agent项目最终实现整合，产生了显著的协同效应。

既规避了单纯依赖浏览器图形界面处理文本材料的低效问题，又使得生成深度研究报告所需时长显著缩短。

实现了通用智能体能力的关键升级

与过往的基础大模型迭代不同，通用Agent能够自主调用多种工具进行任务规划，协助用户完成复杂操作，包括自动查阅用户日历、生成可编辑的PPT文档、运行代码等。

ChatGPT Agent可连接用户的Gmail、GitHub等平台获取信息并解决问题，同时通过API接口访问各类应用程序。

OpenAI采用模拟复杂现实任务的基准测试对该模型进行评估。

经Agent技术增强后，AI智能水平实现大幅提升。

基于ChatGPTAgent的模型在HLE基准测试中获得41.6%的评分，达到O3与O4-mini模型性能的近两倍。

在内部构建的复杂经济价值知识型任务评估体系中，ChatGPTAgent的产出质量约半数情况下达到甚至超越人类水平，任务完成时间存在浮动区间，且显著优于o3与o4-mini模型。

在SpreadsheetBench表格操作测试中，该智能体处理复杂电子表格的编辑、函数应用及格式规范能力取得显著突破，以45.5%的得分达到GPT‑4o性能的两倍，首次逼近ExcelCopilot商业级解决方案水平。

网页操作领域，ChatGPT Agent在WebArena测试中成功执行账户登录、页面跳转、数据采集等现实任务，其表现已接近人类平均水准。

信息检索能力方面，该智能体于BrowseComp基准测试中以68.9分创下当前最高记录。此项指标直接决定其自主执行任务时的可靠性水平。

结尾：

OpenAI的正式入场，或将重塑Agent创业领域的整体叙事框架。

数月前，Manus尚被誉为[国产Agent的希望]：其于业界尚未充分理解Agent概念之际，率先向市场展示了未来图景，实证了AI执行复杂任务的现实潜力。

然今年7月初，Manus官网悄然关闭，中国大陆业务全面暂停，仅保留海外产品线——此举促使外界重新审视Agent初创企业的真实生存状态。

数日前，朱啸虎曾公开断言：大模型将吞噬90%的Agent市场。

毋庸置疑，此现象背后交织着监管政策、合规要求与资本环境等多重复杂因素。

但现在的问题又来到了，当OpenAI亲自下场，初创通用型Agent的机会已经不多了。

部分资料参考：极客公园：《刚刚，OpenAI发布了自己的Agent模式，ManusStyle》，机器之心：《刚刚，OpenAI通用智能体ChatGPTAgent正式登场》，果壳：《终于来了，OpenAI的智能体，但这次掌声不多》，网易科技：《凌晨，OpenAI卷进[通用Agent]，Manus们算白忙活吗？》

本公众号所刊发稿件及图片来源于网络，仅用于交流使用，如有侵权请联系回复，我们收到信息后会在24小时内处理。

END

推荐阅读：