热点丨OpenAI即将推出Agent模式,AI能力又进一步
- 2025-07-21 20:30:00

·聚焦:人工智能、芯片等行业
欢迎各位客官关注、转发


OpenAI自己的Agent模式亮相
近日,萨姆·奥尔特曼与四位OpenAI研究员通过直播形式介绍了即将发布的Agent模式。
观其演示过程可发现,该模式在用户交互层面的直观体验,与数月前引发广泛关注的Manus模式极为相似。
当用户提出需求后,系统均会自动创建一个虚拟环境,并开始执行任务。
任务执行期间,Agent会反复请求用户确认操作步骤,并允许用户随时手动接管进程。
同时,用户亦可在任务执行过程中插入新的需求指令,实现实时交互。
OpenAI首席执行官山姆・奥特曼表示,目睹ChatGPT智能体运用计算机执行复杂任务,使其真切感受到AGI的存在。计算机自主完成思考、规划与执行的过程,将产生显著差异的体验。
所有操作均在ChatGPT Agent专属虚拟计算机中完成,此举可在调用多工具时完整保留任务上下文信息。
该智能体可根据需求选择文本浏览器或可视化浏览器访问网页,执行文件下载操作,通过终端命令处理文件,并借助可视化浏览器审阅输出结果。
同时能够动态调整任务策略,以实现高效、精准的快速执行。
ChatGPTAgent专为迭代式、协同式工作流程设计,其交互性与灵活性远超既往模型。
任务执行过程中,用户可随时中断进程:进一步澄清指令以修正执行方向,或直接变更任务目标。智能体将基于新增信息继续推进工作,且完整保留先前进度。
同理,ChatGPT亦会在必要时主动要求用户补充细节,确保任务执行不偏离既定目标。
若任务耗时超出预期或陷入停滞,用户可选择暂停进程、获取进度摘要,或终止任务以提取现有成果。
当用户安装移动端ChatGPT应用时,系统将在任务完成后推送通知。

根据OpenAI的介绍,Agent模式可调用三种工具:文本浏览器、可视化浏览器及终端。模型具备自主选择并切换这些工具的能力。
此工具组合的设计颇具巧思:文本浏览器专司大量文本信息的浏览与检索,可视化浏览器则负责在定位信息后执行键鼠操作或读取图像信息。
而终端工具,则用于运行代码、生成包括演示文稿与电子表格在内的文件,并调用特定的云端应用程序接口。
OpenAI此次推出的新型Agent模式,并非一项全新的技术创新,实则由该公司上半年发布的两项工具——Operator与Deep Research整合而成。
Operator原为仅向Pro用户开放的浏览器Agent工具,具备分析图形操作界面并执行基础操作的能力。
Deep Research则是一款深度研究分析工具,可读取大量网页内容并直接生成调研报告。
OpenAI在分别推广这两项工具时发现,许多用户通过Operator提交的提示指令更趋近于DeepResearch的任务范畴,例如[规划旅行行程并进行预订];
而Deep Research用户强烈呼吁的[登录网站、访问受保护资源]功能,实为Operator已具备的能力。
这两个从不同维度推进的Agent项目最终实现整合,产生了显著的协同效应。
既规避了单纯依赖浏览器图形界面处理文本材料的低效问题,又使得生成深度研究报告所需时长显著缩短。

与过往的基础大模型迭代不同,通用Agent能够自主调用多种工具进行任务规划,协助用户完成复杂操作,包括自动查阅用户日历、生成可编辑的PPT文档、运行代码等。
ChatGPT Agent可连接用户的Gmail、GitHub等平台获取信息并解决问题,同时通过API接口访问各类应用程序。
OpenAI采用模拟复杂现实任务的基准测试对该模型进行评估。
经Agent技术增强后,AI智能水平实现大幅提升。
基于ChatGPTAgent的模型在HLE基准测试中获得41.6%的评分,达到O3与O4-mini模型性能的近两倍。
在内部构建的复杂经济价值知识型任务评估体系中,ChatGPTAgent的产出质量约半数情况下达到甚至超越人类水平,任务完成时间存在浮动区间,且显著优于o3与o4-mini模型。
在SpreadsheetBench表格操作测试中,该智能体处理复杂电子表格的编辑、函数应用及格式规范能力取得显著突破,以45.5%的得分达到GPT‑4o性能的两倍,首次逼近ExcelCopilot商业级解决方案水平。
网页操作领域,ChatGPT Agent在WebArena测试中成功执行账户登录、页面跳转、数据采集等现实任务,其表现已接近人类平均水准。
信息检索能力方面,该智能体于BrowseComp基准测试中以68.9分创下当前最高记录。此项指标直接决定其自主执行任务时的可靠性水平。

OpenAI的正式入场,或将重塑Agent创业领域的整体叙事框架。
数月前,Manus尚被誉为[国产Agent的希望]:其于业界尚未充分理解Agent概念之际,率先向市场展示了未来图景,实证了AI执行复杂任务的现实潜力。
然今年7月初,Manus官网悄然关闭,中国大陆业务全面暂停,仅保留海外产品线——此举促使外界重新审视Agent初创企业的真实生存状态。
数日前,朱啸虎曾公开断言:大模型将吞噬90%的Agent市场。
毋庸置疑,此现象背后交织着监管政策、合规要求与资本环境等多重复杂因素。
但现在的问题又来到了,当OpenAI亲自下场,初创通用型Agent的机会已经不多了。
部分资料参考:极客公园:《刚刚,OpenAI发布了自己的Agent模式,ManusStyle》,机器之心:《刚刚,OpenAI通用智能体ChatGPTAgent正式登场》,果壳:《终于来了,OpenAI的智能体,但这次掌声不多》,网易科技:《凌晨,OpenAI卷进[通用Agent],Manus们算白忙活吗?》
本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。
推荐阅读:



商务合作请加微信勾搭:
18948782064
请务必注明:
「姓名 + 公司 + 合作需求」

- 点赞 0
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊