ChatGPT Agent,会是世界需要的Agent吗？

科技区角
2025-07-18 19:35:14

X.Times

7月17 日科技区角消息，OpenAI 正式通过ChatGPT推出通用型 AI 智能代理ChatGPT Agent，该智能体将可代表用户完成多种基于计算机的任务。

OpenAI 表示，该智能体能够自动操作用户日历、生成可编辑的演示文稿与幻灯片，并运行代码。

ChatGPT Agent整合了 OpenAI 此前多项代理技术的核心能力，包括 Operator 的网页点击浏览能力（click around on websites），以及Deep Research 的信息整合能力（synthesize information），后者可从数十个网站提炼出简洁的研究报告。

OpenAI 称用户仅需通过自然语言指令（prompting in natural language）即可与代理交互。

ChatGPT Agent将于本周四向 OpenAI 的 Pro、Plus 和 Team 订阅用户开放，用户可在ChatGPT 的工具下拉菜单中选择 代理模式（agent mode）以启用该功能。

AI Agent们的小步快跑

ChatGPT Agent的发布，标志着 OpenAI 迄今为止最大胆的尝试，将 ChatGPT 转变为一种能执行操作并为用户分担任务的Agent任务产品，而不仅限于回答问题。

包括 OpenAI、谷歌和 Perplexity 在内的硅谷AI 公司在近几年已推出数十款 AI Agent，虽然均声称可以通过自然语言交互，来智能识别并完成用户提出的任务需求，然而，这些早期版本的 AI Agent已被证明难以处理复杂任务，且从单一产品力上审视，远没达到各公司的预期，综合用户反馈得出的结论也是不太好用。

尽管如此，OpenAI 宣称 ChatGPT Agent的能力远超上代产品。该新型代理可调用 ChatGPT connectors，支持用户关联 Gmail、GitHub等应用，使Agent能根据指令查找相关信息，OpenAI 表示，ChatGPT Agent已具备终端访问权限，并能通过 API 接口调用特定应用程序。

OpenAI 介绍，ChatGPT Agent的底层模型在多项基准测试中提供了顶尖水平的性能。同时，ChatGPT Agent模型在 “人类最后考试”（Humanity’s Last Exam，简称 HLE）的 pass@1 测试中得分为 41.6%——该测试包含跨越百余学科的数千道难题。这一成绩约为 OpenAI o3 和 o4-mini 模型得分的两倍。

在已知最难的数学基准测试之一 FrontierMath 中，OpenAI 称 ChatGPT 智能代理在拥有工具访问权限（如用于代码执行的终端）时得分为 27.4%，而此前的最佳成绩来自 o4-mini，其得分仅为 6.3%。

超前的安全监管

同时，OpenAI 强调ChatGPT Agent 的安全性是从开发规划开始就将安全做为核心考量，尤其ChatGPT Agent 所具备的超前智能水平，若被意图违法犯罪人员掌握可能加剧各项风险。OpenAI 此前已警告，随着AI Agent技术水平的发展，可能会被不法分子利用而做为违法犯罪的工具。

在ChatGPT Agent的安全报告中，OpenAI 表示该模型被归类到同生物与化学武器领域的同级别安全策略，OpenAI 指出虽无直接证据和实话证明 Agent 会发到现有某些犯罪的危害，但他们已决定采取预防性措施并启用新防护机制以降低风险。

新防护机制包含一套在用户与产品交互时运作的实时监控系统（monitor），OpenAI 称会对输入Agent的每条指令运行特殊开发的分类器，判定请求是否涉及生物学领域，若涉及，则通过第二层监控系统检测其响应内容是否可能引发生物威胁，同时OpenAI 表示，Agent将被禁止拥有记忆功能，以限制各项风险，除非未来有必要应用需求才会考虑增加这一功能。

尽管 ChatGPT Agent 从目前报道内容看功能强大，但其落地后与真实世界的交互仍有待验证。截止目前，Agent在现实中的交互体验都离预期较远，不过，OpenAI 表示，ChatGPT Agent将是目前市面上最强的，他们也会持续迭代，对于ChatGPT Agent的前景显然他们很有信心。

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里

点赞 0
分享
微信扫一扫
加入群聊
扫码加入群聊