X.Times

   


7月17 日科技区角消息,OpenAI 正式通过ChatGPT推出通用型 AI 智能代理ChatGPT Agent,该智能体将可代表用户完成多种基于计算机的任务
OpenAI 表示,该智能体能够自动操作用户日历生成可编辑的演示文稿与幻灯片,并运行代码
ChatGPT Agent整合了 OpenAI 此前多项代理技术的核心能力,包括 Operator 的网页点击浏览能力(click around on websites),以及Deep Research 的信息整合能力(synthesize information),后者可从数十个网站提炼出简洁的研究报告。
OpenAI 称用户仅需通过自然语言指令(prompting in natural language)即可与代理交互。
ChatGPT Agent将于本周四向 OpenAI 的 ProPlus 和 Team 订阅用户开放,用户可在ChatGPT 的工具下拉菜单中选择 代理模式(agent mode)以启用该功能。
AI Agent们的小步快跑
ChatGPT Agent的发布,标志着 OpenAI 迄今为止最大胆的尝试,将 ChatGPT 转变为一种能执行操作为用户分担任务Agent任务产品,而不仅限于回答问题。
包括 OpenAI、谷歌和 Perplexity 在内的硅谷AI 公司在近几年已推出数十款 AI Agent,虽然均声称可以通过自然语言交互,来智能识别并完成用户提出的任务需求,然而,这些早期版本的 AI Agent已被证明难以处理复杂任务,且从单一产品力上审视,远没达到各公司的预期,综合用户反馈得出的结论也是不太好用。
尽管如此,OpenAI 宣称 ChatGPT Agent的能力远超上代产品该新型代理可调用 ChatGPT connectors,支持用户关联 Gmail、GitHub等应用,使Agent能根据指令查找相关信息OpenAI 表示,ChatGPT Agent已具备终端访问权限,并能通过 API 接口调用特定应用程序。
OpenAI 介绍,ChatGPT Agent的底层模型在多项基准测试中提供了顶尖水平的性能。同时,ChatGPT Agent模型在 “人类最后考试”(Humanity’s Last Exam,简称 HLE)的 pass@1 测试中得分为 41.6%——该测试包含跨越百余学科的数千道难题。这一成绩约为 OpenAI o3 和 o4-mini 模型得分的两倍。
在已知最难的数学基准测试之一 FrontierMath 中,OpenAI 称 ChatGPT 智能代理在拥有工具访问权限(如用于代码执行的终端)时得分为 27.4%,而此前的最佳成绩来自 o4-mini,其得分仅为 6.3%
超前的安全监管
同时,OpenAI 强调ChatGPT Agent 的安全性是从开发规划开始就将安全做为核心考量,尤其ChatGPT Agent 所具备的超前智能水平,若被意图违法犯罪人员掌握可能加剧各项风险。OpenAI 此前已警告,随着AI Agent技术水平的发展,可能会被不法分子利用而做为违法犯罪的工具。
在ChatGPT Agent的安全报告中,OpenAI 表示该模型被归类到同生物与化学武器领域的同级别安全策略,OpenAI 指出虽无直接证据和实话证明 Agent 会发到现有某些犯罪的危害,但他们已决定采取预防性措施并启用新防护机制以降低风险。
新防护机制包含一套在用户与产品交互时运作的实时监控系统(monitor),OpenAI 称会对输入Agent的每条指令运行特殊开发的分类器,判定请求是否涉及生物学领域,若涉及,则通过第二层监控系统检测其响应内容是否可能引发生物威胁,同时OpenAI 表示,Agent将被禁止拥有记忆功能,以限制各项风险,除非未来有必要应用需求才会考虑增加这一功能。
尽管 ChatGPT Agent 从目前报道内容看功能强大,但其落地后与真实世界的交互仍有待验证。截止目前,Agent在现实中的交互体验都离预期较远,不过,OpenAI 表示,ChatGPT Agent将是目前市面上最强的,他们也会持续迭代,对于ChatGPT Agent的前景显然他们很有信心。