OpenAI 正式上线了 ChatGPT 的智能体模式,这是一次意义深远的进化。

这里的智能体,是一种全新的人工智能形态。它能像人类一样,自主操作各种软件和网站,为我们处理复杂的数字任务

它不仅能在虚拟世界中浏览点击、编写代码,还能独立完成从制作商业幻灯片到在线采购生活用品等多步骤工作。

揭秘性能飞跃:融合与超越

此次推出的 ChatGPT 智能体,巧妙地融合了三款既有工具的核心能力:网页浏览深度研究核心推理

现在,用户仅需一条指令,即可无缝调用浏览、编码或数据接口,系统会自动衔接,无需人工干预。

在专为考验顶尖 AI 而设计的「人类终极考试」中,新智能体的准确率达到了惊人的 41.6%

Image

要知道,没有工具辅助的旧模型得分仅为 20.3%,这标志着 AI 的通用推理能力实现了质的飞跃,而远非简单的知识记忆。

这一突破的关键,在于 OpenAI 为模型配备了一台功能完备的虚拟计算机,使其能随时获取数据、执行代码并自主决策

通过并行处理 8 次尝试并优选最佳答案的策略,其最终得分更是被推升至 44.4%,进一步逼近人类专家的水平。

挑战极限:征服前沿数学难题

在已知的最难数学基准测试「前沿数学」上,ChatGPT 智能体在首次尝试中,就成功解决了 27.4% 的问题。

Image

这项测试中的所有题目均为首次公开,杜绝了模型依赖记忆库取巧的可能性,每一分都代表着货真价实的逻辑推理能力。

这再次印证了一个核心洞见:一旦 AI 拥有了与现实世界交互的工具,它就从被动的文本生成器,蜕变为主动的问题解决者

赋能专业工作:比肩人类专家

在处理具有高经济价值的复杂知识工作中,ChatGPT 智能体的表现同样出色。

在近一半的任务中,它的产出质量与人类专家相当,甚至更优,并且显著超越了前代模型。

Image

这些任务涵盖了商业竞争分析、构建复杂的财务摊销表、为新能源项目勘探水源等真实专业场景。

重塑办公软件格局

在专门评估电子表格处理能力的基准测试中,ChatGPT 智能体以 45.5% 的高分,将 Copilot in Excel 的 20.0% 远远甩在身后。

Image

这预示着,尽管无法完全取代微软的办公套件,但其强大的功能足以改变许多用户对传统企业软件的依赖。

深入金融核心:自动化投行分析

在模拟初级投资银行分析师工作的内部基准测试中,新智能体的效率几乎是旧工具的两倍。

它能够独立为世界 500 强公司搭建三表财务模型,这是投资银行领域一项含金量极高的核心技能。

Image

这意味着,无论是复杂的研究分析、精密的表格操作,还是多步骤的工具协同,ChatGPT 智能体都已能胜任,有望将初级分析师从繁琐的数据工作中解放出来。

获取与使用

ChatGPT 智能体已向 Pro、Plus 和 Team 用户开放,企业及教育用户也将很快获得权限。

不同订阅级别的用户拥有不同的免费使用额度,并可通过付费灵活使用。

安全警示:警惕提示词注入风险

OpenAI团队坦言,直接将个人凭证交给 AI 操作存在固有风险,尤其是面对「提示词注入」这类潜在攻击。

举个例子:你授权智能体用你的信用卡买书,它在浏览时可能会遇到一个恶意网站,诱骗它输入信用卡信息。被训练得乐于助人的智能体,或许会不慎中招。

为此,OpenAI 设计了由你掌控的协作流程。智能体负责所有前期准备工作,但最后输入密码、确认支付等关键步骤,必须由用户亲手完成,以此确保核心信息的绝对安全


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!