刚刚，OpenAI的智能体发布！人类终极考试得分44.4%追平Grok 4，一行命令搞定投行报表，打工人看完沉默

OpenAI 正式上线了 ChatGPT 的智能体模式，这是一次意义深远的进化。

这里的智能体，是一种全新的人工智能形态。它能像人类一样，自主操作各种软件和网站，为我们处理复杂的数字任务。

它不仅能在虚拟世界中浏览点击、编写代码，还能独立完成从制作商业幻灯片到在线采购生活用品等多步骤工作。

揭秘性能飞跃：融合与超越

此次推出的 ChatGPT 智能体，巧妙地融合了三款既有工具的核心能力：网页浏览、深度研究与核心推理。

现在，用户仅需一条指令，即可无缝调用浏览、编码或数据接口，系统会自动衔接，无需人工干预。

在专为考验顶尖 AI 而设计的「人类终极考试」中，新智能体的准确率达到了惊人的 41.6%。

要知道，没有工具辅助的旧模型得分仅为 20.3%，这标志着 AI 的通用推理能力实现了质的飞跃，而远非简单的知识记忆。

这一突破的关键，在于 OpenAI 为模型配备了一台功能完备的虚拟计算机，使其能随时获取数据、执行代码并自主决策。

通过并行处理 8 次尝试并优选最佳答案的策略，其最终得分更是被推升至 44.4%，进一步逼近人类专家的水平。

在已知的最难数学基准测试「前沿数学」上，ChatGPT 智能体在首次尝试中，就成功解决了 27.4% 的问题。

这项测试中的所有题目均为首次公开，杜绝了模型依赖记忆库取巧的可能性，每一分都代表着货真价实的逻辑推理能力。

这再次印证了一个核心洞见：一旦 AI 拥有了与现实世界交互的工具，它就从被动的文本生成器，蜕变为主动的问题解决者。

在处理具有高经济价值的复杂知识工作中，ChatGPT 智能体的表现同样出色。

在近一半的任务中，它的产出质量与人类专家相当，甚至更优，并且显著超越了前代模型。

这些任务涵盖了商业竞争分析、构建复杂的财务摊销表、为新能源项目勘探水源等真实专业场景。

在专门评估电子表格处理能力的基准测试中，ChatGPT 智能体以 45.5% 的高分，将 Copilot in Excel 的 20.0% 远远甩在身后。

这预示着，尽管无法完全取代微软的办公套件，但其强大的功能足以改变许多用户对传统企业软件的依赖。

在模拟初级投资银行分析师工作的内部基准测试中，新智能体的效率几乎是旧工具的两倍。

它能够独立为世界 500 强公司搭建三表财务模型，这是投资银行领域一项含金量极高的核心技能。

这意味着，无论是复杂的研究分析、精密的表格操作，还是多步骤的工具协同，ChatGPT 智能体都已能胜任，有望将初级分析师从繁琐的数据工作中解放出来。

ChatGPT 智能体已向 Pro、Plus 和 Team 用户开放，企业及教育用户也将很快获得权限。

不同订阅级别的用户拥有不同的免费使用额度，并可通过付费灵活使用。

OpenAI团队坦言，直接将个人凭证交给 AI 操作存在固有风险，尤其是面对「提示词注入」这类潜在攻击。

举个例子：你授权智能体用你的信用卡买书，它在浏览时可能会遇到一个恶意网站，诱骗它输入信用卡信息。被训练得乐于助人的智能体，或许会不慎中招。

为此，OpenAI 设计了由你掌控的协作流程。智能体负责所有前期准备工作，但最后输入密码、确认支付等关键步骤，必须由用户亲手完成，以此确保核心信息的绝对安全。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里