奥特曼放出ChatGPT「统一智能体」!惊呼真AGI,最卷打工人来了
- 2025-07-18 22:00:00
文章来源于公众号:新智元
ID:AI_era
ChatGPT和Deep Research、Operator「三剑客」首度合体!
奥特曼亲自带队,25分钟高能直播重磅发布ChatGPT agent,开启人类和智能体协作全新时代。


ChatGPT agent的核心,是一个统一的智能体系统。
简言之,它融合了此前三大技术突破的优势:Operator与网站交互的能力,Deep Research整合信息的技巧,以及ChatGPT智能对话优势。

如今,ChatGPT可以直接使用计算机,全程自主为你工作。
从智能浏览网页、筛选结果,在需要时提醒安全登录、运行代码、进行分析,还能导出PPT和Excel汇总发现结果。

最最重要的是,一切尽在掌控之中。
人类随时可以中断任务、接管浏览器,或是完全停止。
在HLE测试中,ChatGPT agent拿下了41.6%高分;并在数学FrontierMath基准上,同样刷新SOTA,碾压o4-mini和o3模型。

顺便提一句,ChatGPT Agent在HLE上仍不及马斯克的Grok 4 Heavy
谁能想到,上面这张PPT,还是ChatGPT agent自己做的。在基准测试中,其操作办公软件的能力,几乎没给人类留下多少余地了。

网友辣评:打工人的好日子到头了
奥特曼感慨道,ChatGPT agent使用计算机执行复杂任务,对自己来说是一个真正「感受AGI」的时刻。

从今天起,Pro、Plus和Team用户直接可以开启体验,在对话框下拉栏中,选择「Agent mode」即可。
其中,Pro用户每月有400次的额度,Plus和Team为每月40次。

太长不看版:(节选自OpenAI研究员张熙堃的X)
Deep Research擅长做研究,Operator会执行操作,而ChatGPT agent则能同时完成所有这些任务!
端到端强化学习的威力!基于RL Scaling,ChatGPT agent的高效性和数据利用率非常惊人。
人机协作,依旧是核心!任务过程中可随时打断,引导ChatGPT完成新任务。在支付、删除文件等操作前,会向人类主动确认。只有在必要时,它才会提问以获取更清晰的指令。
真实世界表现 > 追逐基准排名!ChatGPT agent确实横扫了很多榜单。但在模型开发过程中,OpenAI既不会一门心思去刷分,也不太在意最终在排行榜上的位置。

今年1月,OpenAI发布了首个智能体Operator,让AI像人类一样直接与GUI交互。
紧接着2月初,他们又推出了首个Deep Research,推理模型直接可以使用工具,开展研究。
这两个工具各有专长,Operator可以自主上网、点击和输入,而Deep Research则擅长分析和总结信息。
然而,前者无法开启深度分析、撰写详细报告;后者无法与网站交互获得精确结果。
今天,OpenAI正式将其合二为一——ChatGPT agent,「单一模型」即可解锁全新能力。
ChatGPT agent配备了一整套工具:
· 可视化浏览器:用于图形用户界面与网页交互
· 文本浏览器:用于处理简单推理和网页查询
· 终端+直接API访问权限:图像API

agent还能借助ChatGPT连接器,连接Gmail、Github等应用,便于根据提示找到相关信息并给出回复。
不仅如此,接管浏览器后登录任何网站,让ChatGPT agent进行更深入、更广泛的研究和任务执行。
由此,ChatGPT便能选择最佳路径,高效地执行任务。
为了展示ChatGPT agent能力,团队现场演示了一个真实场景:为朋友Minnie和Sarah策划一场婚礼。
根据提示,这项任务需要AI依据着装要求和天气情况,推荐精美价格合理的礼服、为参会者预订酒店,以及为新人准备婚礼礼物。
ChatGPT agent在理解提示后,并没有直出报告,而是再次重述确认任务要求,比如确切的婚礼日期。

当一切确认之后,接下来,它便自主打开浏览器,并在交互页面上显示逐步执行的每一个过程,即思维链。

需要注意的是,agent会在几秒内配置好的虚拟计算环境中,开始执行任务。
任务执行中,agent使用文本浏览器查询,并找到了合适的西装,然后切换到视觉浏览器,等待确认。

在ChatGPT执行婚礼策划任务同时,还可以让它做另一个任务:购买一双9.5码黑色鞋子。

也就意味着,ChatGPT agent不惧被打断。即便上一个任务规划时间很长,也不耽误接下来的事情。

最后,ChatGPT agent生成了一份非常全面的报告,包括礼服、酒店、鞋子、礼物全部给出了规划和建议。
在另一个演示中,团队用ChatGPT应用开启任务——上传一张团队吉祥物——可爱小狗的图片,做成笔记本贴纸,并订购500个。
然后,它便开始调用工具Imagen生成动漫版图片,并设计贴纸,从StickerMule订购500份寄到xxx。

更令人惊喜的是,ChatGPT agent还能通过连接器,比如Google Drive提取评估数据,自己生成PPT。

在此过程中,agent会编写代码,并将其编译成最终幻灯片。它还会借用图像工具,为PPT页面进行装饰。

不一会功夫,它就直接输出了第一张HLE、FrontierMath的PPT,但不够精致,然后它再次通过RL不断优化。

最终,就得到了一个优美的PPT文件,可以在办公软件中直接打开。

不得不说,ChatGPT agent太强了。

甚至,你还可以让ChatGPT agent制定一个参观30+美国职棒大联盟球场的最佳行程。
耗时25分钟,它迅速生成一个直观可视化的Excel,以后做数据也彻底解放了双手。
统一后的agent,大幅提升了ChatGPT在日常和专业领域的实用性。
不仅在网页浏览,还是现实任务完成能力的评估中,ChatGPT agent全部刷新了SOTA。
如上提及的,在人类最后考试(HLE)中,ChatGPT agent以41.6%的得分,刷新了pass@1最高纪录。
当研究团队采用并行策略后,即同时运行最多8次并选取自信度最高结果,HLE得分直接刷到了44.4%。

在最难的数学基准测试FrontierMath中,ChatGPT agent借助代码终端等工具,实现了27.4%准确率,大幅超越o3和o4-mini。

不仅如此,在内部设计的「高经济价值知识工作」测试中,ChatGPT agent在半数案例中,输出质量与人类相当,甚至碾压人类。

任务来自真实专业工作场景,比如为按需紧急护理服务商撰写竞品分析、编制详细的摊销表,以及为新的绿色氢能设施寻找可行的水源
在评估数据科学生产力任务的DSBench中,ChatGPT agent以显著优势超越了人类表现。

在Excel编辑能力的SpreadsheetBench测试中,其表现同样远超现有模型。
当获得直接编辑权限时,ChatGPT agent以45.5%的得分显著超越Excel Copilot的20.0%。

在投行分析师1-3年级建模任务的内部评估中,ChatGPT agent底层模型碾压Deep Research和o3模型。

此外,在OpenAI发布的BrowseComp基准测试中,ChatGPT agent以68.9%的准确率刷爆纪录,比Deep Research高出17.4%。
在WebArena基准测试中,其表现也优于基于o3的CUA(即Operator背后的底层模型)。

BrowseComp基准专门评估浏览智能体在网络上定位难寻信息的能力;WebArena用于评估网页浏览智能体完成现实网络任务的能力
ChatGPT agent这么强,能为我们带来什么价值?
最近,刚刚离职OpenAI研究员Hyung Won Chung分享演讲视频中表示,「AI正成为有史以来最强大的『杠杆』」。

他表示,AI智能体结合了两种杠杆:人力和代码。
它就像雇了个帮手,替你干活(人力杠杆);而且它又是软件,能无限复制(代码杠杆)。
1. 人力杠杆 :AI智能体可以替人类完成工作,就像一个人AI助理。
2. 代码杠杆:当前的AI智能体是纯软件形式,可以轻松复制。如果你想要10倍的产出,就运行10个智能体;想要12倍,就再加两个。这种杠杆不需要许可,可以随意扩展。
在这场发布会上,OpenAI重提了「AI杠杆」这一核心话题。
他们同样认为,2025年之后,AI智能体将成为一种全新的杠杆机制。

它不仅能代替人类完成工作,还能通过「复制粘贴」无限扩展。不论是10个,还是更多智能体,不需要额外的许可,即可一键部署。
研究人员举例称,Deep Research发布之后近半年里,极大地提升了个体和小团队的产出。
过去,团队规模化需要依赖「人力杠杆」,但人类协作的沟通成本,甚至包括摩擦,往往成为了瓶颈。
而现在,ChatGPT agent的出现一个重大意义在于,让小团队创造巨大的价值。
一个10人或20人的初创公司,借助AI杠杆,可能创造出媲美科技巨头的成就。
这种「超级个体」模式,或许在未来将重塑企业的组织架构,凭借AI实现指数级增长。
值得一提的是,这次直播中,有两位华人学者同时出镜。
Zhiqing Sun(孙之清)

孙之清于2024年6月加入OpenAI,担任研究科学家。
他于2025年在卡内基梅隆大学获得计算机科学博士学位,于2019年在北京大学获得计算机科学学士学位。


在OpenAI期间,他不仅参与到了o3/o4-mini、计算机使用智能体,以及Deep Research这几个关键项目当中,而且还是Deep Research的研究负责人。



Casey Chu

Casey Chu于2020年4月加入OpenAI,担任研究员。
此前,他于2019年在斯坦福大学获得计算数学硕士学位,并于2016年在哈维穆德学院获得数学学士学位。
后来他曾尝试攻读斯坦福大学的计算数学博士学位,但中途选择了退学。


别看他的title只是研究员,但他不仅是DALL·E 2的共同一作,而且还主导了GPT-4视觉输入的初始原型的开发。


酷玩实验室经授权转载
如需转载,请联系原作者


- 点赞 0
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊