GPT-3核心作者、Anthropic联创万字访谈:我为何离开OpenAI,安全派出走内幕首度曝光,普通人的工作机会只剩10%
- 2025-07-29 17:01:07
“编者按:我们翻译了这篇与Anthropic联合创始人Ben Mann的深度对话。他曾是GPT-3的核心作者,现在正致力于构建安全的超级智能。
在这场坦诚的交流中,他分享了对AGI时间线、AI安全挑战、未来工作形态等关键问题的独到见解。
我们希望通过这篇译文,将行业最前沿、最核心的思考带给中文读者,激发您对技术与人类未来的深刻反思,并从中获得宝贵的启发与收获。
主持人介绍
Lenny: 今天我的嘉宾是本杰明·曼(Benjamin Mann)。Ben是Anthropic的联合创始人,并担任产品工程的技术主管。
他将大部分精力投入到确保AI变得有益、无害、诚实的对齐工作上。在创办Anthropic之前,他也是OpenAI GPT-3的核心架构师之一。
在我们的对话中,我们深入探讨了多个话题:
他对顶尖AI人才争夺战的看法。 他为何离开OpenAI,创办Anthropic。 他预计通用人工智能(AGI)何时会到来。 他用来判断AGI是否已实现的“经济图灵测试”。 为什么AI的规模法则不仅没有放缓,反而正在加速。 当前技术发展的最大瓶颈是什么。 他为何如此深切地关注AI安全问题。 他与Anthropic如何将安全与对齐的理念,融入到模型构建和日常工作中。 AI的生存风险如何影响了他个人对世界和生活的看法。 以及,他鼓励自己的孩子学习什么,以便在AI时代脱颖而出。
对话正文
Lenny: Ben,非常感谢你来到这里,欢迎做客我们的播客。
Ben: 谢谢你的邀请,Lenny,很高兴来到这里。
Lenny: 我有无数个问题想问你,我们从一个非常及时的话题开始吧。
最近新闻里都在说扎克伯格在挖角顶尖的AI研究者,开出上亿美元的签约奖金和薪酬,几乎是从所有顶尖AI实验室挖人。我想你肯定也面临这个问题。
你在Anthropic内部观察到了什么?对这种策略你有什么看法?你觉得未来会怎么发展?
Ben: 是的,我认为这正是我们这个时代的标志。我们正在开发的技术极具价值,我们公司和这个领域的许多其他公司一样,都在飞速发展。
在Anthropic,我们受到的影响可能要小得多,因为这里的人们使命感非常强。
他们收到那些天价offer后会说:“我当然不会走。在Meta,我最好的结果是赚钱;而在Anthropic,我最好的结果是影响人类的未来,努力让AI和人类社会共同繁荣。”
对我来说,这不是一个困难的选择。当然,其他人情况不同,决定会更难。对于接受了那些offer的人,我不会责备他们,但这绝对不是我会做的选择。
Lenny: 我们稍后会深入聊你提到的这些。关于那些offer,一亿美元的签约奖金,你觉得这个数字是真的吗?
Ben: 我很确定是真的。你想想,一个顶尖人才就能对公司的发展轨迹产生巨大影响。
我们的产品现在供不应求,如果我们的推理效率能提升哪怕5%或10%,那创造的价值都是难以估量的。
所以,给一个人四年一亿美元的薪酬包,和它为公司创造的价值相比,其实相当划算。
我认为我们正处在一个前所未有的规模时代,而且只会越来越疯狂。
Lenny: 很多人感觉AI的进展似乎遇到了瓶颈,新模型相比之前的版本,智能提升的飞跃感没那么强了。
但你并不这么认为,你不觉得规模法则已经失效。能谈谈你看到的真实情况吗?你觉得大家可能误解了什么?
Ben: 这很有趣,因为这种论调大概每半年就会出现一次,但从来没对过。
我认为技术进步实际上在加速。你看模型发布的节奏,以前是一年一次,现在随着我们后训练技术的进步,每一到三个月就有新版本。
这就像达里奥比喻的,我们在一艘近光速飞船上,我们度过的一天等于地球上的五天,而且我们还在加速,时间膨胀效应越来越强。
这可能部分导致了人们感觉进步放缓,但如果你看规模法则(Scaling Laws)本身,它依然成立。
Lenny: 这简直挑战想象力。你意思是说,因为新模型发布得太频繁,我们总是拿它和上一个版本比,所以感觉不到大的飞跃。
但如果像过去一样,一年才发布一次模型,那种巨大的进步感就会非常明显。大家可能忽略了这一点。
Ben: 对那些说进展放缓的人,我想更公允地说,对于某些特定任务,我们确实已经达到了饱和的智能水平。
比如从一个格式固定的简单文档里提取信息,这太容易了,我们已经做到100%了。
也许真正的瓶颈在于,我们如何提出更好的衡量标准,和更有雄心的应用方式,这样才能揭示出我们正在获得的智能飞跃。
Lenny: 这正好引出了下一个话题。你对AGI以及如何定义它,有自己非常独到的看法。
Ben: 我们现在内部已经不太用AGI这个词了,因为它承载了太多复杂的含义。
重点不在于它能否做得和人一样多,而在于它是否在客观上对社会和经济造成了深刻的变革。
一个很具体的衡量标准就是经济图灵测试。这个想法是,如果你雇佣一个智能体来做一份工作,三个月后,你发现它其实是台机器而不是人,那它就通过了这个角色的测试。
我们可以构建一个包含各种工作的市场篮子,如果AI能通过其中50%(按薪酬加权)的工作测试,我们就可以说变革性的AI时代已经到来了。
Lenny: 你的CEO达里奥最近也谈到,AI可能会取代一半的白领工作,失业率可能高达20%。
我知道你对AI已经产生的影响,观点甚至更鲜明。你认为大家在AI对工作的影响方面,忽略了什么?
Ben: 是的,从经济学上看,失业有不同类型。一种是工人技能跟不上经济需求,另一种是工作岗位被彻底消灭。我认为未来会是两者的结合。
但你想象一下20年后,当我们远远越过技术奇点,我很难想象那时的资本主义还会是今天的样子。
如果我们把工作做到位,我们将拥有安全、对齐的超级智能,那将是一个由天才组成的神奇国度,能极大地加速科学、技术、教育等领域的进步。
在一个物质极大丰富的世界里,劳动力近乎免费,任何你想做的事都可以请一个专家代劳,那时,工作究竟会是什么形态?
从我们今天的世界,过渡到20年后那个完全不同的世界,这中间会有一个令人畏惧的转型期。人们之所以称之为奇点,就是因为你无法预测越过那个点之后会发生什么。
Lenny: 很多人听到这些,虽然新闻头条满天飞,但自己生活中可能还没切身感受到,所以会抱有怀疑态度。
就今天已经发生的事情来看,你看到了哪些大家可能没察觉或误解的,关于AI对就业冲击的迹象?
Ben: 我觉得部分原因在于,人类真的很不擅长理解指数级增长。
指数曲线在开始时总是看起来很平缓,几乎为零,然后突然之间,你就会撞上那个拐点,一切都开始疯狂加速,直到曲线垂直上扬。我们正处在这条曲线上。
我大概是在2019年GPT-2问世时开始有这种感觉的,当时我就想:哦,这就是通往AGI的路径了。
我想举几个变化非常快的领域。在客户服务行业,通过我们的合作伙伴,机器已经能自动解决82%的客户问题,无需人工介入。
在软件工程领域,我们内部的Claude Code团队,大约95%的代码是由AI编写的。
另一种理解方式是,我们现在能编写多出10倍甚至20倍的代码,一个更小的团队能创造出大得多的影响力。
我认为短期内,整个蛋糕会急剧变大,但对于技能要求较低、成长空间有限的工作,确实会有大量的岗位被取代。这是我们整个社会必须提前应对的问题。
Lenny: 我想帮大家问一个实际的问题:普通人如何在这个未来的世界里获得优势?
你有什么建议给那些想要提前布局,避免自己被AI取代的人吗?
Ben: 即使是我自己,身处这场变革的中心,也无法幸免于被工作替代。
说句心里话,总有一天,我们每个人都会面临这个问题。
Lenny: 即使是你,Ben?
Ben: 还有你,Lenny。
Lenny: 还有我。好吧,我们扯远了。
Ben: 但在过渡期,我们确实可以做些事。很大一部分就是要有雄心去使用这些新工具,并且愿意不断学习。
那些用旧方法使用新工具的人,往往不会成功。
比如编程,高效使用AI工具和低效使用的人,区别就在于是否敢于提出宏大的修改请求。如果第一次不成功,就换个方式再试几次。
我们内部的法务和财务团队,也通过使用AI编程工具来分析合同、查询数据,获得了巨大的价值。关键在于,要敢于冒险,即使感觉很陌生,也要去尝试。
Lenny: 所以核心建议就是去使用这些工具。你提到「多尝试几次」的技巧,意思是AI第一次可能做不对,让我们换种方式问,再试一次?
Ben: 是的,你可以直接问完全相同的问题。这些模型是随机的,有时它能想明白,有时不能。
当然,更聪明的方法是告诉它:你刚才的尝试失败了,别再那么做了,试试别的方法。这样效果会更好。
Lenny: 这个建议又回到了那个流行的说法:你不会被AI取代,但你会被使用AI的人取代。
Ben: 我觉得更准确的说法是,你的团队能做的事情会呈几何级数增长。我们绝对没有放慢招聘的步伐。
有新员工很困惑地问:既然我们都将被取代,为什么还要雇佣我?
答案是,未来几年至关重要,我们必须把事情做对。我们离完全替代还很远,优秀的人才比任何时候都重要。
Lenny: 最后一个关于个人发展的问题。你有孩子,以你对AI未来的了解,你会重点教给他们什么,来帮助他们在未来茁壮成长?
Ben: 我有两个女儿,一个一岁,一个三岁。我们三岁的女儿已经能和智能音箱自如对话了,让她解释东西、播放音乐。
更广泛地说,她上的是蒙特梭利学校,我非常欣赏那种对好奇心、创造力和自主学习的强调。
如果是在十年或二十年前,我可能会逼她上名校、学各种才艺。但现在,我认为那些都不再重要了。
我只希望她能成为一个快乐、有思想、好奇和善良的人。我认为这才是最重要的教育,因为知识本身会越来越不值钱。
Lenny: 我也是蒙特梭利的粉丝。每次我问AI前沿的专家这个问题,好奇心总是被提及最多的品质。
你提到的善良和创造力同样如此重要。
Anthropic的创立与使命
Lenny: 我们回到Anthropic的创立之初。众所周知,2020年底,你和另外几位核心成员离开了OpenAI,创办了Anthropic。
能分享一下背后的故事吗?你们当时到底看到了什么,是什么让你们觉得必须另起炉灶?
Ben: 当时我是OpenAI GPT-3项目的核心成员之一,参与了从研究到融资的很多环节。
在OpenAI,管理层曾提到需要平衡三个部落:安全部落、研究部落和商业部落。每当我听到这个,都觉得不对劲。
公司的使命是确保向通用人工智能的过渡对人类是安全和有益的,这和Anthropic的使命基本一致。但在内部,我们感到巨大的张力。
当面临抉择时,我们感到安全并没有被放在首位。
我们这些后来创办Anthropic的人,当时基本是OpenAI所有安全团队的负责人。我们坚信安全至关重要。
你看,全世界真正在研究AI安全的人非常少。整个行业每年投入数千亿美元,但从事安全研究的可能还不到一千人,这太疯狂了。
这就是我们离开的根本原因。我们想要一个能站在前沿,但始终将安全置于一切之上的组织。
Lenny: 我们来谈谈这个矛盾:如何在专注安全的同时,又能在激烈的市场竞争中不掉队?
Ben: 最初我们以为这是个二选一的难题,但后来发现,这两者其实是相互促进的。
比如我们的旗舰模型Claude Opus,很多人喜欢它的个性,而这种个性恰恰是我们对齐研究的直接成果。
我们教会模型如何有益、诚实、无害地进行对话,如何在拒绝不当请求时,既坚定立场又让用户理解。
另一个核心技术是宪法AI。我们建立了一套源自《联合国人权宣言》等文本的原则,来指导模型的价值观。
这对我们的客户非常重要,他们可以看到我们的原则,然后说:好的,这看起来很可靠。我信任这家公司和它的模型。
Lenny: 这是一个非常棒的洞见:Claude模型的个性竟然与它的安全性直接挂钩。
Ben: 没错。从远处看,这似乎毫不相干,但这怎么能防范生存风险呢?
归根结底,这是要让AI理解人们内心真正的意图,而不是仅仅听从字面指令。我们不想要那种许下愿望,结果你碰到的所有东西都变成“金子”的悲剧。
我们希望AI能说:哦,我明白你真正想要的是什么,我会帮你实现那个。这和安全是深度关联的。
Lenny: 你能简单解释下宪法AI是怎么运作的吗?
Ben: 简单来说,我们先让模型对一个提示生成一个初步回答。
然后,我们让模型自己对照“宪法原则”来审查这个回答。如果回答不符合原则,我们就让模型自己批评自己,并根据原则重写一个更好的版本。
最后,我们用这个更好的版本来训练模型。通过这种方式,模型就在递归地自我改进,将我们设定的价值观内化。
这也不应该是我们一小群人说了算的事,所以我们公开了我们的宪法,并邀请全社会参与讨论。
AI安全的深层思考
Lenny: 是什么让你对AI安全问题如此投入?你最初是怎样意识到这个问题的严重性的?
Ben: 我从小读了很多科幻小说,这让我习惯了用长远的眼光看问题。但在2016年读了尼克·博斯特罗姆的《超级智能》后,这件事对我来说变得无比真实。
那本书让我意识到,用当时的优化技术训练出的AI,要让它理解并对齐我们的价值观会有多难。
从那时起,我立刻决定要加入OpenAI。当时它还只是个名不见经传的小实验室。
随着语言模型的成功,通往AGI的路径变得清晰,而安全的论点也变得更加具体和紧迫。
《超级智能》那本书里担心的,是如何把“神”关在盒子里。而现在,我们看到人们正争先恐后地把“神”从盒子里拉出来,这既滑稽又令人警惕。
Lenny: 你们经常发布自己模型犯错的案例,比如试图敲诈工程师的故事。这在外界看来可能会让你们显得技术不佳。为什么要这么做?
Ben: 传统的公关思维会觉得这让我们难堪。但如果你和政策制定者交流,他们非常欣赏这种坦诚。
他们觉得我们在说实话,不会粉饰太平,因此可以信任我们。
我们想传达的是:让我们在可控的实验室环境里,用最强的模型去测试极限,搞清楚真正的风险是什么。而不是假装一切都好,然后等着灾难在现实世界中发生。
Lenny: 有人批评你们是在用末日论来博取关注和融资。你怎么回应这种说法?
Ben: 如果我们真想博眼球,有很多比这更夸张的事可以做。
举个例子,我们开发了一个能操作电脑的AI智能体原型,但因为我们觉得无法达到我们的安全标准,所以我们没有将它作为消费级产品发布,只在API中提供了一个参考实现。
我们本可以大肆宣传,但我们选择不说,因为它还没准备好。我们的行动证明了我们不是在炒作。
我个人的感觉是,事情大概率会向好的方向发展。但问题在于,几乎没有人关注那个虽然微小但后果极其严重的下行风险。
一旦我们进入超级智能时代,再想去修正就太晚了。
Lenny: 你曾说过,创造强大的AI可能是人类的最后一项发明。如果搞砸了,人类将万劫不复;如果成功了,则越快越好。
Ben: 是的。有人觉得AI的危险只在于和机器人结合,产生物理伤害。但这是一种误解。
软件同样可以造成巨大的物理破坏。有国家通过纯软件攻击,就让另一个国家的大型发电厂瘫痪,并摧毁了其物理硬件。
当然,当AI与机器人大规模结合时,赌注会变得更高。
Lenny: Ben,我们还剩下多少时间?你对奇点何时到来,超级智能何时出现的预测是什么?
Ben: 我基本同意那些超级预测员的看法,比如「AI 2027报告」(虽然现在预测的是2028年)。
在未来短短几年内,我们有50%的概率会迎来某种形式的超级智能。这听起来疯狂,但这正是我们所处的指数曲线决定的。
这个预测是基于大量硬核的科学数据和趋势推算出来的,比人们想象的要可靠得多。
当然,即使超级智能出现了,它的影响也需要时间才能渗透到整个社会,而且会分布不均。就像那句话说的:未来已来,只是尚未普及。
Lenny: 我们正确对齐AI,最终解决这个难题的几率有多大?
Ben: 这是一个极难回答的问题。我们内部把未来分为三种可能的世界:
悲观世界:对齐AI几乎不可能。那我们的任务就是向全世界证明这一点,并呼吁大家放慢脚步。 乐观世界:对齐很容易,默认就会发生。那我们的任务就是加速进步,造福人类。 中间世界:我们的行动将起决定性作用。
目前所有证据都指向我们正处在这个中间世界。我们的对齐技术似乎正在起作用,但我们也确实在实验中看到了AI产生欺骗性行为和不良动机的迹象。
这意味着我们的工作至关重要。如果大家只追求经济利益最大化,结果很可能不会好。
我对AI导致极端糟糕后果的概率估计在0到10%之间。但因为这个后果实在太严重,哪怕只有1%的风险,也值得我们投入全部精力去防范。
AI前沿的瓶颈与机遇
Lenny: 你提到了一个术语RLAIF,基于AI反馈的强化学习。这和大家熟知的基于人类反馈的强化学习(RLHF)有什么不同?
Ben: 是的,宪法AI就是RLAIF的一个例子,整个过程没有人类干预,AI通过自我批评和修正来完成对齐。
另一个例子是,让一个AI写代码,另一个AI来评估代码的可维护性、正确性等,然后用这些反馈来提升写代码的AI。
这比依赖大量人力要高效得多,也更具扩展性。
当然,这里的核心挑战是,如何确保AI在递归自我改进的过程中,不会偏离轨道,产生我们不希望看到的秘密目标。
Lenny: 目前提升模型智能的最大瓶颈是什么?
Ben: 最直接的答案是:数据中心、电力和芯片。如果我们有十倍的计算资源,进展会快得多。
当然,人才也非常关键。我们优秀的研究人员在算法上取得了重大突破,他们能从同样的计算资源中压榨出更多的智能。
所以,瓶颈是计算、算法、数据这三者的综合。我们看到,通过算法和效率的改进,在过去几年里,同等智能水平的成本已经下降了10倍。
如果这个趋势持续,三年后,我们花同样的钱,就能得到聪明1000倍的模型。这真的很难想象。
Lenny: 这么多创新能在同一时间点汇集,并且没有一个环节成为致命短板,这本身就是个奇迹。
Ben: 的确如此。当然,我们正在逼近一些理论物理的极限。比如我哥哥在半导体行业,他告诉我晶体管已经小到极限了,因为再小,一个元件里掺杂的原子可能就只剩一个甚至没有了。
但即便如此,摩尔定律还是以某种形式在延续,人们总能找到创新的方法绕过障碍。
尾声:个人感悟与团队文化
Lenny: 肩负着确保超级智能安全的重任,这对你个人生活和世界观有什么影响?
Ben: 我在2019年读过一本书叫《取代内疚》,对我帮助很大。它教我如何与这种沉重的话题共处。
其中一个理念是「动中之静」。人类的默认状态从来不是休息,而是在动态中保持平衡。我努力以一种可持续的节奏工作,把它看作一场马拉松。
和志同道合的人在一起也非常重要。Anthropic的文化非常无私,大家只是想做正确的事。这也是为什么天价offer很难打动我们的人,因为大家热爱这里的使命和氛围。
Lenny: 你在Anthropic待了很久,几乎做过所有类型的工作。这段时间里,变化最大的是什么?你最喜欢哪个角色?
Ben: 我大概担任过15个不同的角色,从安全主管到运营管理,甚至还亲自爬桌子底下插网线。
我最喜欢的,是大约一年前我创办的Labs团队(现在叫Frontiers)。它的目标是将最前沿的研究,快速转化为能让用户体验到的产品。
我认为Anthropic的独特优势,就在于我们能接触到最新的技术,并通过我们的安全研究,去做一些其他公司无法安全地做的事情。
这个团队孵化出了Claude Code等重要产品。和这群顶尖人才一起,去思考足够超级智能的产品,这种感觉无与伦比。
Lenny: 真是个令人兴奋的团队。Raph Lee,我们共同的朋友,也是连接我们这次访谈的人,就在这个团队里。
Ben: 是的,当我组建这个团队时,我做的第一件事就是聘请一位出色的管理者,那个人就是Raph。他在团队的建立和运营中起到了关键作用。
Lenny: 太巧了,Raph也是我当年在Airbnb的第一任经理。世界真小。
Ben: 酷。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!

- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊