同样1GB文本，为何中文训练效果差？对话EleutherAI研究员Catherine，看懂多语言模型的“诅咒”与“祝福”

作者 | 王诗棋何苗

采访 | 王启隆 Eric Wang

出品丨GOSIM 开源创新汇

从语言学跨界到自然语言处理（NLP），Catherine Arnett 深刻体会到，多语言背景带来的思维多样性，正在为多语言模型的构建开辟全新路径。

作为 EleutherAI 的 NLP 研究员，Catherine 起初在爱丁堡大学主修中文与语言学。一次偶然的导师更替，引导她从传统语言学研究转向语言模型的计算探索，由此踏上了跨越语言与技术边界的研究之路。

她精通英语、西班牙语、法语和汉语，对语言的结构差异与共性有着敏锐的感知。在深入多语言自然语言处理的过程中，Catherine 提出了一个具有启发性的重要概念——“字节溢价”（byte premium）。她发现：即使是字节数相同的文本，不同语言中所承载的“有效信息密度”却可能差异显著。这一现象揭示了语言结构对模型输入效率的深层影响，并为多语言模型性能优化提供了新的理论视角。

围绕这一发现，Catherine 及其团队于去年训练了名为 “Goldfish” 的小型语言模型系列，参数量约为 1 亿，覆盖多达 350 种语言进行预训练。令人惊讶的是，这些轻量级模型在部分基准测试中，表现甚至超越了如 Llama-8B 等参数规模高达数十亿的主流多语言大模型。

另一方面，Catherine 一直秉持着知识开放共享的信念。她深信，只有在开放协作的环境下，结合对语言和文化多样性的尊重，才能培育出真正公平而强大的语言模型。带着这样的热忱和洞见，在本期 Open AGI Forum 访谈中，Catherine 与我们分享了她在语言领域跨界求索的心路历程，以及对多语言模型未来发展的独到见解。

亮

点

内

容

“多语言的诅咒”本质上源于模型容量受限。当单一架构试图覆盖所有语言时，反而可能影响效果。与其如此，不如为每种语言量身打造小而精的模型，将“诅咒”转化为优势。

多语言模型评估缺乏有效基准是当前最大的障碍之一，必须开发真正具备文化敏感度的高质量评估体系。
高层次的语法结构是否会影响语言模型的学习效果？实验结果显示，模型性能的差距并不主要由这些特征造成，更可能取决于数据集的规模。
科学本应是开放的。如果无法获取模型权重和训练数据，所做的就不能称之为真正的科学。

以下为访谈实录：

跨越语言边界：从语言学到 NLP 的探索之路

Eric Wang：非常感谢 Catherine 接受 GOSIM 的采访。能否先请你做一个简要自我介绍？

Catherine Arnett：大家好，我是 Catherine Arnett，目前在 EleutherAI 担任自然语言处理研究员。最近我刚从加州大学圣地亚哥分校获得语言学博士学位，研究方向聚焦在多语言自然语言处理。

Eric Wang：你拥有非常独特的学术背景——最初在爱丁堡大学攻读的是中国研究与语言学双学位，和现在从事的 NLP 工作看似相距甚远。能否谈谈当初是什么吸引你走进语言学的世界？又是什么促使你选择学习汉语这样一门语言?

Catherine Arnett：我从小就对语言很感兴趣。小时候曾在一所西班牙语学校就读，后来又学习了拉丁语等其他语言，这些经历让我对语言本身产生了浓厚的兴趣。上大学时，我希望挑战自己学习一种完全陌生的语言，最后选择了汉语。我觉得汉语非常有趣，这一选择也无意间为未来的发展指明了方向。

Eric Wang：也就是说，你当时已经掌握了西班牙语、法语和汉语。在学习汉语的过程中，有没有遇到哪些特别的挑战或让你印象深刻的趣事？

Catherine Arnett：最吸引我的是汉语独特的书写系统。我最初花了大量时间练习读写，一笔一画地临摹和记忆汉字。这种学习体验对我而言既新鲜又充满挑战。

Eric Wang：你精通多种语言的背景是否在潜移默化中影响了你对语言本质的理解？

Catherine Arnett：当然。学习多种语言让我逐步建立起“多语言视角”。像汉语这样与英语差异极大的语言，让我不禁思考语言之间的结构差异，以及这些差异如何影响语言学习、语言技术开发和语言模型的构建。

Eric Wang：你在个人主页上提到自己曾在中国旅行，是否可以分享一下当时的经历？这些旅行是短期的，还是较为长期的生活体验？

Catherine Arnett：我曾在杭州生活过一个学年。在没有课程安排的时间，就利用空余时间去全国各地旅行，体验不同城市的文化和风貌。中国地大物博、历史悠久，这段生活经历让我对语言和文化有了更深层次的理解，也成为我人生中非常宝贵的一段回忆。

Eric Wang：后来你选择赴加州大学圣地亚哥分校攻读语言学博士，并转向计算社会科学方向。从传统语言研究转向计算方法的转变，是如何发生的？

Catherine Arnett：其实这个转变并非一蹴而就。最初我研究的是心理语言学，关注人类如何处理和产出语言。通过行为实验研究语言理解机制，我当时具体研究的是汉语中的“重叠”现象。随着研究深入，我开始思考是否能将心理语言学的研究方法运用到语言模型的研究中去，并从汉语扩展到其他语言，这也逐渐引导我走入了计算语言学的世界。

Eric Wang：那么，真正促使你进入 NLP 领域的契机是什么？

Catherine Arnett：当时由于导师更替，我的研究方向也发生了一些调整。之后我去参观了学校认知科学系的几个实验室，其中一个实验室每周会组织论文研讨，讨论的内容多与语言模型相关。我努力跟上他们的阅读节奏，渐渐地我对模型的内部机制产生了浓厚兴趣，很多问题也随之浮现。这些经历推动我逐步投身于 NLP 研究。

Eric Wang：我最初接触 NLP 时正值“AI 寒冬”，当时业内普遍认为“NLP 已死，没有未来”。在你的观察中，NLP 是如何一步步发展至今天这个阶段的？

Catherine Arnett：我真正开始关注 NLP 是在 2021 年。当时 GPT-3 已经发布，但 ChatGPT 尚未出现，尚未引发如今的巨大影响力。尽管那时的模型在自然性和说服力上还存在明显差距，但它们已经显现出强大的潜力。这也让我们开始提出诸如“这些系统如何理解语言”“它们是如何学习语言”的基础性问题。

Eric Wang：你扎实的语言学理论背景是否帮你在自然语言处理领域解决过一些关键问题？

Catherine Arnett：是的。今年早些时候我在国际计算语言学会议（COLING）上发表了一篇论文，研究语言类型学中的一些关键特征，例如高层语法结构是否会影响语言模型的学习效果。之前已有研究提出这些特征可能对模型表现产生影响，这是我一直关注的方向。因此我设计了一系列系统实验。最终结果显示，尽管语言特征间确实存在差异，但模型表现的差距主要还是受数据规模影响，而非语言本身的类型特征。

“字节溢价”：多语言模型训练中的隐性瓶颈与新视角

Eric Wang：你在研究中提出了“字节溢价”（Byte Premium）这一非常关键且具有新意的概念。能否用通俗的方式向我们的观众解释一下？

Catherine Arnett：我们最初的研究目标，是想找到一种方法，让不同语言的数据集规模可以在标准化的前提下进行比较。这个概念的提出，源于我们在观察中发现：在 UTF-8 编码下，不同语言的字符所占用的字节数存在明显差异。举例来说，拉丁字母的字符通常只占用 1 个字节，而中文字符则需要 2 至 3 个字节，像缅甸文、高棉文等语言的字符甚至可能需要 3 到 4 个字节。这意味着，同样大小（按字节计）的文本，在不同语言中所包含的“有效语言信息”并不一致。我们称这种差异为“字节溢价”（Byte Premium）。具体来说，比如用 1GB 的中文文本训练模型，由于每个字符占用更多字节，模型实际接收到的有效信息可能只有原始量的一半甚至更少。这一现象在超大规模的多语言模型中尤为明显，也在一定程度上解释了我们观察到的性能瓶颈。

Eric Wang：在你提出“字节溢价”之前，学术界通常是如何衡量多语言数据集规模的？

Catherine Arnett：过去，大多数研究者都是以 token 数量来衡量数据集规模的。在像 XGLM 这样的多语言模型技术报告中，虽然偶尔也会使用字节数或 GB 作为单位，但主流做法仍是以 token 总数为基准。毕竟 token 数不仅直接关系到训练过程中的步数，也便于调控训练参数。

不过我们后来决定放弃这一做法，主要原因是我们当时需要在训练分词器之前就确定各语言的数据量，而在分词器还未生成的情况下，token 数是无法准确统计的。这个起初看似只是个技术细节，没想到最后竟成为一个完整的研究课题。

Eric Wang：在实际模型开发中引入“字节溢价”概念时，你认为最大的挑战是什么？

Catherine Arnett：与其说是挑战，不如说是我们仍在努力解答的一些问题。比如，在训练时会根据不同语言的“字节溢价”调整数据的规模，但这又带来了新的矛盾：随着数据量的上调，计算资源的消耗也会同步增长。

如果我们希望在计算资源不变的前提下进行跨语言的数据量调节，那么如何在各语言间实现资源分配的公平性和实验设置的一致性？目前这在工程层面上仍较难实现，也是我们下一阶段要重点解决的方向之一。

图｜Open AGI Forum 现场对谈实录（左：主持人王启隆，右：嘉宾 Catherine Arnett）

数据稀缺与基准缺失，是多语言模型训练的真正瓶颈

Eric Wang：你在 GOSIM 大会上的演讲主题，聚焦于寻找开放多语言大语言模型评估的最佳实践。目前评估多语言大语言模型时，最迫切需要解决的问题是什么？

Catherine Arnett：整体而言，基准测试数据的缺乏确实是我眼下最大的挑战，所以我会更关注如何根据一些重要指标谨慎地挑选合适的评估基准。在评估的过程中，我经常发现要么根本找不到可用的基准，要么现有的基准不符合最佳实践标准。因此，目前在 EleutherAI，我的重要工作之一就是建立多语言评估体系，以帮助解决这个问题。

Eric Wang：那么关于基准测试，我们该如何确保评估指标真正反映出模型在现实世界中多语言情境下的实际能力，而不是让模型只是钻评测方法的空子，或针对特定的基准进行“作弊”呢？

Catherine Arnett：我认为关键在于采用多样化的基准测试。我想强调的一点，是避免使用机器翻译生成的基准测试，这非常重要，因为这会将机器翻译中的噪音带入评测过程。特别是对于那些低资源语言而言，机器翻译的质量通常很差，这种基准测试容易产生误导。另外，还要确保实验细节和结果报告尽可能精确，这样在进行模型对比（例如模型选型）时，才能确保评测指标真实反映出你所关注的性能，并且能正确理解评测结果。

Eric Wang：明白了。那么对于那些低资源语言，在创建高质量且具有文化敏感性的评估基准时存在哪些具体困难？社区又该如何协作来克服这些挑战？

Catherine Arnett：这正是我们当前致力于攻克的核心问题。EleutherAI 拥有一个对所有人开放的 Discord 社区，目前已有约三万名成员。项目的关键在于推动大规模、跨机构的国际合作。试想，如果我们要构建一个覆盖 10 种语言的数据集或评估体系，至少需要 10 位语言专家分别负责对应语言，理想情况下还需要更多人参与。我们必须组建一支涵盖多语言、多文化背景的专家团队，才能真正理解在不同文化语境下什么才是“相关”或“重要”的内容。如果缺乏与这些专家的深入合作，我个人其实很难掌握各类文化中的细微差异。

Eric Wang：这里提到的专家指的是 MoE（混合专家模型）还是真正的人类专家？

Catherine Arnett：我指的是人类专家。人类专家可以帮助我们理解现有的评估体系，判断哪些内容适合直接翻译，哪些需要进行本地化调整。

Eric Wang：你研究的另一个重要课题探讨了“多语言的诅咒”。这种“诅咒”具体体现在哪些方面呢？

Catherine Arnett：“多语言诅咒”指的是这样一种现象：当模型加入了大量其他语言的数据后，目标语言的性能不但没有提高，反而可能会变差。这通常是因为模型的容量已经达到上限，无法同时有效地学习并表示所有语言的信息。我们在 GOSIM 会议上也反复讨论过，比如像 Llama 这类大型多语言模型，其训练数据大约 95%都是英语，那么剩下的容量还能分配给其他语言多少呢？这些语言在数据集中本来就占比较少，模型能分配给它们的资源自然也有限。因此，这些都是在训练多语言模型时需要认真考虑的问题。

Eric Wang：模型容量在这个问题中起到什么作用？

Catherine Arnett：从根本上讲，我们不可能用一个模型完美覆盖所有语言。我甚至觉得，或许我们根本没有足够的数据支撑这样的模型，而且即使不断增大模型的规模，也未必能真正解决问题。相反，我们应该专注于针对特定语言或小语种群体，设计更专门化的小模型，而不是试图让单个大模型同时兼顾所有语言。说到底，通过无限增大模型来解决所有语言问题是不现实的。

Eric Wang：也就是说各个国家可能都需要各自建立专门的语言模型和数据集，就像这次 GOSIM 提到的波兰语数据集那样？

Catherine Arnett：没错。我们的确需要针对每种语言开发专门的模型。不过这不一定意味着模型只能支持单一语言，但核心目标一定是最大化特定语言的表现。因为，虽然像 Llama 这样的大模型也能生成波兰语等非英语文本，但效果其实并不理想。

Eric Wang：那有没有可能将这种“诅咒”变成一种优势？比如，通过某些特定的训练策略，在不同语言之间实现积极的知识迁移？

Catherine Arnett：当然可以。我们去年在 EMNLP 大会上发表的一篇论文明确证实了这一点：对于低资源语言而言，多语言训练通常能带来明显的性能提升，我们将这种现象称之为“多语言的祝福”。具体来说，这些语言能够有效地借助其他语言（尤其是与之接近的语言）的知识实现迁移学习，从而改善模型的表现。而且，这种迁移并非必须依赖于英语，事实上，从与目标语言更相似的语言迁移，效果通常更为明显。因此，我现在的一个研究重点，就是探索如何创造最佳条件，最大程度地发挥这种迁移的优势，以更好地解决许多语言面临的数据不足问题。

Eric Wang：如果我们希望扩大模型覆盖的语言种类，应该如何避免或减轻“多语言诅咒”对特定语言，尤其是那些资源丰富或结构独特的语言带来的负面影响？

Catherine Arnett：我认为，解决这个问题的关键是摆脱“用单一模型覆盖所有语言”的思路。与其在像 Llama 这样的大型模型基础上做微调，不如针对不同语言分别训练专门的模型，从头开始优化小模型的架构与参数，可能更为有效。事实上，我们去年就训练了一系列参数量约一亿的小模型，这些“小而精”的模型在某些任务上的表现甚至超过了参数规模大 80 倍的 Llama-8B，这充分证明了“小模型定制化”的潜力。

Eric Wang：“金鱼”模型（Goldfish）？

Catherine Arnett：对，就是“金鱼”模型。这种现象启发我们重新思考：究竟在什么条件下才能真正让模型达到最佳表现？也许我们应该从规模更小的模型入手，从头开始预训练，并以更高效的方式设置分词器，而不是一开始就依赖现有的大型模型。

Eric Wang：在如今这个越来越被大型模型主导的时代，“金鱼模型”这样“小而美”的模型在研究和实际应用中扮演了怎样的角色呢？

Catherine Arnett：首先，小模型的出现极大降低了研究的门槛。最近我用“金鱼模型”做实验，仅用笔记本电脑不到两小时就跑完了整个流程。这种体验对于缺乏大型超算资源的研究者而言意义重大，说明即使在有限的计算条件下，我们依然可以做出非常有价值的研究。尽管小模型不是唯一的研究方向，但它很好地补充了大模型的研究，为我们提供了一种经济实用的实验环境，既能避免高额计算资源的浪费，也能为未来更大规模的探索积累经验。

Eric Wang：在处理海量多语言数据时，你认为识别并消除偏见及有害信息的最大挑战是什么？

Catherine Arnett：我认为多语言数据目前最大的问题主要体现在两个方面：数据质量和有害内容。首先，语言识别的准确性问题至今依然没有得到彻底解决，这也是我希望能有所贡献的领域，目前 Common Crawl 项目就正在努力提升语言识别的准确性。其次，有害内容（toxicity）的识别也是个巨大的挑战。我们去年曾尝试通过合成数据来训练专门的有害内容分类模型，但当时只针对欧洲语言进行了实验。如果要将这种方法扩展到更多低资源语言，效果如何尚不得而知。实际上，语言资源越是匮乏，我们能用的有效工具也就越少。坦率地说，我暂时也没有非常完美的解决方案。最终，我们需要的是更完善、更可靠的工具。在英语主导的 NLP 研究领域，有些问题看似已经解决或不再重要，但在多语言环境下，这些问题依然远未得到有效解决。

多语言模型研究依然处于上半场

Eric Wang：当前学术界对 AI 对齐、大型语言模型的社会影响（如就业和教育）、以及潜在监管挑战等话题都有许多讨论。从你关注的多语言研究视角来看，有哪些议题是值得特别关注的？

Catherine Arnett：坦白讲，我常常觉得多语言领域比主流研究晚了好几年。以预训练为例，我们领域还有许多关键问题并未得到妥善解决，而主流的 NLP 研究已经越过了基础预训练阶段，进入了更先进的后训练和智能体阶段。然而，对我所研究的很多语言来说，我们目前的模型性能还很初级，甚至连基础的预训练工作都尚未完善，更遑论考虑智能体或强化学习这些更前沿的问题。因此，在某种意义上，我们与主流前沿还有一定的距离。不过我也一直关注这些最新的发展动态，目前我的主要精力集中于构建高质量的数据集、设计更有效的评估方法以及训练精巧的小模型。虽然研究进度存在一定落差，但这样的节奏让我能更加稳扎稳打地推进研究。虽然多语言 NLP 领域目前规模有限，但我们的社区却充满活力，成员之间的凝聚力也非常强。

Eric Wang：最近有篇热门文章提出：“我们已进入 AI 时代的下半场”，但对许多语言而言可能还远未达到这个阶段，你怎么看？

Catherine Arnett：确实如此。对大部分语言而言，AI 的发展仍处于“上半场”。不少语言当前拥有的数据量甚至比不上 1970 年代的英语资源水平。尽管我们在这些语言上的研究还相对落后，但这也意味着还有广阔的空间值得我们持续努力追赶，这个过程本身就充满挑战和机遇。

Eric Wang：在多语言环境中，AI 的伦理问题和价值观对齐会不会变得更加复杂？我们应如何确保 AI 系统尊重不同文化的价值观？

Catherine Arnett：最近，EleutherAI 的 Discord 社区里也展开了热烈的讨论，我自己也正与社区成员合作研究这个问题。在过去半年里，我们已经看到越来越多专门用于评估文化适配性的基准数据。我认为，目前一些最前沿的模型已经具备了讨论文化敏感性的条件。但必须承认，在多语言环境下，模型性能本身较弱，数据资源也更匮乏，能使用的工具相当有限。这是我们需要积极解决的问题。实际上，这对不同语言社群的成员来说也是一次宝贵的机遇，他们可以利用自己的文化经验与独特视角，参与构建真正具有文化敏感性的基准测试和数据集，帮助 AI 系统更好地理解和尊重不同文化的价值观。

Eric Wang：目前全球存在如此众多的语言，而每种语言都需要大量资源去支持。你觉得 AI 的能耗问题给开发公平和包容的多语言 AI 带来了哪些挑战？

Catherine Arnett：从我自身的研究经验来看，由于处理的数据集规模本就有限，我们也无法训练规模庞大的模型，只能相应地减少模型大小。然而这反倒促使我们长期以来专注于开发资源高效的小模型，也算是在无意中解决了部分计算资源和能耗方面的挑战。我也参与过一些项目，探索如何让模型更高效地运行在边缘设备上。坦率地讲，我对此没有特别深刻的见解，但确实感受到，资源的局限性迫使我们更积极地探索高效和节能的方案，这在一定程度上缓解了能耗带来的问题。

AI 心智起源的二向探讨

Eric Wang：对你个人而言，开放科学意味着什么？

Catherine Arnett：GOSIM 昨天有位演讲者说得很好：根本不存在所谓的“开放科学”，因为科学本来就应该是开放的。如果研究是封闭的，那就根本不算是真正的科学。我经常跟同事讨论：如果我们无法获取模型的权重，无法了解训练数据，我们怎么能够确定自己观察到的现象不是由于隐藏的系统提示、或训练数据污染所导致的呢？我认为，只有当我们能完全掌握整个技术栈，包括训练代码、强化学习过程等各个环节时，才真正能够从实验中获取有效知识。如果缺乏开放，我们做的根本不算科学研究。

Eric Wang：你认为在开放数据和负责任 AI 之间，我们该如何找到平衡点？

Catherine Arnett：过去一年，无论是在我此前所在的初创公司 Play Us，还是现在的 EleutherAI，我一直在探索如何构建既开放又负责任的数据集，并让这些数据集具备规模化应用的可能。尽管我们选择的数据集整体规模可能不算太大，但我相信这样的数据集能够成为稳固的研究基础。我们或许会牺牲一些数据规模上的优势，但这样做的好处是能更好地满足伦理要求，并实现长期可持续发展。此外，这种方式还能避免潜在的法律风险，并有助于维护与不同语言社区之间良好的合作关系。我认为，这种负责任且开放的研究模式才是正确的发展方向，这也是我一直以来致力推动的事情。

Eric Wang：随着模型能力不断提高，关于 AI 是否可能产生类似人类心智、意识或自我认知的讨论越来越多，但这些概念常常难以界定，你怎么看？

Catherine Arnett：坦率地说，我对一些关于 AGI（通用人工智能）和 ASI（超级人工智能）的宏大观点或忧虑一直保持谨慎态度。在我看来，一个真正的 AGI 或 ASI，至少应该能够流畅地掌握所有语言，这或许才是我们真正追求的目标。但很明显，我们距离这个目标仍然很遥远，因此我并不认为短期内会出现任何系统能够完全达到这种水准。

Eric Wang：在 AI 领域，有两种不同的看法：一种认为人的心智源于视觉感知，比如李飞飞开发的 ImageNet，以及后来的 AlexNet 所代表的路径，强调婴儿出生后通过观察世界逐渐形成理解；另一种则认为心智主要源于语言和文本，认为人类和动物最大的区别就是语言。你认为我们更应该关注哪条路径，视觉还是语言？

Catherine Arnett：作为一名语言学家，我自然更倾向于强调语言对 AI 发展的作用。但如果想让 AI 更“像人类”，我认为最终的方向一定是多模态的。目前多模态研究的进展很令人兴奋，包括具身智能（embodied AI）也是一个非常值得期待的方向。当然，这些领域也引发了不少新的问题和担忧。坦白地说，作为语言学家，我不确定自己能在多模态或具身智能上贡献多少。然而，人类的智能显然不仅仅依赖于语言，也不仅仅依赖于视觉或其他多模态体验——实际上，这些因素缺一不可。所以我觉得语言和视觉这两个方面对 AI 的发展来说都是必不可少的。

Eric Wang：回到意识、思维和认知的哲学问题上。你认为人类的意识或心智能力到底源于哪里？

Catherine Arnett：我个人也倾向于认为，人类和动物之间的关键差异就在于语言。当然动物也有非常复杂的交流系统——目前甚至有一些有趣的研究正尝试破译鲸鱼和海豚的交流方式，它们的沟通系统其实非常复杂。但我想强调的是，人类甚至在出生前就已经开始接触语言——胎儿在母体内就能听到声音，所以我们刚出生时对于语言的接触并非是 0。因此，要严格区分视觉体验和语言在意识中的具体作用是非常困难的。但作为语言学家，我必须指出，语言具有独特且至关重要的作用。语言让我们能够合作、交流和共享想法，更重要的是，它塑造了我们的思维方式，让我们能够构建复杂的观念。如果没有语言，这一切都是无法实现的。

一位 NLP 研究者眼中的 GOSIM 与欧洲开源生态

Eric Wang：这是你第一次来巴黎参加 GOSIM 大会吗？能谈谈你对这座城市以及本次大会氛围的初步感受吗？

Catherine Arnett：我之前已经来过几次巴黎，所以对这里并不陌生。不过，这次参加 GOSIM 大会带给我的体验仍然很新鲜。与我以往参加的学术类 NLP 会议相比，这次最大的不同是能够接触到来自更多不同领域的同行，大家关注的问题也更加多元化，包括基础设施、实际应用场景等等。这种跨领域的交流给了我更广阔的视角，也让我了解到了其他领域同行的研究现状以及他们所面临的挑战。

Eric Wang：从你的角度来看，欧洲的 AI 开源社区有哪些特别的地方？与北美或其他地区相比，这里的开发者生态有什么不同吗？

Catherine Arnett：我们之前也在一些讨论中提到过这个问题。举个例子，欧洲有 EuroHPC 这样的项目，它集合了欧盟各国乃至整个欧洲的资源，建立大型的超级计算中心，并根据需求统一分配计算资源。我觉得，这种公共共享设施的存在更容易引导研究人员主动走向开源，而不像美国那样更多依赖私有的计算集群。因此在基础设施层面上，欧洲天然地更倾向于开源模式。当然，另一方面来看，我自己的合作者其实遍布全球，包括欧洲、北美、亚洲等地，从这个意义上来说，我所处的社区本身就是全球化的。从整体来看，欧洲社区与其他地区并没有非常明显的差异，尤其考虑到我很多合作者本身就在欧洲。

Eric Wang：关于 GOSIM 未来的发展，以及和全球开源 AI 社区的合作，你有什么期望或建议？

Catherine Arnett：我相信随着 GOSIM 不断发展壮大，会有更多的人加入其中。每一次大会都会吸引到来自不同领域和背景的参与者，这种多元化的参与本身就能够为社区带来新的视角和创新活力。希望 GOSIM 能继续保持这种开放性，积极吸引更多不同组织、领域的人参与进来，给大家提供交流和分享经验的平台。

Eric Wang：好的，非常感谢 Catherine 的分享，谢谢你和 Open AGI Forum 交流你的经验和见解。

限量早鸟票抢先购！

9 月 13 - 14 日，

GOSIM HANGZHOU 2025

1500 + 全球一线开源开发者

100 + 海内外资深专家

100 + 优质技术分享

5 大技术论坛

9 场主题 Workshop

3 场 Hackathon 创新竞赛

1 场 GOSIM Spotlight

特别联动 Rust 十周年精彩活动