最强开源易主！阿里Qwen3重磅发布，数学碾压GPT-4o，想能超越Kimi-K2，直逼Claude 4，全球性能榜单再次被刷新

智能情报所
2025-07-23 15:16:10

阿里巴巴团队发布了其 Qwen3 系列的最新迭代版本：Qwen3-235B-A22B-2507。其公开的基准测试数据，表现堪称惊艳。

这究竟是一款怎样的模型？

Qwen3-235B-A22B-Instruct-2507 是阿里云 Qwen 团队在 2025 年 7 月推出的旗舰级大语言模型。

它采用先进的混合专家架构，总参数量高达 2350 亿，但每次推理仅激活 220 亿，实现了效率与性能的精妙平衡。

该模型在指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用等多个维度都进行了深度优化。

Qwen3-235B-A22B-Instruct-2507
经过与社区的深入交流和内部的慎重考虑，我们决定停止混合思维模式的探索。
未来，我们将分别训练指令模型和思维模型，以追求极致的性能。
今天，我们正式向所有人发布 Qwen3-235B-A22B-Instruct-2507 及其 FP8 量化版本。

Qwen 的研究人员自信地表示，新模型更智能、知识更渊博、能力更全面，并且在智能体任务上的表现远超以往。

模型核心参数

Qwen3-235B-A22B-Instruct-2507 的核心技术规格如下：

类型: 自回归语言模型
训练阶段: 预训练与后训练
参数量: 总计 2350 亿，激活 220 亿
非嵌入参数量: 2340 亿
层数: 94
注意力头: 64 个查询头 (Q)，4 个键值头 (KV)
专家数量: 128
激活专家数: 8
上下文长度: 原生支持 262,144 tokens

非常有趣的是，就在月之暗面发布 Kimi-K2 的模型卡和技术报告后，Qwen 的这款模型就紧随而至。

请仔细审视这张图表，它揭示了重要的信息。

据我所知，这是 Qwen 团队首次将 ARC-AGI 基准测试纳入评测。

这个指标极好地反映了在 2025 年年中，中国的开源模型技术已经达到了非常领先的水平。

从 2023 年 4 月的通义千问到 2025 年 4 月的 Qwen 3，阿里巴巴的 Qwen 系列模型在全球科技和商业领域掀起了一波又一波的浪潮。

如果你持续关注开源 AI 领域，就会发现 Qwen 似乎在很长一段时间里，始终是行业的领军者或关键的开拓者之一。

新一代 Qwen3 的核心特性

模型多样性： 提供密集模型与混合专家模型，覆盖从 0.6B 到 235B 的多种参数规模。
双模式无缝切换： 在单一模型内，思维模式（处理复杂逻辑、数学、编码）与非思维模式（高效通用聊天）可无缝切换，适应不同应用场景。
推理能力飞跃： 在数学、代码生成和常识推理上，性能显著超越前代模型。
卓越的人类偏好对齐： 在创意写作、角色扮演和多轮对话中，提供更自然、更沉浸的交互体验。
顶尖的智能体能力： 能与外部工具高效协同，在复杂的智能体任务中，性能位居开源模型前列。
强大的多语言支持： 支持超过 100 种语言和方言，具备出色的多语言指令遵循和翻译能力。

迭代速度惊人的 Qwen

Qwen 的发布节奏展示了其惊人的迭代速度：

2025.07.21: 发布 Qwen3-235B-A22B-Instruct-2507，显著增强并支持 256K 长上下文。
2025.04.29: 发布 Qwen3 系列。
2024.09.19: 发布 Qwen2.5 系列，新增 3B, 14B, 32B 尺寸。
2024.06.06: 发布 Qwen2 系列。
2024.03.28: 发布首个 MoE 模型 Qwen1.5-MoE-A2.7B。
2024.02.05: 发布 Qwen1.5 系列。

Qwen3 与 Kimi-K2 的较量

这张 AI 生成的分析图提供了一个直观的对比，但请注意，这是基于 Qwen3 的旧版本，新模型的表现将截然不同。

阿里巴巴同时也是月之暗面的投资者，这意味着他们很可能掌握着中国顶尖 AI 实验室的大部分前沿技术。

此外，阿里巴巴与 01.AI（其部分人才源于此）和 Manus AI（已迁至新加坡）等公司也建立了特殊的合作关系。

Qwen3 在 2025 年的纸面实力

种种迹象表明，新版 Qwen-3 相较于前代是一次巨大的飞跃，在部分基准上甚至超越了像 Claude 4 这样的顶级闭源模型。

可以说，2025 年中国在 LLM 领域正以惊人的速度追赶美国，技术差距可能已缩短至 3-6 个月。而在开源模型领域，中国已经处于领先地位。

它原生支持 256k 的超长上下文，确保了强大的长文本理解能力。

Qwen3 的能力覆盖自然语言理解、文本生成、视觉、音频、工具使用、角色扮演和 AI 智能体等多个方面。

值得注意的是，该模型专注于非思维模式，致力于提供高效、通用的响应。

它在多语言任务、长尾知识覆盖面，以及处理主观和开放式问题时与用户偏好的对齐度上，都比前代有显著提升。

在与 GPT-4o、Claude Opus 4 和 Kimi K2 的对比中，Qwen3 展现出强大的竞争力，尤其在数学推理和编码基准上。

该模型基于 Apache 2.0 协议开源，并提供了 FP8 量化版本以降低部署门槛，可通过 Hugging Face、Qwen Chat 和 ModelScope 等平台进行访问。

新版本究竟强在何处？

2507 版本的核心改进

通用能力: 在指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用方面取得重大突破。
知识覆盖: 大幅增强了在多种语言下的长尾知识储备。
用户对齐: 在处理主观和开放式任务时，能更好地契合用户偏好。
长上下文理解: 进一步优化了 256K token 的长文本处理能力。

性能亮点速览

新模型在各大权威基准测试中均取得了卓越的成绩：

推理与数学

AIME25: 70.3% (性能领先)
HMMT25: 55.4% (得分顶尖)
ARC-AGI: 41.8% (推理能力卓越)
ZebraLogic: 95.0% (逻辑推理能力出众)

编码

LiveCodeBench v6: 51.8% (参评模型中拔得头筹)
MultiPL-E: 87.9% (多语言编码能力强悍)

知识与对齐

SimpleQA: 54.3% (事实准确性极高)
Arena-Hard v2: 79.2% (用户偏好得分顶级)
Creative Writing v3: 87.5% (创作能力优秀)

在AI霸权的全球竞赛中，阿里巴巴的存在感正变得前所未有的强大。

参考资料：

https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507

https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507

https://github.com/QwenLM/Qwen3

https://discord.com/invite/CV4E9rpNSD

https://qwen.readthedocs.io/en/latest/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里

开源

点赞 (0)
分享
微信扫一扫
加入群聊
扫码加入群聊