写在Kimi开源1T参数新模型Kimi K2的48小时后

大模型之心Tech
2025-07-14 08:30:00

点击下方卡片，关注“大模型之心Tech”公众号

>>点击进入→大模型技术交流群

“狙击”Grok4、兼容Claude协议、代码能力飙到 Claude3.7 和 4 之间但成本下降较多......自其在2024年因超长上下文理解能力惊艳世人后，Kimi很长一段时间都未有亮眼战绩。

最近，Kimi又有重登巅峰之势！

先是Kimi的新功能Deep Researcher还在马斯克旗下公司xAI直播发布会上，让海外学者、研究员和用户惊呼！直播中提到HLE（Humanities Last Exam，人类最后的考试）分别让OpenAI、谷歌旗下Gemini以及月之暗面Kimi三家公司的产品进行“考试”，结果揭晓后，Deep Researcher（Kimi上月发布的首款Agent产品），在HLE测试中超过了Gemini2.5 Pro，略高于OpenAI Deep Research，并与Gemini-Pro的Deep Research Agent打平，是目前已知的最高水平之一。

而后是昨天发布并开源的Kimi K2 ，擅长代码与 Agentic 任务！如Kimi官方所言，这是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型，总参数 1T，激活参数 32B。在自主编程（Agentic Coding）、工具调用（Tool Use）和数学推理（Math & Reasoning）三大能力维度的基准性能测试中取得优秀表现。

除了基准性能测试，Kimi K2 在多个实际场景中也展现出更强的能力泛化和实用性，如代码能力提升，Agent 工具调用能力提升，风格化写作能力提升。

在 SWE Bench Verified、Tau2、AceBench 等基准性能测试中，Kimi K2 均取得开源模型中的 SOTA成绩，展现出在代码、Agent、数学推理任务上的领先能力。

Kimi K2 的预训练阶段使用 MuonClip优化器实现万亿参数模型的稳定高效训练，在人类高质量数据成为瓶颈的背景下，有效提高 Token 利用效率，找到新的 Scaling 空间。

评论区更有用户直言：

“很高兴看到还有这样一个努力研发大模型的Kimi在！DS出来之后好多公司都歇菜了！”

那么，这一波开源有哪些值得深入关注的点，下面汇集了领域大佬们的观点，欢迎大家讨论：

饼干哥哥AGI

先说亮点：

Kimi K2 能力集中在代码、Agent 与数学推理
兼容Claude协议，可以直接用在 AI 编程当红炸子鸡 Claude Code 上
代码能力飙到 Claude3.7 和 4 之间，但成本下降很多
工具调用能力超强，是为 Agent 设计的大模型，这个思路可以极大扩大能力边界
前面 3 buff 叠加，或许能把 kimi 重新推到一线水平

API 侧更是“价格锤”：百万输入 token 4 元、输出 16 元，且支持 OpenAI、Anthropic 调用，迁移只需改端点。在当前本地部署热潮下，1 T 却仅 32 B 激活的设计让双 A100 即可推理，降低了门槛。业内普遍解读这次“闪电开源”是 Moonshot 抢占编程模型 C 位，为将至的 Agent 大战提前筑底。

toyama nao 知乎：大模型话题下的优秀答主

短的结论：kimi只管大力，剩下的交给奇迹

基本信息：

成本：16元每百万
平均长度：约7325字
速度：约27字每秒
平均耗时： 276秒

逻辑成绩：

编程成绩：

编程语言分布：

月之暗面一直在外界的质疑中成长，凭借第一个做出超长上下文一炮而红之后，又在后来的巨头轮番抢占智能制高点的竞赛中逐渐沉寂，转向开拓搜索，文档等垂类领域，一时间各路KOL谈及AI无不带着Kimi的商单。而时间到了25年之后，Kimi又开始发力开源领域，上个月的Kimi-Dev-72B只是个烟雾弹，真正的大杀器是k2。

月之暗面无疑对“巨大”有执念，从早期的2M上下文，到如今的1T参数。无不透露着对“大就是好，好就是大”的朴素追求。这一次的大力显然还是出了一些奇迹，但不多。k2的极限性能与DeepSeek的V3相仿，在官方的开源说明中也重点和V3对比。加上官方也宣称k2特别适合编程任务，向着V3的舒适区发起进攻，因此接下来也重点对比k2与V3。

首先在输出上，k2和V3可称难兄难弟，V3输出长度已经达到平均5000字之多，k2更甚，高达7380字。是目前在测的非推理模型之最。这样的输出体量，配上月之暗面稀缺的算力资源，导致其平均耗时即便在推理模型里，也只能排第二梯队的惨状，好在k2开源，或许不久就能看到隔壁硅基流动上线k2，来一波算力扶贫。

知乎人工智能问题优秀答主小小将

从Benchmark评测结果来看，Kimi-K2超过开源的DeepSeek-V3-0324和Qwen3-235B-A22B，所以算是目前开源的最好非思考模型了，也是目前开源的最大模型了。所以，恭喜开源大模型进入T时代。但是毕竟是非思考模型，所以打不过DeepSeek-R1。盲猜后面应该还会有推理版本k2-thinking