点击下方卡片,关注“大模型之心Tech”公众号

戳我 -> 领取大模型巨卷干货



>>点击进入→大模型技术交流群


“狙击”Grok4、兼容Claude协议、代码能力飙到 Claude3.7 和 4 之间但成本下降较多......自其在2024年因超长上下文理解能力惊艳世人后,Kimi很长一段时间都未有亮眼战绩。

最近,Kimi又有重登巅峰之势!

先是Kimi的新功能Deep Researcher还在马斯克旗下公司xAI直播发布会上,让海外学者、研究员和用户惊呼!直播中提到HLE(Humanities Last Exam,人类最后的考试)分别让OpenAI、谷歌旗下Gemini以及月之暗面Kimi三家公司的产品进行“考试”,结果揭晓后,Deep Researcher(Kimi上月发布的首款Agent产品),在HLE测试中超过了Gemini2.5 Pro,略高于OpenAI Deep Research,并与Gemini-Pro的Deep Research Agent打平,是目前已知的最高水平之一。

而后是昨天发布并开源的Kimi K2 ,擅长代码与 Agentic 任务! 如Kimi官方所言,这是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型,总参数 1T,激活参数 32B。在自主编程(Agentic Coding)、工具调用(Tool Use)和数学推理(Math & Reasoning)三大能力维度的基准性能测试中取得优秀表现。

除了基准性能测试,Kimi K2 在多个实际场景中也展现出更强的能力泛化和实用性,如代码能力提升,Agent 工具调用能力提升,风格化写作能力提升

在 SWE Bench Verified、Tau2、AceBench 等基准性能测试中,Kimi K2 均取得开源模型中的 SOTA成绩,展现出在代码、Agent、数学推理任务上的领先能力。

Kimi K2 的预训练阶段使用 MuonClip优化器实现万亿参数模型的稳定高效训练,在人类高质量数据成为瓶颈的背景下,有效提高 Token 利用效率,找到新的 Scaling 空间。

评论区更有用户直言:

“很高兴看到还有这样一个努力研发大模型的Kimi在!DS出来之后好多公司都歇菜了!”

那么,这一波开源有哪些值得深入关注的点,下面汇集了领域大佬们的观点,欢迎大家讨论:

饼干哥哥AGI

先说亮点:

  1. Kimi K2 能力集中在代码、Agent 与数学推理
  2. 兼容Claude协议,可以直接用在 AI 编程当红炸子鸡 Claude Code 上
  3. 代码能力飙到 Claude3.7 和 4 之间,但成本下降很多
  4. 工具调用能力超强,是为 Agent 设计的大模型,这个思路可以极大扩大能力边界
  5. 前面 3  buff 叠加,或许能把 kimi 重新推到一线水平

API 侧更是“价格锤”:百万输入 token 4 元、输出 16 元,且支持 OpenAI、Anthropic 调用,迁移只需改端点  。在当前本地部署热潮下,1 T 却仅 32 B 激活的设计让双 A100 即可推理,降低了门槛。业内普遍解读这次“闪电开源”是 Moonshot 抢占编程模型 C 位,为将至的 Agent 大战提前筑底。

toyama nao 知乎:大模型话题下的优秀答主

短的结论:kimi只管大力,剩下的交给奇迹

基本信息

  • 成本:16元每百万
  • 平均长度:约7325字
  • 速度:约27字每秒
  • 平均耗时: 276秒

逻辑成绩

编程成绩

编程语言分布

月之暗面一直在外界的质疑中成长,凭借第一个做出超长上下文一炮而红之后,又在后来的巨头轮番抢占智能制高点的竞赛中逐渐沉寂,转向开拓搜索,文档等垂类领域,一时间各路KOL谈及AI无不带着Kimi的商单。而时间到了25年之后,Kimi又开始发力开源领域,上个月的Kimi-Dev-72B只是个烟雾弹,真正的大杀器是k2。

月之暗面无疑对“巨大”有执念,从早期的2M上下文,到如今的1T参数。无不透露着对“大就是好,好就是大”的朴素追求。这一次的大力显然还是出了一些奇迹,但不多。k2的极限性能与DeepSeek的V3相仿,在官方的开源说明中也重点和V3对比。加上官方也宣称k2特别适合编程任务,向着V3的舒适区发起进攻,因此接下来也重点对比k2与V3。

首先在输出上,k2和V3可称难兄难弟,V3输出长度已经达到平均5000字之多,k2更甚,高达7380字。是目前在测的非推理模型之最。这样的输出体量,配上月之暗面稀缺的算力资源,导致其平均耗时即便在推理模型里,也只能排第二梯队的惨状,好在k2开源,或许不久就能看到隔壁硅基流动上线k2,来一波算力扶贫。

知乎人工智能问题优秀答主 小小将

从Benchmark评测结果来看,Kimi-K2超过开源的DeepSeek-V3-0324和Qwen3-235B-A22B,所以算是目前开源的最好非思考模型了,也是目前开源的最大模型了。所以,恭喜开源大模型进入T时代。 但是毕竟是非思考模型,所以打不过DeepSeek-R1。盲猜后面应该还会有推理版本k2-thinking

橘鸦Juya

最最最重要的,他是个非推理模型。不知道现在和我一样讨厌推理模型的人多不多,我真的不会闲得蛋疼整天拿些脑筋急转弯似的推理题去问A1,也没那么多数学问题推理模型的回答是好,可一想到要等待一段时间的推理才有正式答案我就LLM阳痿了终于有一个超越 V3 的非推理模型了,可喜可贺。

另外,有人知道吗,Qwen Chat发桌面端了,目前仅限 Mac Os,支持MCP,gwen.ai 网站也做了改版。

所以 Qwen 团队是不是有人在专门运营汪峰人设啊,真的有点说法的。

更多有关Kimi K2的讨论,可以加入我们⬇️!


大模型之心Tech知识星球交流社区

我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。 

星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo大模型预训练后训练知识蒸馏量化推理模型MoE强化学习RAG提示工程等多个版块)、科研/办公助手AI创作工具/产品测评、升学&求职&岗位推荐,等等。

星球成员平均每天花费不到0.3元,加入后3天内不满意可随时退款,欢迎扫码加入一起学习一起卷!