Kimi K2 在大语言模型创意写作基准测试中,已然加冕为新的冠军。

这项基准测试,旨在考验大语言模型在短篇故事中,巧妙融合十个指定元素的能力。

技术探源:庞大而精巧的架构

Kimi K2 基于一个拥有万亿级别参数的专家混合架构,规模宏大。

在运行时,它为每个文本单位激活 320 亿个活动参数,并调度 384 位专家协同工作,其上下文窗口更是高达 12.8 万。

其开发者月之暗面,在一个高达 15.5 万亿单位的文本数据上完成了训练,并针对智能体工具调用、深度反思和叙事生成等高级任务进行了优化

技艺超凡,但缺乏灵魂的震颤

它在文学压缩、隐喻创造和元素整合方面的技艺堪称卓越,树立了极高的技术标杆。

然而,模型为了规避模糊与情感的风险,倾向于直白告知其意,而非让深意在字里行间自然绽放

因此,其故事虽令人赞叹,偶有动人之处,却终究缺少了那种触及生命本质、足以改变认知的力量。

为何不擅推理,却善于写作?

需要明确的是,Kimi K2 并非为逻辑推理而设计。

创意写作的核心,更多依赖于风格、词汇和海量语料的浸润,而这些恰恰是其优势所在。

模型的稀疏化设计得以成功,是因为每个专家模块都为特定的语言模式而非严密的逻辑而生,这让它的文采得以保留。

其内部的门控网络能疾速调用相应的风格专家,从而确保了文笔的流畅与优美。

基准测试如何运作?

由于所有参赛模型都必须在相同的故事框架内创作,仅凭风格之异是无法取胜的。

评分模型会严格考察元素整合度、叙事连贯性、原创力与写作技巧等多个维度。

报告显示,不同评分者、不同评分项之间的结果高度一致,证明了这一衡量标准的客观与可靠。

里程碑:一个DeepSeek时刻的到来

如今,由一家中国初创公司摘得桂冠,释放了一个明确的信号:顶级的创意生成能力,已不再是西方闭源模型的专属领地

分析师们将此定义为又一个DeepSeek时刻——开源模型在发布短短数周内,其性能便能追平甚至赶超强大的闭源对手。


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!