7月12日深夜,月之暗面更新了最新的大模型——Kimi K2,并将模型权重和代码全部开源。
海内外AI圈瞬间炸锅。在大模型竞技场LMArena排行榜中,Kimi K2综合排名斩获全球第五,在开源大模型中位居全球第一,超越Claude 4、DeepSeek-R1-0528。海外AI圈大佬纷纷点赞,Perplexity CEO次日即宣布将基于K2开启后训练。
我们原本认为,K2的发布只不过意味着月之暗面赶上了节奏,获得了“短暂的呼吸权”。
但当深入阅读技术文档后我们却发现,K2对于月之暗面以及行业的意义,远比短暂的第一要更加重大。
01
Kimi为何“迟到”?
月之暗面曾凭借独树一帜的长上下文技术和天才创始人背景,成为中国“AI六小虎”中最典型的代表。然而从今年1月份,Kimi的声量却逐渐式微,模型及产品的口碑开始出现下滑。
要理解Kimi K2的转向,我们必须先理解一个问题:为何Kimi陷入长达数月的沉寂。
杨植麟以及月之暗面,在过去一直都是Scaling Law的忠实信徒。
他们坚信,更大的模型、更多的数据,必然会涌现出更强的智能。通过卓越的产品体验吸引用户,利用用户数据反哺模型训练,从而形成“用户数据”与“模型性能”的增长飞轮。
因此月之暗面自创立之初起,就一直采取激进的“买量”策略,以期获得更多用户数据来驱动飞轮旋转。2024年11月,杨植麟在接受采访时表示,Kimi当前最核心的任务仍然是提升用户留存。
这个战略听起来很完美,但它建立在一个脆弱的前提之上——高质量的互联网数据是取之不尽的。
然而2024年底AI技术圈的风向彻底改变。前OpenAI科学家Ilya在演讲中,预告了一个残酷的现实:全球范围内,可用于高质量预训练的公开数据,已经被消耗殆尽。
这与月之暗面一直坚持的Scaling信仰产生了巨大的矛盾。
之后的故事我们已经很熟悉了。
深度求索抢先布局,依靠DeepSeek R1开辟了一种新的技术范式:依靠后训练强化学习,让大模型从“模仿学习”转向更本质的“目标导向学习”来突破智能上限,是这个版本实现AGI的新路径。
尽管月之暗面也意识到强化学习的重要性,但在Kimi 1.5的训练中,强化学习仅仅只是一个解决长文本 “上下文衰减问题”的辅助环节,而并非如R1那样聚焦 “提升推理能力”,帮助模型突破智能上限。
根据AppGrowing测算,2024年Kimi一年花掉的营销预算接近9亿人民币,月活流量数据峰值为10月的 3600 万。而一分广告费没花的DeepSeek,单单依靠产品实力和用户口碑,月活一个月就暴涨至6181 万。
DeepSeek R1的出现直接引发了AI创业公司的存在主义危机。
月之暗面的用户增长策略开始备受质疑。这种巨大的压力当然不仅仅只有月之暗面一家公司需要面对,R1给行业带来挑战是一视同仁的。
当旧地图已经无法通向罗马,月之暗面必须找到一条全新的航线。
02
Kimi K2 趟出的一条新航线
Kimi K2 的“新”首先是在模型架构、算法上的全面革新,更深层次则是月之暗面公司战略甚至文化的重新出发。
在大模型层面,K2取得了两个突破性进展:
(1)将模型参数量扩展到了超大的1T量级
(2)K2原生具有调用各种工具的能力,提出了“模型即Agent”的新概念
这两个技术创新说起来容易,但真正实现却十分困难,否则Kimi也不会消耗了大半年的时间才将K2端上来。
Kimi是怎么做到的呢?
首先,为了实现K2 1T的参数量规模,Kimi果断放弃了此前自研的模型架构,转而积极拥抱DeepSeek V3。根据Kimi团队的观点,V3是一个被市场验证过的、兼具性能和效率的选择。
于是,很多人抨击K2就是DeepSeek V3的套壳,这显然又是一种浅薄的傲慢。
根据第一性原则,不拘泥于固有思维,只关注方案是否有效、可用,这恰恰反映了Kimi团队的进步。
合适的架构选择只是第一步,K2与V3在具体参数上的差别非常大。
根据团队此前对Scaling的研究,为了在算力并不充裕的情况下突破智能上限,Kimi选择减少DeepSeek V3 MoE结构中的Attention Heads(注意力头)数量,将节省下来的参数空间全部用于增加专家的数量(Experts)。
就理论而言,更多的专家数意味着模型拥有更庞大的知识,以及更强的处理复杂问题的潜力。
然而,参数的轻微改动却产生了巨大的麻烦。Kimi发现,此前内部已经验证过的自研Muon优化器,在庞大的数据集的预训练过程表现极不稳定,会频繁崩溃。
这困扰了Kimi团队很长的时间,没有公开的解决方案能应用于稳定15T量级的预训练数据集。
经过长期的尝试,Kimi巧妙的将Muon与QK-Clip的组合,提出了一种新的MuonClip优化器。MuonClip优化器能很好地保持在预训练的稳定性,最终保证了模型在15.5T tokens的巨量预训练中,实现了零崩溃的稳定表现。它的Loss曲线是这样的,海外AI圈大佬称其为“完美的Loss曲线”。
K2的第二个壮举,是提出来一条通往原生Agentic Intelligence(智能体人工智能)的新思路。
众所周知,继推理大模型普及之后,Agent 在今年正式成为 AI 新的发展方向。
AI Agent与对话类大模型最大的区别,就是AI Agent 能做到主动感知环境、影响环境,具备使用工具的能力。今年我们见证了MCP概念的火热与普及,Cursor等 AI 编程产品开始大规模普及,OpenAI及国内厂商先后也发布了不少通用Agent产品。
在此前的认知中,大模型的使用工具的能力,大多需要通过复杂的提示工程(Prompt Engineering)或在预训练后进行强化学习(RLHF)来“后补”。
但Kimi K2 却提出了训练Agent的第三条路径。
在模型训练之前,Kimi团队依靠AI生成了成百上千个模拟场景,例如点外卖、写代码、看视频等,来模拟用户的各种行为,并据此合成了覆盖了数百个垂直领域的工具调用轨迹,其中既包括真实的MCP(模型上下文协议)工具,也包括合成工具。
通俗点说,这就相当于直接将无数用户未来可能使用Agent的所有场景,提前打包成了全新的、高质量的语料。最后再通过LLM从结果去评估每条模拟结果成功与否,以此筛选出高质量的训练数据。
基于此流程,月之暗面搭建出了一个完全自动化的Agent数据生产工厂!
正如Kimi团队研究员Flood Sung所言,这个生成无数个工作流的机制,十分契合老子的思想:一生二,二生三,三生万物。
这就让Kimi K2在预训练中,学到的不仅仅是知识,还包括工具和方法。
最终我们看到,Kimi K2具备了很强的原生Agent能力。在我们的测试案例中,Kimi K2几乎零失误地实现了我们搭建前端网页、开发小游戏的需求。
在官方公开的衡量代码任务执行能力的LiveCodeBench测试中,K2取得了53.7%的惊人成绩,远超GPT-4.1的44.7%和Claude 3.5 Opus的47.4%。
不少从业者反馈,当K2的API完全接入Claude Code之后,能以更低的成本完美的取代原本Claude 3.5的能力,效果甚至直逼最先进的Claude 4.0。
03
尾声:先改变自己,再改变世界
最后,我们想聊一聊月之暗面公司本身的战略转型。
人们熟悉的月之暗面,是一家坚持产品、模型双管齐下,有时候看起来甚至是更偏向产品驱动的AI公司。
这当中自然有面对30亿美元融资的无奈。参照过去互联网时代行业“烧钱”换用户的惯性思维,似乎只有用户数量的持续增长,才能回应投资人的期待。
互联网可以通过平台免费+广告变现的方式,将流量无痛转化为收入,但AI与广告在内核上就水火不容:前者强调效率提升,后者分散注意力。
真正为AI创业公司创造价值的是付费用户,付费用户只会为效率和结果买单。C端用户在乎的,是模型能力是否足够聪明、通人性;B端用户关心的,是AI能否帮企业赚更多钱。
这也是为什么DeepSeek R1能不花一分营销预算就收获巨量用户——它足够满足需求,这就够了。
Kimi团队在社交媒体上透露,公司在DeepSeek爆火后,内部对此前的决策进行了深刻乃至痛苦的反思。自2025年初开始,Kimi完全停掉了所有市场营销和买量行为。
“只要模型做的好,就会获得市场认可”这是一个Kimi研究员从DeepSeek成功归纳出的结论。在反思会上,杨植麟果断决定不再更新 K1 系列模型,集中资源搞基础算法和 K2,将全部资源和能力重新聚焦到大模型性能的提升上来。
截至发稿日,Kimi开源第一的位置似乎已被阿里Qwen再次反超。但这些都不重要,从Kimi K2身上我们能够看到月之暗面正在改变自己:放弃自研的架构去拥抱更优秀的架构;暂停买量,回归技术研究,用实力说话;加入开源阵营,分享探索出的新技术路径……
无论是架构还是战略上,我们可以肯定地说,是DeepSeek唤醒了Kimi。
但我们更希望这是一个青出于蓝而胜于蓝的故事。