不到两小时,一个名叫Fynn的开辟者在调试Cursor的API时,截获了Composer 2的真实模型ID,kimi-k2p5-rl-0317-s515-fast。拆开来看,kimi-k2p5指向Kimi K2.5,rl是强化进修(Reinforcement Learning),后面是日期和版本号。
2026年1月底,K2.5宣布,原生多模态加Agent集群架构,在多项Agent评测中拿下全球开源最佳。OpenClaw高潮到来后,Kimi Claw敏捷上线。据报道,K2.5宣布不到一个月,Kimi近20天累计收入就跨越了2025年全年。Stripe数据显示,Kimi小我订阅用户1月付出订单环比增长8280%。

中国AI开源的故事,正在从“一个DeepSeek”变成一个一向有新的夺走光环的玩家出现的故事,这和硅谷的节拍越来越像,OpenAI之后是Google,Google之后Anthropic,然后轮回。
月之暗面预练习负责人杜宇伦第一时光发推,称团队测试了Composer 2的tokenizer,发明与Kimi的tokenizer“完全一致”,几乎可以确认“这是对我们模型的进一步微调”。他直接@了Cursor结合开创人Michael Truell,质问为什么不遵守许可证,也没有付出任何费用。这条推文随后被删除。

但火已经烧起来了。马斯克在Fynn推文下面答复了一句“Yeah, it's Kimi 2.5”,直接把工作拱上了热搜。

从“套壳”到“合作”,反转只用了几个小时

但就在舆论发酵的同一天,剧情反转了。月之暗面官方账号@Kimi_Moonshot发帖,口气从质疑变成祝贺,称“我们很骄傲看到Kimi K2.5为Composer 2供给了基本”,并澄清Cursor经由过程推理办事商Fireworks AI获得了授权应用。
Cursor结合开创人Aman Sanger随后解释说,团队对多个基座模型做了评估,Kimi K2.5是“最强的”,之后在此基本上做了额外预练习和4倍范围的强化进修。他承认没有在宣布博客中说起Kimi K2.5是一个掉误。

Kimi正好踩进了这个窗口期。
从开源协定争议到官宣合作,全部过程不到24小时。
Cursor为什么“掉误”
这也不是Cursor第一次被发明“底座来自中国”。2025年11月Composer 1宣布时,社区经由过程tokenizer分析推想它与DeepSeek高度一致,推理时有时还会输出中文。当时Cursor同样没有回应。
从DeepSeek到Kimi,Cursor自研模型的底座换了一轮,都指向同一个事实,全球编程才能最强的底座模型,出自中国的开源社区。
Cursor不肯公开底座来源,背后有一个更深层的构造性问题。Cursor一向以来依附Anthropic和OpenAI的模型来驱动产品,但这两家公司如今正亲自下场做编程对象,Claude Code和Codex都在敏捷铺开,不少开辟者已经开端迁徙。Cursor面对的悖论是,它必须依附顶级模型来知足用户需求,但模型厂商同时也是它的直接竞争敌手。假如没有本身可控的模型底座,Cursor就永远受制于人。
从这个角度看,选择中国开源模型微调几乎是一个必定的逻辑,既够强,又不会变成本身的竞争敌手。但这同时也是Cursor不肯公开讲的原因,2025年它是AI编程赛道最炙手可热的明星,估值冲到293亿美元,3月12日Bloomberg报道新一轮融资目标估值约500亿美元。在这个节骨眼上承认核心模型来自中国开源社区,对估值叙事并不友爱。
Composer 2在Cursor本身设计的CursorBench上拿到了61.3分,跨越了Claude Opus 4.6的58.2分,不过这毕竟是一份自家出题自家考的成就单。反过来看,假如一个基于开源模型微调的产品能在编程义务上和巨擘打得有来有回,这件事本身可能比Cursor的披露掉误更有意思。Hugging Face结合开创人Clément Delangue就此评价说,“中国开源如今是塑造全球AI技巧栈的最大年夜力量”。
而对月之暗面来说,这场风波的成果几乎是一次完美的品牌事宜,从“被侵权方”到“合作方”,在全球开辟者社区里刷了一轮存在感,最后还让Cursor亲口确认“选了Kimi K2.5因为它最强”。
Kimi的“黄金一周”
往前倒推几天,Kimi刚经历了一个密度极高的曝光周期。
3月16日,月之暗面宣布了一篇纯架构层面的技巧论文“Attention Residuals”(留意力残差),试图调换掉落Transformer架构中一个自2015年ResNet以来就几乎没人动过的基本组件,残差连接。以前每一层的输出和输入直接相加、无差别传递,Kimi团队让每一层可以“回头看”,动态选择早年面哪些层提守信息。实验显示练习效力晋升约25%,推理延迟增长不到2%。论文的合营一作之一是一位17岁的深圳高中生,和Kimi的关键研究者苏剑林、张宇并列。

论文发出当晚,马斯克在X上评价“Impressive work from Kimi”,Kimi官方回了一句“你的火箭造得也不错”。Andrej Karpathy说,“看来我们还没把'Attention is All You Need'这句话按字面意思懂得透”。前OpenAI强化进修VP Jerry Tworek称之为“深度进修2.0”的开端。
第二天,3月17日,黄仁勋在GTC 2026的Keynote中多次说起中国开源模型。Kimi K2.5代替了客岁的DeepSeek ,成为黄仁勋用来对全世界展示推理重要性的时刻,那个作为标杆的模型。
3月18日,杨植麟更是直接登上GTC的分论坛演讲。他是嘉宾名单中独一来自自力大年夜模型创业公司的代表,与特斯拉AI总监、DeepMind核心架构师同列。演讲现场也座无虚席,他体系披露了Kimi K2.5背后的技巧路线,将模型进化归纳为Token效力、长高低文和智能体集群三个维度。
而在DeepSeek彻底走红之前,在GTC上做分享最多的中国开源模型团队,曾经是DeepSeek。
论文、GTC、Cursor,三件事在一周内接连落地,且这些亮眼的高光里都有与DeepSeek“时代更替”的意味:曾经是DeepSeek 每篇论文都被全球技巧社区和KOL大年夜佬追捧转发,曾经GTC几乎是DeepSeek的“非官方”宣布会,甚至Cursor以前“静静套壳”的也是DeepSeek ,而一刹时,全部变成了月之暗面Kimi。
这让很多人开端意识到,Kimi正在占据DeepSeek在全球AI社区中的地位。
DeepSeek R1在2025岁首年代的爆发重塑了全部行业的认知,让“中国AI”从一个模糊的概念变成了具体的、可以运行的模型权重。但自那之后,DeepSeek相对沉寂了。社区等待已久的V4/R2一向没有宣布,V3.1、V3.2等版本持续在更新,但那种“一出手就改写规矩”的冲击感临时没有重现。
站在DeepSeek的地位上
2025年春节后,Kimi日活一度承压,月之暗面砍掉落了大年夜笔营销预算,闭门做模型。7月,Kimi K2宣布,万亿参数MoE架构。K2宣布后在Hugging Face上线首日下载量跨越平台上所有其他模型,Anthropic结合开创人Jack Clark评价其为“全球最好的开源权重模型”。
本钱层面的节拍也在加快。2025岁尾5亿美元C轮,投后估值43亿美元;2026年2月超7亿美元,估值升至100亿美元;3月中旬新一轮10亿美元正在推动,估值已到180亿美元。同期港股上市的智谱和MiniMax,市值在3月中旬分别站上了3300亿和3800亿港元的量级,月之暗面还没进二级市场,以当前AI板块的溢价看,上市后的想象空间不小。

Kimi就如许用DeepSeek的方法夺走了DeepSeek的光环。
Kimi K2.5采取修改版MIT许可证,明白请求月营收跨越2000万美元或月活跨越1亿的贸易产品,必须在用户界面上能干标注“Kimi K2.5”。Cursor的年化收入约20亿美元,超出这条门槛8倍有余。
Kimi K2的架构直接脱胎于DeepSeek V3,MLA留意力机制、MoE专家混淆框架都是DeepSeek开创或率先大年夜范围验证的。Kimi的崛起本身就是DeepSeek技巧影响力的一种持续。DeepSeek的开源策略也更为彻底,采取纯MIT许可证,没有任何营收门槛限制,这让它在全球开辟者生态中积聚了极高的渗入渗出率。Kimi的修改版MIT许可证在贸易应用上多了一层束缚,此次Cursor事宜就是一个例子。
在DeepSeek相对安静的这段时光里,Kimi接过了“中国AI开源代表”的话筒。无论是黄仁勋的演讲台、Cursor的模型底座,照样学术论文和开辟者社区,Kimi正在弥补一个须要持续有新鲜内容的叙事空间。
并且Kimi做的也不只是出模型,Attention Residuals论文触碰的是深度进修十年没有本质性变更的底层构造,这和DeepSeek昔时做MLA是一个路数,都是在测验测验从新定义行业的基本举措措施。
由中国的开源模型们瓜代接收全球开辟者们的时光线,模型才能螺旋式上升的同时,话语权不旁落:比及DeepSeek 新模型出现时,Kimi的留意力会不会被夺走;MiniMax、Qwen、智谱、阶跃以及同样来势汹汹新入局的小米们的新工作,会不会再忽然夺走它们俩的主角地位,这些都在让这种螺旋瓜代持续下去,而这对每个中国AI介入者都是功德。

发表评论 取消回复