卖力研读完这篇申报,我们发清楚明了背后可能的原因,以及这家“国产之光”令人震动的工程底色实。

可以说,DeepSeek-V4真正令人沉思的,不是它堆了若干算力,而是它在Agent练习、工程底座、以及处理“练习震动”时的那种近乎残暴的理性和透明。

33T Token + 万亿参数

难度直接拉满

距离V3宣布整整484天,V4才以“preview version”的姿势上线。


数据翻倍、参数翻倍,练习稳定性的难度也跟着上了一个量级。

申报里异常诚实:DeepSeek明白点名了“练习稳定性挑衅”。


GoogleDeepMind研究者Susan Zhang表扬说:这种透明的做法值得称赞。这个说法还获得了龙虾之父的转发

成果就是,通用处景加快1.5到1.73倍,RL rollout等延迟敏感场景最高1.96倍。

在超大年夜范围集群上,当参数量和练习数据达到某个临界点时,硬件的细微误差会被无穷放大年夜。

论文里,“stability”这个词出现了十余次。


具体来看,DeepSeek发明MoE层中的数值异常值(outlier)会经由过程路由机制赓续放大年夜,形成恶性轮回,最终触发loss spike,练习曲线忽然飙升。

团队祭出的重要解救办法是两招。

第一招叫Anticipatory Routing。它本质上就是在路由阶段应用稍早版本的参数,把骨干收集和路由收集的更新解耦,打破两者之间的恶性轮回。

第二招是SwiGLU Clamping。它直接把SwiGLU的数值范围钳制在[-10, 10]以内,从泉源压抑异常值,固然暴力但很有效。

当前大年夜模型练习已进入硬件底层、编译器栈、以及数学架构三位一体的无人区

论文里有个细节很耐揣摩。

Anticipatory Routing和SwiGLU Clamping,DeepSeek确认“明显有效”,但紧跟一句“底层机理仍是open question”。

连Q/KV归一化这种已经被广泛验证的基本操作,论文的措辞都只敢写“may improve training stability”。

一个“may”字,足以解释在万亿参数MoE的练习里,没有什么是百分百靠得住的。


从15T到33T,数据量翻倍带来的不是线性增长的艰苦,而是指数级放大年夜的体系性风险。

V3用了14.8T token做预练习,V4直接翻倍,V4-Flash训了32T,V4-Pro训了33T。参数量同样大年夜幅扩大,V4-Pro总参数1.6T,V4-Flash也有284B。

每一层收集、每一个梯度更新、每一次通信同步,都在更大年夜的范围下被放大年夜成潜在的崩溃点。

而DeepSeek选择把这些全写进论文里,这在业内几乎没有先例。

硬件的锅,照样软件的锅?

所以,技巧申报中明白提出的“练习稳定性挑衅”,指的到底是谁家的硬件?

有不雅点直接指出:所谓“练习稳定性挑衅”,很可能就是算力平台的问题。并且不只是DeepSeek一家踩坑,各大年夜厂商都碰到过。

xAI在一次宣布会上,Macrohard项目标负责人曾隐晦提到,英伟达最新的芯片给他们造成了“不小的麻烦”,不得不从新开辟硬件适配法度榜样。这或许也说清楚明了xAI进度忽然放缓的原因之一。


不过,这件事当然没那么简单。

大年夜型算力集群涉及的变量太多:芯片本身、互连架构、散热体系、电力供给、驱动版本、编译栈适配。练习不稳定未必等于芯片级缺点,也可能是体系集成层的问题。

不过,今朝还没有任何官方文件给出谜底。

一切都还在猜测之中。


Agent练习体系

工程才能让人寂然起敬

假如说V4的预练习是在和硬件博弈,那么它的Post-training则展示了教科书级其余工程审美。

可以说,Agent才能的工程化路径,是V4论文里最值得细读的部分。

以往我们认为Agent才能是“教”出来的,但DeepSeek认为,Agent才能应当是“长”出来的。


拒绝“硬迁徙”,预练习阶段的“血脉注入”

行业内大年夜部分的做法是,先训一个对话模型,再硬迁徙成Agent。DeepSeek看来,这太低效了。

在V4的mid-training阶段,他们就注入了海量的Agentic Data。

这意味着,模型在基本进修阶段,就已经见过长义务链、情况反馈和文件修改模式。它还没学会写诗,就已经见过了Linux敕令行的报错。

这就是一种地基层面的设计。

独创的Specialist Training(专家特训法)


另一大年夜亮点,就是DeepSeek独创的专家特训法。

V4没有直接练一个全能兵士,而是先练出了数学专家、代码专家、Agent专家、指令跟随专家。

这种分阶段的Specialist Training包管了每个范畴的上限被拉到最高。

固然论文里没有明白点名任何硬件平台,但已经有嗅觉灵敏的人开端猜测了。

最后,再经由过程OPD(Multi-teacher />

论文里固然没有解释这个时光跨度,但有一段内容或许能供给线索。


把Agent做成一套分布式体系

不仅如斯,DeepSeek还为V4专门自研了一套底座。

DSec:临盆级沙箱集群

今天,我们直接拆开V4的引擎盖,看看里面藏着哪些不为人知的硬核细节。

为了练习Agent的实操才能,DeepSeek搭建了一个名为DSec的平台。

3FS分布式文件体系,确保了数据的极速存取;数十万并发Sandbox实例,则意味着V4在练习时,同时有几十万台“虚拟电脑”在跑代码、测Bug。

MegaMoE:通信计算一体化

在MoE层,DeepSeek把通信和计算融合进单个pipeline kernel,专家按wave调剂,通信延迟完全隐蔽在计算之下。

自研DSML:拒绝转义掉败

对象调用方面,DeepSeek干脆本身设计了一套类似XML的DSL(范畴特定说话)。

这套协定简单高效,直接把对象调用的成功率从“看命运运限”晋升到了“工业级稳健”。

Reasoning Effort分模式练习

还有一个精细的设计,就是V4支撑不合的思虑模式。

Non-think模式是简单的对象选择,秒回。High/Max则针对长文档、重构、复杂Bug,拉满推理算力。

这种“能省则省,该狠则狠”的策略,也是V4成本能做到Claude 1/4的关键。

放在一篇技巧申报里,这个频率本身就是旌旗灯号。正常情况下,稳定性是默认前提,不值得反复提。反复提,解释它确切是个问题。

社区的很多研究者读完这部分后,跪拜得五体投地:“DeepSeek的工程才能,依旧扎实得让人没话说”。


Interleaved Thinking进级

V3.2在每个新用户消息到来时会丢弃之前的思虑陈迹,V4在Tool-Calling场景下保存了完全的跨轮次推理汗青,让Agent在长时程义务中保持连贯的推理链。

通俗对话场景仍每轮清空,保持高低文精简。

在此次V4的申报中,有人看到了“练习不稳”的难堪,有人看到了“幻觉严重”的短板。

硬币的另一面,是94%的幻觉率

Artificial Analysis的实测给出了一个更立体的画面。

跑完Intelligence Index的全量基准测试,V4 Pro只花了1071美金,比Claude Opus 4.7的4811美金便宜了四倍多。

Agent才能方面,V4 Pro Max在GDPval-AA实测(面向真实工作义务的Agent基准)中拿到了1554分,周全领先一众开源模型。




然而,世界没有免费的午餐。

Aritificial Analysis的申报里也异常坦诚地指出了这种做法的价值:V4 pro在AA-Ominiscience上的幻觉率高达94%。


这揭示了一个构造性困境:要在有限算力预算下切近亲近顶级机能,就不得不在某些维度上做弃取。

DeepSeek选择把筹码全压在推理和Agent才能上,价值,就是常识都精确性。


为什么我们依然对DeepSeek充斥敬意?

但在我们看来,这份申报最动人的处地点于透明。

他们敢于承认硬件适配阵痛,敢于披露那些看似“补丁”的解决筹划,更敢于展示本身若何用最硬核的工程才能,在几十万个沙箱里一点点磨出Agent的魂魄。

从V3的Multi-head Latent Attention到V4的OPD蒸馏和DSec沙箱,DeepSeek正在用一种近乎偏执的“工程主义”,摸索着大年夜模型通往AGI的另一条路径——

假如架构还没完美,那就用工程把墙砌厚;假如算力不敷便宜,那就用算法把效力榨干。

DeepSeek-V4也许不是最完美的终局,但它绝对是今朝最真实的、最充斥活力的“中国AI现场”。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部