DeepSeek-V4申报亮了 V4宣布延迟的机密终于曝光

55 阅读 0 评论 0 点赞

卖力研读完这篇申报，我们发清楚明了背后可能的原因，以及这家“国产之光”令人震动的工程底色实。

可以说，DeepSeek-V4真正令人沉思的，不是它堆了若干算力，而是它在Agent练习、工程底座、以及处理“练习震动”时的那种近乎残暴的理性和透明。

33T Token + 万亿参数

难度直接拉满

距离V3宣布整整484天，V4才以“preview version”的姿势上线。

数据翻倍、参数翻倍，练习稳定性的难度也跟着上了一个量级。

申报里异常诚实：DeepSeek明白点名了“练习稳定性挑衅”。

GoogleDeepMind研究者Susan Zhang表扬说：这种透明的做法值得称赞。这个说法还获得了龙虾之父的转发

成果就是，通用处景加快1.5到1.73倍，RL rollout等延迟敏感场景最高1.96倍。

在超大年夜范围集群上，当参数量和练习数据达到某个临界点时，硬件的细微误差会被无穷放大年夜。

论文里，“stability”这个词出现了十余次。

具体来看，DeepSeek发明MoE层中的数值异常值（outlier）会经由过程路由机制赓续放大年夜，形成恶性轮回，最终触发loss spike，练习曲线忽然飙升。

团队祭出的重要解救办法是两招。

第一招叫Anticipatory Routing。它本质上就是在路由阶段应用稍早版本的参数，把骨干收集和路由收集的更新解耦，打破两者之间的恶性轮回。

第二招是SwiGLU Clamping。它直接把SwiGLU的数值范围钳制在[-10， 10]以内，从泉源压抑异常值，固然暴力但很有效。

当前大年夜模型练习已进入硬件底层、编译器栈、以及数学架构三位一体的无人区

论文里有个细节很耐揣摩。

Anticipatory Routing和SwiGLU Clamping，DeepSeek确认“明显有效”，但紧跟一句“底层机理仍是open question”。

连Q/KV归一化这种已经被广泛验证的基本操作，论文的措辞都只敢写“may improve training stability”。

一个“may”字，足以解释在万亿参数MoE的练习里，没有什么是百分百靠得住的。

从15T到33T，数据量翻倍带来的不是线性增长的艰苦，而是指数级放大年夜的体系性风险。

V3用了14.8T token做预练习，V4直接翻倍，V4-Flash训了32T，V4-Pro训了33T。参数量同样大年夜幅扩大，V4-Pro总参数1.6T，V4-Flash也有284B。

每一层收集、每一个梯度更新、每一次通信同步，都在更大年夜的范围下被放大年夜成潜在的崩溃点。

而DeepSeek选择把这些全写进论文里，这在业内几乎没有先例。

硬件的锅，照样软件的锅？

所以，技巧申报中明白提出的“练习稳定性挑衅”，指的到底是谁家的硬件？

有不雅点直接指出：所谓“练习稳定性挑衅”，很可能就是算力平台的问题。并且不只是DeepSeek一家踩坑，各大年夜厂商都碰到过。

xAI在一次宣布会上，Macrohard项目标负责人曾隐晦提到，英伟达最新的芯片给他们造成了“不小的麻烦”，不得不从新开辟硬件适配法度榜样。这或许也说清楚明了xAI进度忽然放缓的原因之一。

不过，这件事当然没那么简单。

大年夜型算力集群涉及的变量太多：芯片本身、互连架构、散热体系、电力供给、驱动版本、编译栈适配。练习不稳定未必等于芯片级缺点，也可能是体系集成层的问题。

不过，今朝还没有任何官方文件给出谜底。

一切都还在猜测之中。

Agent练习体系

工程才能让人寂然起敬

假如说V4的预练习是在和硬件博弈，那么它的Post-training则展示了教科书级其余工程审美。

可以说，Agent才能的工程化路径，是V4论文里最值得细读的部分。

以往我们认为Agent才能是“教”出来的，但DeepSeek认为，Agent才能应当是“长”出来的。

拒绝“硬迁徙”，预练习阶段的“血脉注入”

行业内大年夜部分的做法是，先训一个对话模型，再硬迁徙成Agent。DeepSeek看来，这太低效了。

在V4的mid-training阶段，他们就注入了海量的Agentic Data。

这意味着，模型在基本进修阶段，就已经见过长义务链、情况反馈和文件修改模式。它还没学会写诗，就已经见过了Linux敕令行的报错。

这就是一种地基层面的设计。

独创的Specialist Training（专家特训法）

另一大年夜亮点，就是DeepSeek独创的专家特训法。

V4没有直接练一个全能兵士，而是先练出了数学专家、代码专家、Agent专家、指令跟随专家。

这种分阶段的Specialist Training包管了每个范畴的上限被拉到最高。

固然论文里没有明白点名任何硬件平台，但已经有嗅觉灵敏的人开端猜测了。

最后，再经由过程OPD（Multi-teacher />

论文里固然没有解释这个时光跨度，但有一段内容或许能供给线索。

把Agent做成一套分布式体系

不仅如斯，DeepSeek还为V4专门自研了一套底座。

DSec：临盆级沙箱集群

今天，我们直接拆开V4的引擎盖，看看里面藏着哪些不为人知的硬核细节。

为了练习Agent的实操才能，DeepSeek搭建了一个名为DSec的平台。

3FS分布式文件体系，确保了数据的极速存取；数十万并发Sandbox实例，则意味着V4在练习时，同时有几十万台“虚拟电脑”在跑代码、测Bug。

MegaMoE：通信计算一体化

在MoE层，DeepSeek把通信和计算融合进单个pipeline kernel，专家按wave调剂，通信延迟完全隐蔽在计算之下。

自研DSML：拒绝转义掉败

对象调用方面，DeepSeek干脆本身设计了一套类似XML的DSL（范畴特定说话）。

这套协定简单高效，直接把对象调用的成功率从“看命运运限”晋升到了“工业级稳健”。

Reasoning Effort分模式练习

还有一个精细的设计，就是V4支撑不合的思虑模式。

Non-think模式是简单的对象选择，秒回。High/Max则针对长文档、重构、复杂Bug，拉满推理算力。

这种“能省则省，该狠则狠”的策略，也是V4成本能做到Claude 1/4的关键。

放在一篇技巧申报里，这个频率本身就是旌旗灯号。正常情况下，稳定性是默认前提，不值得反复提。反复提，解释它确切是个问题。

社区的很多研究者读完这部分后，跪拜得五体投地：“DeepSeek的工程才能，依旧扎实得让人没话说”。

Interleaved Thinking进级

V3.2在每个新用户消息到来时会丢弃之前的思虑陈迹，V4在Tool-Calling场景下保存了完全的跨轮次推理汗青，让Agent在长时程义务中保持连贯的推理链。

通俗对话场景仍每轮清空，保持高低文精简。

在此次V4的申报中，有人看到了“练习不稳”的难堪，有人看到了“幻觉严重”的短板。

硬币的另一面，是94%的幻觉率

Artificial Analysis的实测给出了一个更立体的画面。

跑完Intelligence Index的全量基准测试，V4 Pro只花了1071美金，比Claude Opus 4.7的4811美金便宜了四倍多。

Agent才能方面，V4 Pro Max在GDPval-AA实测（面向真实工作义务的Agent基准）中拿到了1554分，周全领先一众开源模型。

然而，世界没有免费的午餐。

Aritificial Analysis的申报里也异常坦诚地指出了这种做法的价值：V4 pro在AA-Ominiscience上的幻觉率高达94%。

这揭示了一个构造性困境：要在有限算力预算下切近亲近顶级机能，就不得不在某些维度上做弃取。

DeepSeek选择把筹码全压在推理和Agent才能上，价值，就是常识都精确性。

为什么我们依然对DeepSeek充斥敬意？

但在我们看来，这份申报最动人的处地点于透明。

他们敢于承认硬件适配阵痛，敢于披露那些看似“补丁”的解决筹划，更敢于展示本身若何用最硬核的工程才能，在几十万个沙箱里一点点磨出Agent的魂魄。

从V3的Multi-head Latent Attention到V4的OPD蒸馏和DSec沙箱，DeepSeek正在用一种近乎偏执的“工程主义”，摸索着大年夜模型通往AGI的另一条路径——

假如架构还没完美，那就用工程把墙砌厚；假如算力不敷便宜，那就用算法把效力榨干。

DeepSeek-V4也许不是最完美的终局，但它绝对是今朝最真实的、最充斥活力的“中国AI现场”。

点赞(0) 打赏

本文分类：互联网
本文标签：AI 人工智能 DeepSeek-V4报告亮了 V4发布延迟的秘密终于曝光
浏览次数：55 次浏览
发布日期：2026-04-27 09:04:28
本文链接：https://www.fqpy.com/index.php/internet/13462

上一篇 > 上海地铁48小时两起充电宝自燃当事人均称不清楚
下一篇 > 2026年3月全球主机销量估测任天堂Switch 2最为畅销

DeepSeek-V4申报亮了 V4宣布延迟的机密终于曝光

评论列表共有 0 条评论

发表评论取消回复

DeepSeek-V4申报亮了 V4宣布延迟的机密终于曝光

DeepSeek-V4申报亮了 V4宣布延迟的机密终于曝光

全国首例AI混淆案 一公司假装DeepSeek被罚5000元

海外评测DeepSeek-V4：智能体义务排名开源第一，幻觉率上升，Token消费大年夜

DeepSeek V4把百万高低文打到2毛 国产卡将“腰斩”API价格？

评论列表 共有 0 条评论

发表评论 取消回复

全国首例AI混淆案一公司假装DeepSeek被罚5000元

DeepSeek V4把百万高低文打到2毛国产卡将“腰斩”API价格？

评论列表共有 0 条评论

发表评论取消回复