近日,DeepSeek 团队向其核心推理内核 FlashMLA 推送了一系列更新,而在这些提交中,一个此前从未公开表态的模型定名 “MODEL1” 激发了社区的高度存眷。
多位社区开辟者推想,MODEL1 很可能恰是 DeepSeek 内测中的 V3 最终版本(V4 模型),也有人猜测它可能代表一个完全自力于 V 系列的新模型。


据介绍,DeepSeek 团队为 FlashMLA 提交更新的这一系列代码横跨 114 个文件,个中有 28 处都提到了未知的 “MODEL1” 大年夜模型标识符。该标识符与已知的现有模型 “V32”(即 DeepSeek-V3.2)被并列或差别说起。
根据代码高低文分析,“MODEL1” 很可能代表一个不合于现有架构的新模型。
开辟者分析认为,“MODEL1” 与 “V32” 在关键技巧上存在差别,重要表如今键值(KV)缓存的构造、稀少性处理方法以及对 FP8 数据格局的解码支撑等方面。这些差别注解新架构可能在内存优化和计算效力长进行了针对性设计。

发表评论 取消回复