
▲海外开辟者在X平台评论辩论MODEL1身份
近日,DeepSeek向其核心推理内核FlashMLA推送了一系列更新,而在这些提交中,一个此前从未公开表态的模型定名激发了社区的高度存眷——MODEL1。

▲DeepSeek代码库出现MODEL1相干(图源:X)
更关键的是,据海外开辟者推想,MODEL1的背后将是一整套新的推理机制、算子构造与底层内存设备,会与DeepSeek现有V3.2模型出现出完全不合的技巧路径。
在相干代码文件中可以看到,MODEL1被用于核心解码函数的多个实例中,显式适配了头维度为64和128的场景,并专门安排在SM90和SM100架构上。
这一名称不仅涌如今SM90架构相干的.cu内核实例化文件中,还贯穿在多个针对FP8稀少解码路径的模板定义与内存构造注释里。

▲DeepSeek FlashMLA源码截图(图源:GItHub)
代码中多处调用了“ModelType::MODEL1”,与其对应的还有一套自力的持久化内核。这些文件与V32版本的持久化内核文件并行存在,这显示出DeepSeek或许已为该模型设计了与V3系列完全不合的编译路径与履行逻辑。

一位海外网友也对这部分代码进行了深刻解读,他认为,MODEL1在整体构造上展示出更强的实验性特点,支撑动态Top-K稀少推理逻辑,还引入了额外的KV缓存区。
更值得留意的是,在代码中,有一条特别注释写道:对于F3架构(即SM90平台)下的MODEL1模型,其KV缓存的内存stride必须是576B的整数倍。

▲海外网友推文截图(今朝该条注释已于代码库内删除)
这一设备差别于V3.2的656B,暗示着MODEL1对底层内存对齐和调剂有更为严格的请求,可能与其更复杂的运行时行动与动态缓存机制有关。

▲海外开辟者的分析(图源:X)
前者经由过程引入一个可变的topk_length指针,许可模型在推理时根据token或请求动态决定介入计算的key数量,晋升了计算资本的精细调剂才能;后者则经由过程extra_kv缓冲区,供给了将体系提示与用户高低文分别存储的可能,为Agent架构或多段高低文场景供给支撑。
据社区开辟者分析,MODEL1在同步逻辑与界线控制上可能比V3.2加倍复杂。个中RoPE与NoPE维度在双GEMM运算中耦合更紧,可能意味着其在地位编码与张量路径调剂上做出了明显调剂。
分析还提到,MODEL1引入了运行时界线检查机制,旨在规避动态Top-K推理中潜在的不法内存拜访。
在更早的1月9日,外媒援引知恋人士称,DeepSeek将于2月中旬,也就是春节前后宣布其下一代模型,主打编程才能,并在内部测试中已经在多个基准上超出了Claude与GPT系列。
结合今朝模型文件构造已覆盖64和128两个头维度、FP8稀少解码路径已完成适配、内存规范已强迫定义等迹象来看,MODEL1很可能已接近练习完成或推理安排阶段,正等待最终的权重冻结和测实验证。
在海外社交平台上,不罕用户对MODEL1的曝光反响热烈。一位用户奚弄道:“我已经能听见‘新模型将带来99.97%成本降低’了。”

而另一位开辟者则认为,假如DeepSeek再次开放权重,势必将对闭源巨擘形成压力,推动前沿模型进一步走向开放。

恰逢DeepSeek R1宣布一周年,Hugging Face官方博客也宣布了特别文章《One Year Since the “DeepSeek Moment”》,体系回想了以前一年中国开源社区的集体爆发,明白说起DeepSeek的开源策略已从一次事宜演变为生态策略。
此外,尽管官方注释中标明MODEL1的stride应为576B,但据社区开辟者基于代码构造估算,其实际内存分派逻辑可能接近584B。这种细微差别被认为反应出该分支仍处于调试或快速迭代阶段。
▲DeepSeek FlashMLA源码文件树(图源:GItHub)

▲Hugging Face官方博客:One Year Since the “DeepSeek Moment”
文章称,R1模型的开源不仅降低了推理技巧、临盆安排与心理三个门槛,更推动了国内公司在开源偏向上形成非协同但高度一致的计谋走向。
从百度、字节跳动到月之暗面、智谱AI,各大年夜机构在以前一年中陆续参加Hugging Face并宣布高质量模型,在社区下载、点赞与引用榜单上几回再三登顶。
与此同时,越来越多西方开源模型的底座也开端应用DeepSeek系列做微调,DeepSeek-V3更是成为Cogito v2.1等海外模型的底层基座。
结语:一年之后,DeepSeek再次站在开源演进的起点
如今,距离R1宣布仅一年,DeepSeek的“MODEL1”很有可能在体系架构、履行路径与推理机制上展示出周全超出V3.2的才能。
假如接下来如传闻所述在春节前后正式宣布,DeepSeek或许将再次改写国内开源格局,也可能为全球前沿开源模型建立新的标杆。

发表评论 取消回复