DeepSeek 团队宣布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,提出了可扩大的“查找式记忆”,为大年夜模型供给了差别于传统 Transformer 与 MoE 的全新稀少性维度。

代码地址:https://github.com/deepseek-ai/Engram
论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

Engram 的核心计心境制是基于现代化哈希 N-Gram 嵌入的 O(1) 查找式记忆。模块会对输入 Token 序列进行 N-Gram 切片,并经由过程多头哈希映射到一个范围可扩大的静态记忆表中,实现常数时光的检索。

论文强调,这种查找与模型范围无关,即便记忆表扩大至百亿级参数,检索成本仍保持稳定。与 MoE 的前提计算不合,Engram 供给的是「前提记忆」。模块会根据当前高低文隐向量决定是否启用查找成果,并经由过程门控机制与骨干收集融合。

论文显示,Engram 平日被放置在模型早期层,用于承担「模式重建」职责,从而释放后续层的计算深度用于复杂推理。DeepSeek 在 27B 参数范围的实验中,将部分 MoE 专家参数从新分派给 Engram 记忆表,在等参数、等算力前提下,模型在常识、推理、代码与数学义务上均取得明显晋升。

DeepSeek 团队在论文中指出,当前主流大年夜模型在处理两类义务时存在构造性低效:一类是依附固定常识的「查表式」记忆,另一类是复杂推理与组合计算。传统 Transformer(无论 Dense 或 MoE)均需经由过程多层留意力与 MLP 重建这些静态模式,导致计算资本被大年夜量消费在「反复构造已知模式」上。

在 X 平台上,相干技巧评论辩论认为 Engram 的机制有效削减了模型早期层对静态模式的重建需求,使模型在推理部分表示得更「深」。部分开辟者指出,这种架构让大年夜范围静态记忆得以离开 GPU 存储限制,经由过程肯定性寻址实现主机内存预取,从而在推理阶段保持低开销。多位不雅察者推想,Engram 很可能成为 DeepSeek 下一代模型「V4」的核心技巧基本。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部