
传统残差连接以“固定等权累加”传递信息,层数增长易导致浅层信息稀释、练习效力低、稳定性差。

以抉剔著称的马斯克转发研究并评论“Kimi的作品令人印象深刻”,其旗下xAI正处重组期,此次承认足见技巧分量。
而Kimi的立异相当于给AI装了“智能筛选器”,将Transformer留意力机制迁徙到模型深度维度,让每一层动态筛选此前有效信息、压低冗余,晋升传递效力。
为避免内存过载,团队设计“块留意力残差”策略,模型分块后,块内保存传统累加包管稳定,块间采取动态加权,推理延迟仅增长不到2%,实现机能与效力均衡。
实测显示,48B参数模型练习效力晋升1.25倍,科学推理、数学题作答成就分别晋升7.5%、3.6%,有效解决传统模型练习掉衡问题。
此外,被誉为“推理模型之父”的前OpenAI研究副总裁Jerry Tworek也发文表示:“深度进修2.0来了”


发表评论 取消回复