Z Lab 宣布了开源推想解码框架 DFlash,这是一种应用轻量级 Block Diffusion 模型进行草稿生成的推想解码办法。该办法旨在解决自回归大年夜说话模型在推想解码中因串行草稿生成导致的效力瓶颈。

https://github.com/z-lab/dflash
官方数据显示,DFlash 在 Qwen3-8B 上实现了高达 6.17倍 的无损加快,其解码速度比今朝最先辈的推想解码办法 EAGLE-3 快近 2.5倍。今朝,该项目已开源并宣布了适配 Qwen3-4B 和 Qwen3-8B 的模型,相干论文即将宣布。
DFlash 经由过程融合目标模型的隐蔽特点作为高低文前提,实现了高效且高质量的并行草稿猜测。

官方团队表示,今朝正在将 DFlash 集成到 vLLM 中,并筹划支撑更大年夜范围的 MoE 模型。

发表评论 取消回复