Z Lab 宣布开源推想解码框架 DFlash

435 阅读 0 评论 0 点赞

Z Lab 宣布了开源推想解码框架 DFlash，这是一种应用轻量级 Block Diffusion 模型进行草稿生成的推想解码办法。该办法旨在解决自回归大年夜说话模型在推想解码中因串行草稿生成导致的效力瓶颈。

https://github.com/z-lab/dflash

官方数据显示，DFlash 在 Qwen3-8B 上实现了高达 6.17倍的无损加快，其解码速度比今朝最先辈的推想解码办法 EAGLE-3 快近 2.5倍。今朝，该项目已开源并宣布了适配 Qwen3-4B 和 Qwen3-8B 的模型，相干论文即将宣布。

DFlash 经由过程融合目标模型的隐蔽特点作为高低文前提，实现了高效且高质量的并行草稿猜测。

官方团队表示，今朝正在将 DFlash 集成到 vLLM 中，并筹划支撑更大年夜范围的 MoE 模型。

点赞(0) 打赏

本文分类：互联网
本文标签：Z Lab 发布开源推测解码框架 DFlash
浏览次数：435 次浏览
发布日期：2026-01-10 08:29:21
本文链接：https://www.fqpy.com/internet/5469

上一篇 > 快手可灵团队开源 UniVideo，一个模型搞定“视频懂得+生成+编辑”
下一篇 > IEEE Spectrum：AI 帮助编程才能出现退化迹象

评论列表共有 0 条评论

暂无评论

发表评论取消回复

微信小程序

微信扫一扫体验

微信公众账号

微信扫一扫加关注

发表
评论返回
顶部