计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快 系统实验表明,模型推理分为计算受限的 Prefill 与内存受限的 Decode。 互联网 2026年01月03日 0 点赞 0 评论 20 浏览
上海AI Lab胡侠:KV Cache紧缩之后,可让价格2万美金的GPU发挥出20万美金的价值 | GAIR 2025 胡侠团队将 Key 跟 Value Cache按照不同的压缩方法压缩,可以让模型不掉点。 互联网 2026年01月09日 0 点赞 0 评论 60 浏览
计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快 系统实验表明,模型推理分为计算受限的 Prefill 与内存受限的 Decode。 互联网 2025年12月30日 0 点赞 0 评论 74 浏览
计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快 系统实验表明,模型推理分为计算受限的 Prefill 与内存受限的 Decode。 互联网 2025年12月22日 0 点赞 0 评论 91 浏览