GPU

首页

GPU

列表

默认

浏览次数

发布日期

计算所严肃玉团队新作： Attention 并非永远是瓶颈，多 GPU 并不必定更快

计算所严肃玉团队新作： Attention 并非永远是瓶颈，多 GPU 并不必定更快

系统实验表明，模型推理分为计算受限的 Prefill 与内存受限的 Decode。

互联网 2026年01月03日 0 点赞 0 评论 78 浏览

巨额“收编” Groq，英伟达意欲何为？

巨额“收编” Groq，英伟达意欲何为？

“黄仁勋200亿美元买的是Jonathan Ross这个人。”

互联网 2026年02月05日 0 点赞 0 评论 106 浏览

上海AI Lab胡侠：KV Cache紧缩之后，可让价格2万美金的GPU发挥出20万美金的价值 | GAIR 2025

上海AI Lab胡侠：KV Cache紧缩之后，可让价格2万美金的GPU发挥出20万美金的价值 | GAIR 2025

胡侠团队将 Key 跟 Value Cache按照不同的压缩方法压缩，可以让模型不掉点。

互联网 2026年01月09日 0 点赞 0 评论 117 浏览

计算所严肃玉团队新作： Attention 并非永远是瓶颈，多 GPU 并不必定更快

计算所严肃玉团队新作： Attention 并非永远是瓶颈，多 GPU 并不必定更快

系统实验表明，模型推理分为计算受限的 Prefill 与内存受限的 Decode。

互联网 2025年12月30日 0 点赞 0 评论 120 浏览

计算所严肃玉团队新作： Attention 并非永远是瓶颈，多 GPU 并不必定更快

计算所严肃玉团队新作： Attention 并非永远是瓶颈，多 GPU 并不必定更快

系统实验表明，模型推理分为计算受限的 Prefill 与内存受限的 Decode。

互联网 2025年12月22日 0 点赞 0 评论 142 浏览

微信小程序

微信扫一扫体验

微信公众账号

微信扫一扫加关注