NVIDIA创造全新Groq 3 LPU：500MB SRAM高速缓存 7倍带宽碾压HBM4

159 阅读 0 评论 0 点赞

它是一款专用的AI推理加快芯片，基于NVIDIA客岁入购的Groq，专攻低延迟解码与交互式推理，与主打练习和通用计算的GPU形成互补，合营支撑AI从练习到落地的全流程。

NVIDIA Rubin Vera平台之前就已经包含六种不合芯片：Rubin GPU加快器、Vera CPU处理器、Bluefield 4 DPU数据处理单位、ConnectX 9智能网卡、NVLink 6纵向扩大交换机、Spectrum-X横向扩大交换机。

Groq 3 LPU集成了980亿个晶体管，构造很简单就是多达500MB SRAM(静态随机存取存储器)，也就是CPU、GPU上管用的缓存单位。

固然它在容量上远不及288GB HBM4，然则可供给150TB/s的惊人带宽，远远跨越HBM4 22TB/s 7倍之多。

要知道，AI解码操作是极端渴求带宽的，Groq 3正好可以完美知足，并且延迟要低得多。

基于此，NVIDIA打造了Groq 3 LPX机架，包含256颗Groq 3 LPU，缓存总容量达128GB SRAM，带宽则是恐怖的40PB/s。

机架之间经由过程640TB/s带宽的专用纵向扩大接口连接起来，整体AI推理算力达到315PFlops(每秒31.5亿亿次)。

Groq LPX定位是Rubin Vera平台的协处理器，可以加快AI模型每一层的每个token处理，晋升解码机能。

它还为多智能系一切做好了预备，这被视为AI的下一个前沿范畴，须要在对万亿参数模型进行推理、处理百万token高低文窗口的同时，保持交互机能。

如今，Groq 3 LPU又参加了这一大年夜家庭。

Rubin GPU结合Groq LPU，将把当下每秒100个token的吞吐量，推向每秒1500个token甚至更多，从而完美支撑AI智能体交互场景。

同时，Groq 3 LPU的FP8精度算力达到了1.2PFlops(每秒1200万亿次)。

点赞(0) 打赏

暂无评论