Feynman架构将接替Rubin架构,采取台积电最先辈的A16(1.6nm)制程,为了冲破半导体物理限制,NVIDIA筹划应用台积电的SoIC混淆键合技巧,将专为推理加快设计的LPU单位直接堆叠在GPU之上。

这种设计类似于AMD的3D V-Cache技巧,但NVIDIA堆叠的不是通俗缓存,而是专为推理加快设计的LPU单位。
设计的核心逻辑在于解决SRAM的微缩困境,在1.6nm这种极致工艺下,直接在主芯片集成大年夜量SRAM成本极高且占用空间。
经由过程堆叠技巧,NVIDIA可以将运算核心留在主芯片,而将须要大年夜量面积的SRAM自力成另一层芯片堆叠上去。
台积电的A16制程一大年夜特点是支撑后头供电技巧,这项技巧可以腾出芯片正面的空间,专供垂直旌旗灯号连接,确保堆叠的LPU能以极低功耗进行高速数据交换。
结合LPU的“肯定性”履行逻辑,将来的NVIDIA GPU在处理即时AI响应(如语音对话、及时翻译)时,速度将实现质的飞跃。

不过这也存在两大年夜潜在挑衅,分别是散热问题和CUDA兼容性难题,在运算密度极高的GPU 再加盖一层芯片,若何避免“热当机”是工程团队的头号难题。
同时LPU强调“肯定性”履行次序,须要精确的内存设备,而CUDA生态则是基于硬件抽象化设计的,要让这两者完美协同,须要顶级的软件优化。

发表评论 取消回复