NVIDIA 88核心Vera CPU开卖：第一次正面叫板Intel、AMD

150 阅读 0 评论 0 点赞

流水线包含10发射的指令解码单位、每时钟周期2次分支猜测的神经分支猜测器、定制的图数据库分析预取引擎等。

Vera CPU代号“Olympus”(奥力把斯)，底层架构是基于ARMv9.2-A指令集的自研设计，而上代Grace照样公版内核。

单颗88个核心，支撑176线程，还有162MB三级缓存，而上代Grace为72核心144线程。

NVIDIA声称，Vera IPC机能比较上代Grace大年夜幅晋升了1.5倍，结合立异的高带宽设计，机能比拟标准CPU赶过50％，号称拥有当前最快的单线程机能。

同时，它采取了空间多线程技巧(spatial multi-threading)，纰谬履行单位、缓存和存放器文件等关键部件进行时光片轮转(time-slicing)，而是对流水线中的各类组件进行物理隔离，避免与同一核心上运行的其他线程争抢资本。

这与传统同步多线程(SMT)的时光片轮转、线程轮流应用资本的做法截然不合。

空间多线程技巧可以在履行单位余暇时，从其他线程拉取指令，从而晋升指令级并行度(ILP)、吞吐量与机能可猜测性，确保资本获得充分应用。

简单地说，它可以两个线程在单个核心上真正同时运行，而传统SMT的本质仍是轮流履行，这对多用户并发情况尤为有利。

基于这一技巧，Vera的全部88个核心都放置在于单一域内，不会像x86处理器那样出现非一致内存拜访(NUMA)而大年夜幅增长延迟，对延迟、可猜测性、带宽、编程易用性等都意义重大年夜。

Meta已宣布将引入Vera CPU机架筹划，NVIDIA生成也会向阿里巴巴、甲骨文、Coreweave、Nebius等超大年夜范围云厂商供给。

NVIDIA没有披露个中的更多细节，然则Vera搭载了新一代的SCF(可扩大一致性互连)，基于上代Grace中的CMN-700一致性网格收集改进而来，然则推敲到Arm已经进级到了最新的Neoverse CMN S3网格，Vera大年夜概率用的就是它，或者定制版本。

基于这种互连设计，Grace支撑的网格内存吞吐量为546GB/s，平均每个核心7.6GB/s。

Vera直接翻倍到了1.2 TB/s，平均每个核心接近14GB/s，尤其是收集负载不均衡时，单个核心最高可以获得80GB/s。

此外，Vera还搭载了NVLink-C2C互联接口，吞吐量最高1.8TB/s，是上代的两倍，并相当于PCIe 6.0整整七倍，并支撑双路设备，当然也支撑PCIe 6.0、CLX 3.1。

根据NVIDIA官方数据，在脚本履行、编译、数据分析、图分析、高机能计算等场景中，Vera的机能比拟上代Grace晋升了1.8-2.2倍。

NVIDIA同时宣布了全新Vera CPU机架设计，单个机柜集成256颗液冷散热CPU，总计45056个线程，同时还有74颗Bluefield-4 DPU、ConnectX SuperNIC网卡，配备最多400TB LPDDR5内存，带宽300TB/s。

NVIDIA声称，它支撑22500个可彼此自力运行工的并发CPU情况。

Vera CPU现已周全量产，筹划本年下半年开端交付。

这标记住，经由Grace的积聚和沉淀，NVIDIA Vera开端正式进入CPU直销市场，不只在传统范畴与Intel、AMD直接竞争，同时与全球超大年夜范围云厂商所用的各类定制Arm处理器展开比赛。

点赞(0) 打赏