以前两年,行业还聚焦在算力范围上,仿佛谁拿到了更多GPU,谁就控制了AI竞争的入场券。但当万卡集群逐渐落地,一个更隐蔽的瓶颈浮出水面:收集

中科曙光高等副总裁李斌算了如许一笔账:“本来以CPU为中间的计算单位,双路的计算节点插一张网卡就够了;如今以GPU为中间的计算节点,一台机械要配八张甚至更多的网卡。”

由此算下来,如今收集的用量比拟以往的数据中间,进步了十到二十倍。

数量膨胀背后,智算集群也对收集机能提出更苛刻的请求:

成本下探30%,中科曙光IB产品冲击RoCE性价比「护城河」

恰是如许的背景下,中科曙光历时三年推出国产原生IB架构高速收集产品scaleFabric,试图在智算收集的咽喉要道上,占据一席之地。


IB和RoCE,二分世界?

跟着AI需求飙涨,行业已经逐渐发明,大年夜范围计算体系的效力不等于体系的峰值算力,在集群实际运行中,接近一半的算力会被浪费掉落。

也就是说,单卡算力再强,假如收集无法在规准时光内完成数据交换,大年夜部分算力只能在等待中被浪费。MFU(模型算力应用率)的天花板,很大年夜程度上是由收集决定的。

今朝,万卡集群高速互联需求下,市场能知足的技巧路线重要有两条:IB(InfiniBand)和RoCE(RDMA over Converged Ethernet)。前者是专为高机能计算设计的原生RDMA架构,后者则是基于以太网的RDMA技巧筹划。

过往,二者的场景和差别还比较泾渭分明:

IB机能卓越但价格昂贵,是超算和顶级AI集群的首选;RoCE成本较低,且互联网厂商在CPU云时代便以以太网为基本,成熟的运维体系也让他们在智算时代更偏向于持续沿用以太网路线。

IB交换机采取VCT交换,可实现“边收边转”,交换时延可控制在300纳秒以内;而RoCE交换机则采取“存储-转发”交换,需完全接收数据包后再转发,时延广泛在500纳秒以上

智算集群的扶植瓶颈,正在经历转移。

在流量控制机制上,IB采取基于信用的精细化流控,发送前会确认接收端资本,从根源避免丢包;RoCE依附的PFC(Priority Flow Control)暂停机制则是粗粒度流控,轻易出现丢包、PFC逝世锁或风暴,必须依附拥塞控制且需人工调优水线。

尽管RoCE厂商在追赶IB的机能,但用户也已经在“用脚投票”。例如,在感触感染到IB的机能优势后,微软如今已开端将部分核心AI练习营业从以太转向了IB

然而,对于国内智算用户而言,选择IB同样面对困境:

英伟达一家独大年夜,采购价格昂扬,且供货周期和产品迭代并不稳定。并且,英伟达在B300等最新芯片中已标配CX8收集模块,这意味着采购其芯片,往往就被强迫绑定应用英伟达自家的IB收集产品。

面对机能较减色的RoCE与高价垄断的IB,国产算力高速收集须要一条新前程。


国产IB的正式突围

中科曙光scaleFabric,试图打破这一僵局。

这是国内首款全栈自研原生IB架构高速收集产品:从底层的112G SerDes IP、交换芯片、网卡,到上层的交换机硬件和治理软件,满是自立研发产品,历时三年研发。

从公开的机能数据看,scaleFabric对标的是英伟达今朝主流的NDR(指 400Gb/s InfiniBand 收集)产品

机能层面,中国科学院计算技巧研究所王展表示,通信层面上,曙光的产品根本上和英伟达在同一程度。其端到端通信时延在0.93微秒,交换机转发时延260纳秒,与英伟达NDR持平;单端口带宽达到800G,较RoCE主流交换机领先一到两代,整机交换容量64T;在典范AI练习义务中,实测收集效力晋升40%以上。

靠得住性层面,因为采取了原生IB的信用流控机制,scaleFabric实现了真无损收集,避免了RoCE筹划中常见的PFC风暴风险。曙光泄漏,该产品已在近万卡范围的集群中持续稳定运行跨越10个月

当然,对用户而言,最敏感的变量依然是成本。曙光泄漏,在一致范围集群中,scaleFabric的整体收集成本较进口IB筹划可降低约30%

这一价格优势一旦被验证,RoCE赖以生计的“性价比护身符”将受到巨大年夜冲击

不过,这套国产IB产品的出生也并非坦途。

然而,AI带来算力需求爆发的当下,跟着智算集群范围从千卡迈向万卡甚至十万卡,RoCE的先天短板开端浮现——

中科曙光高速收集互联产品部总工程师万伟直言,研发中的第一个难点是链路技巧:起先大年夜家想买现成的IB筹划,然则根本不相符请求,最后只能招团队从零做起。

其次,在目标设定上,团队并非简单对标英伟达IB,而是立志在关键规格上实现超出,这也带来了巨大年夜的技巧挑衅。万伟感慨,所幸团队最终在国度的支撑下得以霸占难关、取获成功。

李斌弥补说,当前业界存在RoCE、ScaleOut、ScaleUP等多种技巧路线,百花齐放,而曙光的选择是在原生RDMA架构基本上,为超大年夜范围体系上的机能和扩大性做深度考量。

他对市场竞争格局有清醒的断定:“今朝这个市场的重要玩家照样英伟达。我们对于产品的定位,是等待在IB的技巧路线能实现技巧上的国产化替代,实现营业上真正的市场占比替代。我们欲望打破一家独大年夜的局面,把全部技巧做开放,市场的蛋糕大年夜家共享。”

万卡集群的练习,须要收集时延在纳秒级内,且传输精度做到无损。而实际是,无论选择英伟达主导的IB(InfiniBand)路线,照样运维复杂的RoCE路线,国内用户都必定程度上“受制于人”

尽管英伟达的领先地位短期难以撼动,但国产IB的冲破,已为智算收集自立之路点亮欲望。

雷峰网("大众,"号:雷峰网)雷峰网


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部