“在收集构造未充分优化的情况下,大年夜范围AI集群的GPU应用率平日仅保持在较低程度。”平头哥产品总监李旭慧表示。
算力集群本质上是一个强同步体系:上千张GPU须要在同一时光完成计算并交换数据。一旦某个节点通信出现延迟,全部集群的计算过程就会被迫等待,体系效力最终由最慢路径决定。
当集群范围进一步扩大,收集瓶颈被进一步放大年夜:突发推理流量带来的数据洪峰、复杂拓扑导致的链路拥塞,以及依附体系级PCIe总线所形成的长数据路径,都在赓续侵蚀算力效力。
在这一背景下,行业正在形成一个新的共鸣:决定AI体系效力的关键,正在从单点算力机能,转向全部算力收集体系的协同才能。
4月28日,在2026数字中国扶植峰会上,平头哥正式宣布旗下首款智能网卡“磐脉920”。
磐脉920被定义为AI原生智能网卡,其搭载自立设计的智能网卡芯片,采取PCIe 5.0与112G PAM4以太网技巧,最大年夜支撑400Gbps吞吐带宽,收发包率达到400Mpps。
据雷峰网("大众,"号:雷峰网)懂得,磐脉920已进入量产阶段,首批产品已于本月上线,相干订单正在加快交付。
跟着磐脉920的宣布,平头哥已完成数据中间四大年夜核心芯片的构造:真武系列AI 芯片、倚天系列CPU、磐脉系列智能网卡,以及镇岳系列存储主控芯片,覆盖算力、收集与存力三大年夜关键环节。
当Agent驱动的流量构造变得加倍碎片化与弗成猜测,算力、收集与存储之间的协同界线被持续放大年夜,智能网卡还能在多大年夜程度上持续释放体系效力?
AI算力越强越浪费?通信路径让GPU应用率「卡」在30%
磐脉920以AI集群通信瓶颈为核心出发点,从“路径、调剂与架构”三个层面重构数据流转方法。
“从行业趋势来看,AI算力增长很快,收集已经成为明显的短板。”李旭慧说到。
这一问题在练习与推理分化中被进一步放大年夜。
跟着智能体开端进入范围化应用,AI体系的负载构造正在产生转移:推理与练习的占比慢慢从1:1向4:1演进。
在这一变更下,收集不再只是练习阶段的支撑体系,而是同时承载高频、突发、混淆型的推理流量,整体负载从相对可猜测的同步通信,转向高度动态的不肯定性构造,对带宽与时延才能提出持续性挑衅。
但现有收集体系仍存在明显代际差别。
传统TCP网卡依附内核与软件栈完成数据搬移,本质上仍是“CPU介入型”的通信路径;RDMA固然经由过程绕过内核、削减拷贝开销来降低时延,但在大年夜范围AI集群中,仍会受到多层交换拓扑、跨节点同步机制以及全局一致性调剂等身分的制约。
DPU与AI专用网卡的路径也开端分化。
DPU平日集成CPU核并支撑可编程才能,同时须要挂载内存,整体更偏向通用计算场景下的资本虚拟化与云资本治理。而在AI练习与推理场景中,核心需求并不是计算扩大,而是大年夜范围、低时延、对称通信才能,是以更轻量的专用网卡架构被认为更具针对性。
在大年夜范围练习体系中,假如收集不匹配,GPU应用率往往只能保持在30%阁下,即便优化较好也很难跨越60%。其根源并不只在单点带宽,而在于全部体系的拓扑构造与通信路径难以完全对称。CPU、GPU、网卡与多级交换机合营构成复杂路径,一旦链路时延不均,就会被同步机制放大年夜为整体机能损耗。
是以,收集优化的关键不只在于带宽晋升,更在于对通信路径的调剂与均衡才能。例如在邻近时延前提下进行路径探测与流量分发,使体系尽可能避免“快慢不均”的资本浪费,从而晋升整体算力应用效力。
带宽应用率晋升至90%、体系成本降低30%,磐脉920「重构」集群通信效力界线
在传输层面,磐脉920经由过程多路径RDMA机制,打破传统RDMA依附单一路径的限制,使数据流量可以或许在多链路之间并行调剂,从而降低热点拥塞概率并晋升整体带宽应用率,明显缩短练习场景中的义务完成时光。
在调剂层面,其集成细粒度收集感知才能与可编程拥塞控制算法,可以或许对链路状况与流量变更进行及时监测,并在突发流量或拥塞产生前后动态调剂传输策略,实现对不合营业流的差别化调剂与优先级保障,从而降低收集颤抖对关键义务的影响。
这种“内生式收集构造”重构了数据流转路径,也直接带来整系一切成本约30%的降低。
同时,经由过程选择性重传与拥塞状况及时监控机制,进一步降低跨域长尾时延,使链路带宽应用率由约60%晋升至接近90%。
这一调剂才能的基本,来自其更底层的智能感知算力收集设计。磐脉920具备55种收集感知手段与最多32种拥塞控制算法组合才能,可以或许对链路进行细粒度检测与收发包级控制,使拥塞感知时光较传统软件筹划晋升约10倍,并可实现7级营业优先级保障。
更关键的变更产生在体系架构层面。
磐脉920在网卡内部引入PCIe Switch,实现直连GPU、SSD,削减对外部交换芯片与冗余数据路径的依附,从而构建更短的数据传输链路,降低体系复杂度与通信开销。
“磐脉920搭载平头哥自研芯片架构,每秒可处理4亿个收集数据包,供给400G收集带宽,单秒传输才能相当于100部高清视频数据量。”李旭慧告诉雷峰网。
环绕这一架构,磐脉920进一步集成可编程收集才能与硬件加快引擎,支撑对数据面、控制面及收集事宜的灵活编排,并具备多种收集感知手段与拥塞控制算法组合才能,使体系可以或许根据不合AI负载动态调剂通信策略。
在实际安排中,这一设计不仅晋升了收集应用效力,也明显降低了集群安排与运维复杂度,使AI体系从数小时级安排收敛至分钟级响应。
磐脉920将起首在阿里云数据中间安排
据悉,磐脉920的带宽等机能已处于行业领先程度。
在数据中间基本举措措施这一长周期赛道中,技巧才能只是起点,真正决定产品价值的,是可否完成从“可用”到“可范围化商用”的跨越。
基于这一断定,磐脉920的设计并未局限于单一场景,而是环绕多类算力基本举措措施需求展开体系性构造,并在不合层级的数据流畅与计算场景中形成适配才能:
在智算集群中,磐脉920重要支撑大年夜范围AI练习的高机能互联,保障万卡级集群的低时延、高稳定通信;在通算集群中,经由过程收集卸载与容器化才能,降低收集开销,晋升整体算力应用效力;在存储场景中,为分布式存储供给低时延、高带宽与稳定流量支撑,保障海量数据的持续读写;在数据库与大年夜数据分析场景中,则经由过程优化数据传输路径,晋升整体数据处理与分析效力。
磐脉将起首在阿里云数据中间实现安排。阿里云所供给的高复杂度云计算场景,作为核心练习情况,经由过程“标杆级负载”持续拉动产品才能上限。
从产品构造来看,磐脉920的宣布,并非一次单点技巧冲破,而是平头哥数据中间芯片体系的一次关键补位。
至此,真武AI芯片、倚天CPU、镇岳存储主控与磐脉智能网卡分别覆盖智能计算、通用处理、数据存储和收集互联,算力、存力与网力三类核心才能在芯片层完成闭环。这意味着,平头哥已经具备从“供给单一算力器件”走向“构建完全算力基本举措措施才能”的底层前提。
从实际后果来看,这类通信瓶颈会直接影响集群效力。
当算力集群效力越来越取决于通信与协同才能,收集不再是从属组件,而成为决定体系上限的核心变量。
在这一逻辑下,同时控制算、存、网三类核心芯片才能的厂商,将不再只是介入某一环节的竞争者,而是有机会从新定义AI基本举措措施的机能界线与成本构造。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复