起首是 HyperOffload。
昔时夜模型进入十万亿参数、长序列、稀少化和非规矩构造并行成长的阶段,AI算力基本举措措施正在产生一次根本性变更:从传统办事器集群,演进为以高速互联为核心的超节点架构。
2025年12月25日,昇思人工智能框架峰会在杭州召开。大年夜会以“昇思MindSpore为超节点而生的AI框架”为主题,来自家当界、学术界和开源社区的多位嘉宾,从不合角度给出了一个合营断定:AI基本举措措施已经进入超节点时代,而AI框架正站在范式切换的临界点上。
超节点不再只是多台办事器的简单堆叠,而是经由过程高速互联,在逻辑层面“像一台机械一样进修、思虑和推理”,具备资本池化、对等架构与收集拓扑分层多样的特点。
昇思MindSpore开源社区技巧委员会主席金雪锋在演讲中指出,大年夜模型的演进正在同时带来三重挑衅:
一是模型范围持续增长,片上内存压力急剧上升;
二是模型构造从单一说话模型走向全模态,子模型组合加倍复杂、不规矩;
三是训推范式趋于异构,练习、推理与Agent运行须要协同编排。
金雪锋说,恰是这些变更,推动AI基本举措措施从“办事器集群时代”迈入“超节点时代”,AI框架将迎来新的架构范式。
昇思MindSpore给出的谜底是,把超节点算作一台“超等计算机”,在框架层面同一编程和调剂,而不是闪开辟者直接面对复杂的集群拓扑和并行细节。
“很多人听过超节点,但并不真正懂得超节点。”
雷峰网("大众,"号:雷峰网)(雷峰网)
在峰会之后的媒体沟通会上,现任昇思MindSpore开源社区理事长王紫东强调这一点。
在他的解释中,超节点并不是简单地把更多NPU卡堆在一路,而是经由过程超高带宽互联,让大年夜量计算单位在逻辑层面形成一个高度耦合的整体。卡与卡之间不再是“慢速通信的邻居”,而是随时可调剂的数据通路。
这一变更,直接办事于一个实际需求:模型太大年夜了,大年夜到必须极致并行。
当模型被切分到数百、数千张卡上时,真正的瓶颈已经不再是算力本身,而是:
• 数据什么时刻该在哪一张卡上
• 状况何时迁徙
• 通信与计算若何重叠
“硬件的机能上限进步了,但假如软件跟不上,机能是用不出来的。”王紫东直言,超节点越强,对AI框架的请求反而越高。
昇思MindSpore提出了一个清楚而激进的定位——
把复杂留给本身,把简单留给开辟者。
在传统集群时代,开辟者往往须要手动懂得并行策略、通信模式和硬件拓扑,而在超节点时代,这种模式已经弗成持续。集群拓扑越来越复杂,节点范围越来越大年夜,假如复杂性持续外溢到开辟层,开辟效力和稳定性将敏捷崩塌。
MindSpore的选择,是让AI框架本身承担更多体系级义务,其目标,是闪开辟者在超节点复杂算力情况中仍能保持“类单机”的开辟体验,而HyperParallel架构恰是实现这一目标的关键。
在他看来,一个健康的AI框架社区,并不是依附官方赓续“救火”,而是开辟者之间可以或许环绕问题展开评论辩论,自立定位原因、提交修复,并经由过程PR形成持续正反馈。“问题能不克不及在社区内部被解决,往往比解决得有多快更重要。”王紫东说。
金雪锋在峰会上体系拆解了HyperParallel的三项关键才能。
跟着模型范围持续扩大年夜,片上内存容量成为制约练习和推理的重要瓶颈。HyperOffload经由过程实现计算与状况分别,应用超节点的池化存储才能,将模型状况卸载到远端内存中,从而释放片上资本。在实际应用中,MindSpore给出的数据是:练习机能晋升20%以上,推理支撑的序列长度晋升70%以上,这不是简单的“搬数据”,而是对计算时序的精确调剂。
其次是 HyperMPMD。
SPMD曾经是AI并行的黄金标准,但在多模态、强化进修、Agent 等场景下,它开端显得僵硬。HyperMPMD推动并行从 “所有节点做同一件事”,走向 “不合节点做不合义务”,这种 MPMD 模式,充分应用了超节点对等互联的优势,让通算并发成为常态,在相干场景中,算力应用率可晋升 15% 以上。
第三是 HyperShard。
在传统敕令式并行编程中,算法、并行策略与集群架构高度耦合,新模型一旦出现,往往须要对并行筹划进行大年夜范围重构。HyperShard引入声明式并行编程方法,将算法与并行策略解耦,同时樊篱底层超节点收集拓扑的复杂性。金雪锋表示,在这一模式下,新算法的并行化改革时光可以紧缩到1天以内,并行策略调优从“天级”缩短至“小时级”。
从HyperOffload到HyperMPMD,再到HyperShard,昇思MindSpore的目标并非单点机能晋升,而是让超节点的复杂性由框架消化,而不是由开辟者承担。
五年开源积聚:超节点才能为何离不开社区
MindSpore为什么“忽然变好用了”?
现任昇思MindSpore开源社区理事长王紫东并没有从机能参数或功能列表切入,而是给出了一个并不“市场化”的断定标准——社区Issue的自闭环率。
也恰是在这一意义上,他将MindSpore五年来最重要的成果,归结为两个字:社区。
华为于2020年3月28日正式开源昇思MindSpore。五年来,这一社区慢慢形陈范围效应:覆盖全球156个国度和地区,累计下载量跨越1300万次,代码合入量跨越12万次,核心供献开辟者跨越5.2万人,并结合2000多家社区伙伴,孵化出3100多个行业应用。
这些数字本身并不新鲜,但它们背后所指向的,是一条已经被反复验证的路径——自立AI框架并非封闭体系,而可以经由过程开放协作,形成持续演进的技巧才能。
这一断定,也成为昇思MindSpore提出“为超节点而生”的核心逻辑起点。
HyperParallel架构:把复杂并行留给框架
时任昇思MindSpore开源社区理事长丁诚在峰会上表示,昇思始终保持开放治理,践行“共建、共治、共享”的社区理念。一方面持续推动框架技巧演进,另一方面也经由过程课程、比赛和工程实践,支撑AI人才从入门到深度介入开源生态,慢慢成长为家傍边的中坚力量。
当这种社区才能与超节点架构结应时,其价值开端在真实工程场景中浮现。
中国工程院院士、中国商飞首席科学家吴光辉在演讲中介绍,中国商飞上海飞机设计研究院基于昇思MindSpore框架,推出了平易近机超临界翼型气动设计智能体“御风·智翼”,构建了基于工程经验的超临界翼型智能一站式解决筹划。
• 并行策略若何随模型构造变更而调剂
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
吴光辉指出,大年夜飞机是“工业皇冠上的明珠”,而飞机气动设计直接决定平易近用飞机的关键机能,经由过程将AI框架与工程经验深度结合,相干设计研发正在向加倍智能化、一体化的偏向演进。这一实践,也成为昇思MindSpore在复杂工程范畴落地的一个缩影。
从办事器集群到超节点,从单一模型练习到多义务并交运行,AI 算力形态正在产生根本性变更。在这条变更曲线上,AI框架的角色也随之改变——它不再只是“让模型跑起来”的对象,而正在演变为连接算力、模型与应用的组织者。
昇思MindSpore给出的选择,是将超节点带来的复杂性尽可能收敛到框架内部,闪开辟者不必直接面对集群拓扑与并行细节,也不必在模型构造变更时反复推倒重来。
这种选择并不轻松。它意味着更重的体系工程投入、更长周期的技巧积聚,也意味着必须依托一个真实活泼的开源社区,在实践中赓续校订偏向。
但在超节点逐渐成为主流算力形态、Agent 与多义务运行走向常态的背景下,AI 框架是否具备“消化复杂性”的才能,正在成为新的分水岭。
或许恰是在这个意义上,昇思 MindSpore 环绕超节点与开源展开的摸索,并不是一次孤立的技巧宣布,而是一种关于AI框架若何介入下一轮算力演进的实际答复。

发表评论 取消回复