它早在2024年就已经低调推出,然则具体造型、参数、机能一向没有对外公开,异常神秘。

此次在宣布适配GLM-5的同时,摩尔线程初次颁布了MTT S5000的部分参数和机能,异常惊喜!

据悉,MTT S5000单卡配备多达80GB显存,显存带宽高达1.6TB/s,比较上代MTT S4000分别晋升了67%、113%,多卡间的互联带宽也有784GB/s。

它完全支撑从FP8到FP64的全精度计算,并且是国内最早原生支撑FP8精度的练习GPU之一,设备了硬件级FP8 Tensor Core加快单位。

FP8比拟BF16/FP16可将数据位宽减半、显存带宽压力降低50%、理论计算吞吐量翻倍,并周全支撑DeepSeek、Qwen等架构,练习机能可晋升30%以上。

MTT S5000的单卡FP8 AI算力最高可达1000 TFLOPS,初次达到PFLOPS级别,也就是每秒1切切亿次计算。

比拟之下,MTT S4000的算力为INT8 256 TOPS、BF16 128 TFLOPS、FP32/64 32/64 TFLOPS。

据业内人士称,MTT S5000实测机能可以对标NVIDIA H100,尤其是在多模态大年夜模型微调义务中,部分机能更是超出H100,甚至开端接近最新的Blackwell架构。

MTT S5000在推理场景同样表示优良,比如在2025年12月,摩尔线程结合硅基流动基于MTT S5000完成了对DeepSeek-V3 671B满血版的深度适配与机能测试。

2026年1月,智源研究院基于MTT S5000千卡集群,完成了前沿具身大年夜脑模型RoboBrain 2.5(数千亿参数)的端到端练习与对齐验证,MTT S5000表示出了与H100集群极高的成果一致性,练损掉值(loss)差别仅为0.62%,整体练习后果甚至实现小幅超出。

另据互联网厂商的场景实测,MTT S5000在典范端到端推理及练习义务中,机能可以达到NVIDIA H20的2.5倍阁下。

今朝,基于MTT S5000的夸娥万卡集群已经落地,浮点运算才能达到10Flops(每秒1千亿亿次计算),在Dense稠密模型练习中MFU达到60%,在MoE专家模型中保持在40%阁下,有效练习时光占比跨越90%,练习线性扩大效力达95%。

基于原生FP8才能,它能完全复现顶尖大年夜模型的练习流程,Flash Attention算力应用率跨越95%,多项关键指标均达到国际主流程度。

值得一提的是,MTT S5000在集群通信层面采取独创的ACE技巧,将复杂通信义务从计算核心卸载,大年夜幅晋升模型算力应用率(MFU)。

实测显示,MTT S5000从64卡扩大至1024卡,体系的线性扩大效力保持在90%以上,练习速度随算力增长几乎同步倍增。

实测单卡Prefill吞吐跨越4000 tokens/s,Decode吞吐跨越1000 tokens/s,刷新了国产GPU的推理记载。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部