腾讯混元 AI Infra 团队开源临盆级高机能 LLM 推理核默算子库 HPC-Ops,该算子库基于临盆情况痛点,采取 CUDA 和 CuTe 从零构建,经由过程抽象化工程架构、微架构深度适配及指令级极致优化等,降低底层算子开辟门槛,将核默算子机能切近亲近硬件峰值,实现了明显机能冲破。

据介绍,腾讯混元应用 CUDA 和 CuTe 开辟的这套轻量、高效的 LLM 核默算子库,重要包含几个模块:FusedMoE、Attention、机内/机间通信、Norm、Sampler、以及各类小算子的融合算子。经由过程分析义务特点和硬件微架构,将义务的划分逻辑与硬件指令做了更好的对齐,以此获得更好的机能,并且对工程代码进行了适度的抽象,闪开辟者能聚焦于算法本身,降低保护门槛。

开源地址:https://github.com/Tencent/hpc-ops

HPC-Ops 算子库架构如下:

腾讯混元 AI Infra 团队表示,在真实场景下,基于 HPC-Ops,混元模型推理 QPM 晋升 30%,DeepSeek 模型 QPM 晋升 17%。同时,在单算子机能方面,HPC-Ops 实现 Attention 比拟 FlashInfer/FlashAttention 最高晋升 2.22 倍;GroupGEMM 比拟 DeepGEMM 最高晋升 1.88 倍;FusedMoE 比拟 TensorRT-LLM 最高晋升 1.49 倍。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部