腾讯混元 AI Infra 团队开源 HPC-Ops，高机能 LLM 推理核默算子库

81 阅读 0 评论 0 点赞

腾讯混元 AI Infra 团队开源临盆级高机能 LLM 推理核默算子库 HPC-Ops，该算子库基于临盆情况痛点，采取 CUDA 和 CuTe 从零构建，经由过程抽象化工程架构、微架构深度适配及指令级极致优化等，降低底层算子开辟门槛，将核默算子机能切近亲近硬件峰值，实现了明显机能冲破。

据介绍，腾讯混元应用 CUDA 和 CuTe 开辟的这套轻量、高效的 LLM 核默算子库，重要包含几个模块：FusedMoE、Attention、机内/机间通信、Norm、Sampler、以及各类小算子的融合算子。经由过程分析义务特点和硬件微架构，将义务的划分逻辑与硬件指令做了更好的对齐，以此获得更好的机能，并且对工程代码进行了适度的抽象，闪开辟者能聚焦于算法本身，降低保护门槛。

开源地址：https://github.com/Tencent/hpc-ops

HPC-Ops 算子库架构如下：

腾讯混元 AI Infra 团队表示，在真实场景下，基于 HPC-Ops，混元模型推理 QPM 晋升 30%，DeepSeek 模型 QPM 晋升 17%。同时，在单算子机能方面，HPC-Ops 实现 Attention 比拟 FlashInfer/FlashAttention 最高晋升 2.22 倍；GroupGEMM 比拟 DeepGEMM 最高晋升 1.88 倍；FusedMoE 比拟 TensorRT-LLM 最高晋升 1.49 倍。

点赞(0) 打赏

本文分类：互联网
本文标签：腾讯混元 AI Infra 团队开源 HPC-Ops，高性能 LLM 推理核心算子库
浏览次数：81 次浏览
发布日期：2026-01-28 15:48:41
本文链接：http://www.fqpy.com/internet/7895

评论列表共有 0 条评论

暂无评论

腾讯混元 AI Infra 团队开源 HPC-Ops，高机能 LLM 推理核默算子库

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复