推理算力占AI应用70%成本权重，需求爆发下国产芯片若何定义性价比新基准？

390 阅读 0 评论 0 点赞

雷峰网("大众,"号：雷峰网)消息，1月27日，国产GPU厂商曦望（Sunrise）正式宣布新一代推理芯片“启望S3”，并同步推出面向大年夜模型推理的“寰望 SC3”超节点筹划及推理云筹划。

推理算力占AI应用70%成本权重，需求爆发下国产芯片若何定义性价比新基准？

这一系列动作直指行业痛点。

此前AI芯片厂商广泛陷入“拼峰值机能”的竞争怪圈，但不少行业人士指出，以超节点为例，产品存在明显“范围甜点”效应：一旦跨越机能阈值，晋升幅度便会边际递减，盲目寻求超大年夜算力范围反而会造成GPU闲置率攀升、单位Token成本高企的问题。

推理场景下，用户须要的是“成本可控、机能适配、稳定靠得住” 的算力。若何走出差别化的路线？

当前推理成本在AI应用总支出中的占比已高达70%，直接决定着AI企业的盈利空间与贸易化成败。只有将推理成本从现有量级大年夜幅压低，实现阶梯式降低，AI才能真正摆脱高成本束缚。

此外，曦望同步宣布了面向大年夜模型推理的寰望SC3超节点解决筹划，该筹划支撑单域256卡一级互联，可高效支撑PD分别架构与大年夜EP范围化安排，明显晋升推理阶段的体系应用率与稳定性，适配长高低文、多并发、多专家并行等复杂推理场景。

“我们摈弃了传统的训推一体GPU为练习预备的冗余设计，不寻求峰值TFLOPS机能，而是把真实营业场景中的单个Token成本、能耗，以及SLA的稳定性，作为所有设计决定计划的根本出发点。”曦望董事长徐冰在宣布会现场阐述到。

为了达到这个标准，启望S3作为面向大年夜模型推理深度定制的GPGPU芯片，若何环绕真实推理负载完成对算力构造、存储体系与互联方法的体系级重构？

从“机能峰值”到“单位成本”，推理正在从新定义GPU设计目标

推理算力的爆发式增长，已成为行业当下最核心的存眷核心。对此，曦望在宣布会上，给出两组数据：

到2026年，推理算力在整体AI算力中的占比将达到66%，这并非遥远的趋势预判，而是正在产生的行业构造性变更，推理已从AI家当链的“副角”跃升为“主力”；

“当推理成为重要算力消费场景后，GPU的贸易价值不再取决于参数指标，而是单位Token的真实成本。”曦望联席CEO王勇表示。

这一断定，决定了启望S3的设计偏向。

推理算力占AI应用70%成本权重，需求爆发下国产芯片若何定义性价比新基准？

在算力层面，S3支撑从FP16到FP4的多精度灵活切换，使模型在包管后果的前提下，最大年夜化晋升低精度推理效力。这种设计更贴合当前MoE和长高低文模型在推理阶段的实际需求。

在存储层面，S3采取LPDDR6显存筹划，成为国内首款采取该筹划的芯片。比拟HBM路线，LPDDR6更强调容量与能效比。官方数据显示，S3的显存容量较上一代产品晋升4倍，有效缓解了大年夜模型推理中广泛存在的显存驻留与访存瓶颈。

在DeepSeek V3 / R1满血版等主流大年夜模型推理场景中，S3单位Token推理成本较上一代产品降低约90%。曦望方面称，这一指标已具备工程可复现性，而非单点实验室数据。

推理算力占AI应用70%成本权重，需求爆发下国产芯片若何定义性价比新基准？

在交付形态上，寰望SC3采取全液冷设计，具备极致PUE表示，并支撑模块化交授予快速安排。在一致推理才能量级下，该筹划可将整系一切交付成本从行业常见的亿元级，降低至切切元级，实现一个数量级的降低。

推理算力占AI应用70%成本权重，需求爆发下国产芯片若何定义性价比新基准？

推理算力占AI应用70%成本权重，需求爆发下国产芯片若何定义性价比新基准？

推理算力若何更好用？云平台打通落地的“最后一公里”

S3答复了推理性价比的命题，但对于大年夜部分用户而言，其对算力需求的产品形态应为云上算力资本，而非裸金属资本。

让推理算力更好用，不该止步于造出芯片。为此，曦望与商汤科技、第四范式等生态伙伴摸索的推理云平台。

推理算力占AI应用70%成本权重，需求爆发下国产芯片若何定义性价比新基准？

在软件层面，曦望构建了与CUDA兼容的基本软件体系，覆盖驱动、运行时API、开辟对象链、算子库和通信库，降低推理应用的迁徙门槛。今朝，该体系已适配ModelScope平台 90% 以上主流大年夜模型形态，包含DeepSeek、通义千问等。

据披露，曦望2025年推理GPU芯片交付量已冲破1万片，标记住其推理GPU路线完成从工程验证到范围化交付的关键跨越。

经由过程GPU池化与弹性调剂，曦望将底层算力整合为同一的推理算力池，并以MaaS作为核心进口，使企业无需存眷底层硬件设备与集群运维，即可按需调用大年夜模型推理才能。

这一体系也成为“百万Token 一分钱”推理成本的重要技巧基本。

“推理时代的核心不是把芯片卖出去，而是可否持续、稳定地把算力转化为可交付的临盆力。谁能持续降低推理成本，谁就控制了AI家当的成本曲线。”曦望董事长徐冰表示。

中国工程院院士、浙江大年夜学信息学部主任吴汉明也指出，推理算力价值的实现离不开协同，须要芯片设计、体系集成、软件开辟到家当应用的全链条协作。

在国产GPU行业从“拼参数”走向“拼单位经济成本”的拐点上，曦望选择以推理为瘦语，测验测验重构 GPU 的产品形态与算力交付方法。All-in推理的实践，正在成为不雅察中国推理算力贸易化过程的重要样本。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

本文分类：互联网
本文标签：曦望推理算力 AI芯片超节点
浏览次数：390 次浏览
发布日期：2026-01-30 10:31:11
本文链接：https://www.fqpy.com/internet/8254

评论列表共有 0 条评论

暂无评论

发表评论取消回复

微信小程序

微信扫一扫体验

微信公众账号

微信扫一扫加关注

发表
评论返回
顶部