雷峰网("大众,"号:雷峰网)消息,1月27日,国产GPU厂商曦望(Sunrise)正式宣布新一代推理芯片“启望S3”,并同步推出面向大年夜模型推理的“寰望 SC3”超节点筹划及推理云筹划。

这一系列动作直指行业痛点。
此前AI芯片厂商广泛陷入“拼峰值机能”的竞争怪圈,但不少行业人士指出,以超节点为例,产品存在明显“范围甜点”效应:一旦跨越机能阈值,晋升幅度便会边际递减,盲目寻求超大年夜算力范围反而会造成GPU闲置率攀升、单位Token成本高企的问题。
推理场景下,用户须要的是“成本可控、机能适配、稳定靠得住” 的算力。若何走出差别化的路线?
当前推理成本在AI应用总支出中的占比已高达70%,直接决定着AI企业的盈利空间与贸易化成败。只有将推理成本从现有量级大年夜幅压低,实现阶梯式降低,AI才能真正摆脱高成本束缚。
此外,曦望同步宣布了面向大年夜模型推理的寰望SC3超节点解决筹划,该筹划支撑单域256卡一级互联,可高效支撑PD分别架构与大年夜EP范围化安排,明显晋升推理阶段的体系应用率与稳定性,适配长高低文、多并发、多专家并行等复杂推理场景。
“我们摈弃了传统的训推一体GPU为练习预备的冗余设计,不寻求峰值TFLOPS机能,而是把真实营业场景中的单个Token成本、能耗,以及SLA的稳定性,作为所有设计决定计划的根本出发点。”曦望董事长徐冰在宣布会现场阐述到。
为了达到这个标准,启望S3作为面向大年夜模型推理深度定制的GPGPU芯片,若何环绕真实推理负载完成对算力构造、存储体系与互联方法的体系级重构?
从“机能峰值”到“单位成本”,推理正在从新定义GPU设计目标
推理算力的爆发式增长,已成为行业当下最核心的存眷核心。对此,曦望在宣布会上,给出两组数据:
到2026年,推理算力在整体AI算力中的占比将达到66%,这并非遥远的趋势预判,而是正在产生的行业构造性变更,推理已从AI家当链的“副角”跃升为“主力”;
“当推理成为重要算力消费场景后,GPU的贸易价值不再取决于参数指标,而是单位Token的真实成本。”曦望联席CEO王勇表示。
这一断定,决定了启望S3的设计偏向。

在算力层面,S3支撑从FP16到FP4的多精度灵活切换,使模型在包管后果的前提下,最大年夜化晋升低精度推理效力。这种设计更贴合当前MoE和长高低文模型在推理阶段的实际需求。
在存储层面,S3采取LPDDR6显存筹划,成为国内首款采取该筹划的芯片。比拟HBM路线,LPDDR6更强调容量与能效比。官方数据显示,S3的显存容量较上一代产品晋升4倍,有效缓解了大年夜模型推理中广泛存在的显存驻留与访存瓶颈。
在DeepSeek V3 / R1满血版等主流大年夜模型推理场景中,S3单位Token推理成本较上一代产品降低约90%。曦望方面称,这一指标已具备工程可复现性,而非单点实验室数据。

在交付形态上,寰望SC3采取全液冷设计,具备极致PUE表示,并支撑模块化交授予快速安排。在一致推理才能量级下,该筹划可将整系一切交付成本从行业常见的亿元级,降低至切切元级,实现一个数量级的降低。


推理算力若何更好用?云平台打通落地的“最后一公里”
S3答复了推理性价比的命题,但对于大年夜部分用户而言,其对算力需求的产品形态应为云上算力资本,而非裸金属资本。
让推理算力更好用,不该止步于造出芯片。为此,曦望与商汤科技、第四范式等生态伙伴摸索的推理云平台。

在软件层面,曦望构建了与CUDA兼容的基本软件体系,覆盖驱动、运行时API、开辟对象链、算子库和通信库,降低推理应用的迁徙门槛。今朝,该体系已适配ModelScope平台 90% 以上主流大年夜模型形态,包含DeepSeek、通义千问等。
据披露,曦望2025年推理GPU芯片交付量已冲破1万片,标记住其推理GPU路线完成从工程验证到范围化交付的关键跨越。
经由过程GPU池化与弹性调剂,曦望将底层算力整合为同一的推理算力池,并以MaaS作为核心进口,使企业无需存眷底层硬件设备与集群运维,即可按需调用大年夜模型推理才能。
这一体系也成为“百万Token 一分钱”推理成本的重要技巧基本。
“推理时代的核心不是把芯片卖出去,而是可否持续、稳定地把算力转化为可交付的临盆力。谁能持续降低推理成本,谁就控制了AI家当的成本曲线。”曦望董事长徐冰表示。
中国工程院院士、浙江大年夜学信息学部主任吴汉明也指出,推理算力价值的实现离不开协同,须要芯片设计、体系集成、软件开辟到家当应用的全链条协作。
在国产GPU行业从“拼参数”走向“拼单位经济成本”的拐点上,曦望选择以推理为瘦语,测验测验重构 GPU 的产品形态与算力交付方法。All-in推理的实践,正在成为不雅察中国推理算力贸易化过程的重要样本。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复