国内推理 GPU 独角兽曦望再获超 10 亿元融资，重构 AI 推理

83 阅读 0 评论 0 点赞

4月20日，国内全栈自研AI推理GPU企业曦望（Sunrise）宣布完成新一轮超10亿元人平易近币融资。这是2026年AI家当周全迈入“推理落地、智能体普及”时代后，国内GPU赛道出生的最大年夜单笔融资之一。至此，分拆自力仅一年多的曦望已累计完成七轮融资，总融资额约40亿元，成为国内首家估值超百亿的纯推理GPU独角兽。

本轮融资资金将重要用于新一代S3推理GPU的范围化量产交付、全栈软件生态扶植，以及S4/S5后续芯片的研发迭代。

智能体元年，推理算力成最大年夜家当瓶颈

2026年被行业公认为“AI智能体元年”。跟着大年夜模型从“会聊天”进化为“会思虑、会履行”的数字员工，推理需求迎来爆发式增长。英伟达GTC 2026大年夜会正式宣布AI家当周全迈入“推理落地、智能体普及”的新时代，将“每瓦Token吞吐量”定义为AI时代的核心竞争力。这与曦望自创建之初就锁定的核心疆场高度契合。

“AI 算力基建的重心已彻底切换。”曦望董事长徐冰表示，“2026 年 AI 推理计算需求将达到练习需求的 4-5 倍，推理算力租赁价格半年涨幅近 40%。”

不合于行业主流的"训推一体"路线，曦望从成立第一天起就果断All-in推理赛道，以用户真实的Token成本、单位能耗和办事稳定性为芯片设计核心。今朝公司已推动三代推理GPU迭代、数万颗GPU量产落地，实现了从芯片研发、产品量产到解决筹划交付的完全闭环，并保持“芯片均实现一次性流片成功、流片后机能相符设计预期”的行业一流标准。

启望S3：为Agentic AI重构的推理原生架构

以OpenClaw为代表的智能体推理，“感知—筹划—履行—反馈”高频轮回，带来了对KV-cache密集拜访的全新计算负载。而通用GPU面向练习优化，推理实际算力应用率往往远低于峰值——推理侧的效力瓶颈已不再是“算力不敷”，而是“算力用不满”。

这恰是S3所押注的构造性机会：放弃练习才能，专为大年夜模型推理做原生深度定制。经由过程裁剪练习态所需的模块，将节俭出的晶体管与功耗预算集中投向推理，让单位面积有效算力效力晋升5倍以上。

计算层：专为推理而生的AI Core架构进级

S3经由过程计算层的深度定制，解决了通用GPU“算力用不满”的核肉痛点，推理机能较上一代S2晋升5倍，目标实现Token成本降低90%。

1. 切近亲近物理极限的算子应用率

2. Agent原生的指令集与微架构

采取128-bit指令集+支撑3D指令，指令密度领先传统SIMT架构；自力线程调剂精准匹配智能体复杂控制流，清除前提跳转带来的流水线价值；经由过程Block cluster和Broadcast等技巧实现片上数据复用，削减对外带宽依附，大年夜幅晋升Agent多轮推理效力。

3. FP4全链路低精度，吞吐3-4倍跃升

原生支撑FP16至FP4全链路低精度运算，在DeepSeek V3/R1等主流模型上实现接近无损的FP4推理，吞吐量较FP16晋升3-4倍，直接转化为客户侧的毛利空间和价格弹性。

国内推理 GPU 独角兽曦望再获超 10 亿元融资，重构 AI 推理

体系层：三大年夜接口技巧破解智能体核心瓶颈

S3立异性地集成了三大年夜先辈高速接口技巧，从内存和IO两个推理时代最核心的瓶颈入手，解决了智能体三大年夜核心瓶颈。

1. LPDDR6内存接口技巧，解决智能体的“显存逝世活线”问题

大年夜模型推理的一个核心特点是，在高并发、长高低文的主流云端推理场景中，KV Cache 的显存占比可跨越 80%，且随并发用户数线性增长。S3 采取的 LPDDR6 筹划，在供给足够推理带宽的同时，将显存容量上限大年夜幅进步，且功耗降低50%，匹配推理场景“大年夜容量、高性价比、低功耗”的核心需求。同时，LPDDR6 与 LPDDR5x 兼容的设计，让 S3 可以推出不合显存规格的产品版本，覆盖从边沿到云端的各类推理场景，无需从新设计芯片。

2. 高速SerDes+SUE融合互联技巧，解决智能体的“多模型协同瓶颈”

2026年1月，曦望正式宣布新一代旗舰产品启望S3推理GPU。这是国内首款搭载LPDDR6且兼容LPDDR5X内存的推理GPU，它没有盲目照搬高端练习GPU的HBM显存路线，而是基于Agent推理的本质需求，从AI Core计算架构到内存IO体系进行了全链路重构。

曦望践行“软件定义互联”的设计思路，对推理场景下的互联架构进行了深度优化。从超节点协定、片上互联、片间互联、交换设备、高速通信软件栈协同设计，实现TCO 与机能兼顾的推理互接洽统。

Agent 时代的到来，对推理集群的互联机能提出了前所未有的请求——一个 Agent 请求会触发数十次推理调用，涉及多模型协同与海量 KV Cache 流转，假如互联带宽不足、协定割裂、延迟太高，全部体系的机能会出现超线性降低，集群范围越大年夜，机能损掉越严重。

S3 立异性地在片上原生融合了 Scale-Up 超节点与 Scale-Out 的双模互联底座。在超节点通信域，S3 搭载基于以太网的超节点互联引擎，支撑 load/store 内存语义与 UVA 同一编址，随便率性两卡间一跳直达，为 AllReduce/AlltoAll 等集合通信供给硬件级加快；S3 选择基于以太网的超节点筹划，具备双重优势：既可利旧复用标准以太网交换机节俭组网成本，又可无缝接入支撑超低延迟才能的加强型交换机，将端到端延迟紧缩至百纳秒级，机能切近亲近专有互联协定。基于超节点和DeepEP实现的MoE超大年夜模型推理体系，可以很大年夜程度掩盖LPDDR相较于HBM的带宽劣势。别的，S3 在片上集成了 RDMA 通信引擎，专为 PD 分别架构下的超长高低文 KV Cache 传输进行优化，实现跨节点 KV Cache 的零拷贝、高吞吐传输，冲破分别式架构的内存墙瓶颈。在组网上 S3 支撑 32/64/128/256 弹性扩大才能，为不合算力密度的推理场景供给灵活选择。

3. PCIe Gen6接口技巧，解决智能体的“资本碎片化”问题

云原生推理时代，超长高低文已成为大年夜模型标配才能，千亿参数模型在处理数万 Token 序列时，单请求 KV Cache 占用可达数百 GB 甚至 TB 级，传统 PCIe 带宽瓶颈成为制约 KV Cache 高效治理的沉重枷锁。S3 搭载的 PCIe Gen6 接口，带宽较 Gen5 翻倍，可同时满载多路高速网卡与 NVMe 存储集群，知足云原生推理的高并发数据吞吐需求；经由过程 PCIe Gen6的高带宽让CPU DRAM 真正成为 S3 显存的扩大池。可构建起显存-DRAM-NVMe 三层异构 KV Cache 架构：热数据驻留显存包管低延迟的拜访，温数据经由过程 PCIe Gen6 扩大至 CPU DRAM实现容量倍增，冷数据则下沉至 NVMe SSD 持久化存储，解决智能体的资本碎片化问题。

大年夜说话模型推理中，GEMM与Attention算子占总计算量的90%以上，但受限于通用架构的设计束缚，这两项核默算子的实际应用率平日远低于理论峰值。S3将这GEMM和Flash Attention两项核默算子的应用率分别推至约99%与98%，标称算力几乎都转化为有效吞吐，同样硬件投入可办事更多并发请求。

“推理原生”带来普惠算力基本举措措施

国内推理 GPU 独角兽曦望再获超 10 亿元融资，重构 AI 推理

曦望S3同时具备三个难以共存的要素：推理原生的架构前瞻性、实现98–99%算子应用率的顶尖工程才能、以及完全的生态适配才能。

从家当周期看，练习侧格局已相对固化，而推理侧正随Agentic AI放量进入指数级增长通道——多家机构猜测，将来五年推理算力市场范围将超出练习侧数倍，个中Agent类负载将供献最重要的增量。

“S3不是简单的机能进级，而是一次对AI推理成本曲线的重构。”徐冰表示，“我们的目标是将推理成本降至‘百万Token一分钱’，让AI像水电一样成为普惠基本举措措施。”

本钱助力推理赛道进入加快期

本轮融资由多家家当方战投、处所国资及头部财务机构合营介入。

杭州本钱表示：“本次投资是杭州本钱紧扣杭州‘296X’先辈制造业集群扶植计谋、深耕人工智能万亿级家当赛道的重要构造。曦望‘All-in 推理’的计谋选择具备行业前瞻性，其在技巧立异和产品贸易化方面的才能，是我们决定投资的重要原因。作为经久本钱，我们更看重企业在关键技巧偏向上的持续投入与落地才能。”

普华本钱表示，“曦望是国内少数真正懂得推理场景、并能供给全栈自立可控解决筹划的企业。我们看好公司'不做训推一体跟随者，只做推理赛道领跑者'的计谋选择。”

集合顶尖人才，打造中国AI工业化算力底座

曦望团队范围已增长至400人，研发人员占比超80%，汇聚了来自英伟达、AMD、华为海思等国表里顶尖芯片企业的核心人才，硕士及以上学历占比超80%。团队融合了芯片设计、高机能计算、AI 算法、软硬产品的跨行业人才。

2026年，曦望将环绕“落地、兑现、增长”核心原则，全力推动S3芯片量产交付，完成与国表里主流大年夜模型、多模态模型和Agent框架的周全适配。同时，公司已完成S4高机能推理GPU和S5安然可控推理GPU的技巧路线筹划，持续加码近存计算、光电共封等前沿技巧摸索。

将来，曦望将持续逝世守“让AI推理便宜、稳定、到处可用”的核心目标，为中国AI成长锻造坚实的算力底座。

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

本文分类：互联网
本文标签：芯片曦望融资
浏览次数：83 次浏览
发布日期：2026-04-23 14:17:48
本文链接：https://www.fqpy.com/internet/13178

国内推理 GPU 独角兽曦望再获超 10 亿元融资，重构 AI 推理

评论列表共有 0 条评论

发表评论取消回复

国内推理 GPU 独角兽曦望再获超 10 亿元融资，重构 AI 推理

国内推理 GPU 独角兽曦望再获超 10 亿元融资，重构 AI 推理

全球首款！进迭时空 RISC-V AI CPU K3 成功适配 OpenHarmony 6.1

做了5年3D打印机，我发清楚明了世界模型的Scaling Law

高通公司瞻望小我AI成长：多终端体验将以AI和用户为中间

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复