4月20日,国内全栈自研AI推理GPU企业曦望(Sunrise)宣布完成新一轮超10亿元人平易近币融资。这是2026年AI家当周全迈入“推理落地、智能体普及”时代后,国内GPU赛道出生的最大年夜单笔融资之一。至此,分拆自力仅一年多的曦望已累计完成七轮融资,总融资额约40亿元,成为国内首家估值超百亿的纯推理GPU独角兽。
本轮融资资金将重要用于新一代S3推理GPU的范围化量产交付、全栈软件生态扶植,以及S4/S5后续芯片的研发迭代。
智能体元年,推理算力成最大年夜家当瓶颈
2026年被行业公认为“AI智能体元年”。跟着大年夜模型从“会聊天”进化为“会思虑、会履行”的数字员工,推理需求迎来爆发式增长。英伟达GTC 2026大年夜会正式宣布AI家当周全迈入“推理落地、智能体普及”的新时代,将“每瓦Token吞吐量”定义为AI时代的核心竞争力。这与曦望自创建之初就锁定的核心疆场高度契合。
“AI 算力基建的重心已彻底切换。”曦望董事长徐冰表示,“2026 年 AI 推理计算需求将达到练习需求的 4-5 倍,推理算力租赁价格半年涨幅近 40%。”
不合于行业主流的"训推一体"路线,曦望从成立第一天起就果断All-in推理赛道,以用户真实的Token成本、单位能耗和办事稳定性为芯片设计核心。今朝公司已推动三代推理GPU迭代、数万颗GPU量产落地,实现了从芯片研发、产品量产到解决筹划交付的完全闭环,并保持“芯片均实现一次性流片成功、流片后机能相符设计预期”的行业一流标准。
启望S3:为Agentic AI重构的推理原生架构
以OpenClaw为代表的智能体推理,“感知—筹划—履行—反馈”高频轮回,带来了对KV-cache密集拜访的全新计算负载。而通用GPU面向练习优化,推理实际算力应用率往往远低于峰值——推理侧的效力瓶颈已不再是“算力不敷”,而是“算力用不满”。
这恰是S3所押注的构造性机会:放弃练习才能,专为大年夜模型推理做原生深度定制。经由过程裁剪练习态所需的模块,将节俭出的晶体管与功耗预算集中投向推理,让单位面积有效算力效力晋升5倍以上。
计算层:专为推理而生的AI Core架构进级
S3经由过程计算层的深度定制,解决了通用GPU“算力用不满”的核肉痛点,推理机能较上一代S2晋升5倍,目标实现Token成本降低90%。
1. 切近亲近物理极限的算子应用率
2. Agent原生的指令集与微架构
采取128-bit指令集+支撑3D指令,指令密度领先传统SIMT架构;自力线程调剂精准匹配智能体复杂控制流,清除前提跳转带来的流水线价值;经由过程Block cluster和Broadcast等技巧实现片上数据复用,削减对外带宽依附,大年夜幅晋升Agent多轮推理效力。
3. FP4全链路低精度,吞吐3-4倍跃升
原生支撑FP16至FP4全链路低精度运算,在DeepSeek V3/R1等主流模型上实现接近无损的FP4推理,吞吐量较FP16晋升3-4倍,直接转化为客户侧的毛利空间和价格弹性。
体系层:三大年夜接口技巧破解智能体核心瓶颈
S3立异性地集成了三大年夜先辈高速接口技巧,从内存和IO两个推理时代最核心的瓶颈入手,解决了智能体三大年夜核心瓶颈。
1. LPDDR6内存接口技巧,解决智能体的“显存逝世活线”问题
大年夜模型推理的一个核心特点是,在高并发、长高低文的主流云端推理场景中,KV Cache 的显存占比可跨越 80%,且随并发用户数线性增长。S3 采取的 LPDDR6 筹划,在供给足够推理带宽的同时,将显存容量上限大年夜幅进步,且功耗降低50%,匹配推理场景“大年夜容量、高性价比、低功耗”的核心需求。同时,LPDDR6 与 LPDDR5x 兼容的设计,让 S3 可以推出不合显存规格的产品版本,覆盖从边沿到云端的各类推理场景,无需从新设计芯片。
2. 高速SerDes+SUE融合互联技巧,解决智能体的“多模型协同瓶颈”
2026年1月,曦望正式宣布新一代旗舰产品启望S3推理GPU。这是国内首款搭载LPDDR6且兼容LPDDR5X内存的推理GPU,它没有盲目照搬高端练习GPU的HBM显存路线,而是基于Agent推理的本质需求,从AI Core计算架构到内存IO体系进行了全链路重构。
曦望践行“软件定义互联”的设计思路,对推理场景下的互联架构进行了深度优化。从超节点协定、片上互联、片间互联、交换设备、高速通信软件栈协同设计,实现TCO 与机能兼顾的推理互接洽统。
Agent 时代的到来,对推理集群的互联机能提出了前所未有的请求——一个 Agent 请求会触发数十次推理调用,涉及多模型协同与海量 KV Cache 流转,假如互联带宽不足、协定割裂、延迟太高,全部体系的机能会出现超线性降低,集群范围越大年夜,机能损掉越严重。
S3 立异性地在片上原生融合了 Scale-Up 超节点与 Scale-Out 的双模互联底座。在超节点通信域,S3 搭载基于以太网的超节点互联引擎,支撑 load/store 内存语义与 UVA 同一编址,随便率性两卡间一跳直达,为 AllReduce/AlltoAll 等集合通信供给硬件级加快;S3 选择基于以太网的超节点筹划,具备双重优势:既可利旧复用标准以太网交换机节俭组网成本,又可无缝接入支撑超低延迟才能的加强型交换机,将端到端延迟紧缩至百纳秒级,机能切近亲近专有互联协定。基于超节点和DeepEP实现的MoE超大年夜模型推理体系,可以很大年夜程度掩盖LPDDR相较于HBM的带宽劣势。别的,S3 在片上集成了 RDMA 通信引擎,专为 PD 分别架构下的超长高低文 KV Cache 传输进行优化,实现跨节点 KV Cache 的零拷贝、高吞吐传输,冲破分别式架构的内存墙瓶颈。在组网上 S3 支撑 32/64/128/256 弹性扩大才能,为不合算力密度的推理场景供给灵活选择。
3. PCIe Gen6接口技巧,解决智能体的“资本碎片化”问题
云原生推理时代,超长高低文已成为大年夜模型标配才能,千亿参数模型在处理数万 Token 序列时,单请求 KV Cache 占用可达数百 GB 甚至 TB 级,传统 PCIe 带宽瓶颈成为制约 KV Cache 高效治理的沉重枷锁。S3 搭载的 PCIe Gen6 接口,带宽较 Gen5 翻倍,可同时满载多路高速网卡与 NVMe 存储集群,知足云原生推理的高并发数据吞吐需求;经由过程 PCIe Gen6的高带宽让CPU DRAM 真正成为 S3 显存的扩大池。可构建起显存-DRAM-NVMe 三层异构 KV Cache 架构:热数据驻留显存包管低延迟的拜访,温数据经由过程 PCIe Gen6 扩大至 CPU DRAM实现容量倍增,冷数据则下沉至 NVMe SSD 持久化存储,解决智能体的资本碎片化问题。
大年夜说话模型推理中,GEMM与Attention算子占总计算量的90%以上,但受限于通用架构的设计束缚,这两项核默算子的实际应用率平日远低于理论峰值。S3将这GEMM和Flash Attention两项核默算子的应用率分别推至约99%与98%,标称算力几乎都转化为有效吞吐,同样硬件投入可办事更多并发请求。
“推理原生”带来普惠算力基本举措措施
曦望S3同时具备三个难以共存的要素:推理原生的架构前瞻性、实现98–99%算子应用率的顶尖工程才能、以及完全的生态适配才能。
从家当周期看,练习侧格局已相对固化,而推理侧正随Agentic AI放量进入指数级增长通道——多家机构猜测,将来五年推理算力市场范围将超出练习侧数倍,个中Agent类负载将供献最重要的增量。
“S3不是简单的机能进级,而是一次对AI推理成本曲线的重构。”徐冰表示,“我们的目标是将推理成本降至‘百万Token一分钱’,让AI像水电一样成为普惠基本举措措施。”
本钱助力推理赛道进入加快期
本轮融资由多家家当方战投、处所国资及头部财务机构合营介入。
杭州本钱表示:“本次投资是杭州本钱紧扣杭州‘296X’先辈制造业集群扶植计谋、深耕人工智能万亿级家当赛道的重要构造。曦望‘All-in 推理’的计谋选择具备行业前瞻性,其在技巧立异和产品贸易化方面的才能,是我们决定投资的重要原因。作为经久本钱,我们更看重企业在关键技巧偏向上的持续投入与落地才能。”
普华本钱表示,“曦望是国内少数真正懂得推理场景、并能供给全栈自立可控解决筹划的企业。我们看好公司'不做训推一体跟随者,只做推理赛道领跑者'的计谋选择。”
集合顶尖人才,打造中国AI工业化算力底座
曦望团队范围已增长至400人,研发人员占比超80%,汇聚了来自英伟达、AMD、华为海思等国表里顶尖芯片企业的核心人才,硕士及以上学历占比超80%。团队融合了芯片设计、高机能计算、AI 算法、软硬产品的跨行业人才。
2026年,曦望将环绕“落地、兑现、增长”核心原则,全力推动S3芯片量产交付,完成与国表里主流大年夜模型、多模态模型和Agent框架的周全适配。同时,公司已完成S4高机能推理GPU和S5安然可控推理GPU的技巧路线筹划,持续加码近存计算、光电共封等前沿技巧摸索。
将来,曦望将持续逝世守“让AI推理便宜、稳定、到处可用”的核心目标,为中国AI成长锻造坚实的算力底座。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复