GTC 2026落幕当天,英伟达泄漏起初与亚马逊云科技(AWS)杀青的大年夜范围芯片采购协定,将在2027年前完成交付。

黄仁勋在大年夜会上提到的2027年万亿美元营收目标,正在变成真金白银的合同。

但真正让行业侧目标,是Groq芯片初次进入AWS数据中间——LPU到底储藏多大年夜价值,值得英伟达如斯力推?(LPU到底是不是推理最优解?迎接添加作者微信 Evelynn7778 商量交换)

带着这个疑问,我们("大众,"号:雷峰网)与三位半导体与AI算力范畴的老兵聊了聊,他们分别是:

罗彤:芯动科技首席技巧官,历任力积存储中国区总经理、爱普存储技巧(杭州)总经理、德商柏狮电子亚洲区市场与发卖副总、日商凸版半导体新加坡董事总经理

刘昊飞:盛景嘉成创投开创合股人,曾任中国移动体系架构师、汉能投资集团履行董事

“推理时代”已经到来。

两个月前在CES大年夜会上以六芯组合面世的Rubin平台,此次进级为七芯——新参加的,是专为AI推理设计的专用芯片LPU。这是英伟达获得Groq技巧授权后,后者芯片初次涌如今其产品组合中。

在刘昊飞看来,本次大年夜会为LPU入场的造势,离不开全平易近养虾的高潮。他表示,当Token应用量呈指数级增长时,降低推理成本与输出延迟变得至关重要,而构造比GPU更简化的LPU便显出优势——

这意味着,当衡量标准从成本转向能耗时,SRAM的优势将得以重现

罗彤认为,英伟达不是光有技巧,而是具备将技巧转化为经久盈利的才能。

罗彤进一步解释,以前行业存眷的是“一美元能买若干Token”,这是经济学的逻辑。但在此次GTC上,黄仁勋特别强调“每焦耳能产生若干Token”,显然是摩尔定律的掉效让他有了新的思虑——物理极限的刚性不是其他身分可以比较的。

因为地球上许可接收的能量是有限的,谁能用更少的能量产生Token,谁就能在算力峰值上领先。这恰是从经济瓶颈时代进入物理瓶颈时代后的新规矩。

不过,徐凌杰也指出,Groq 3 LPU采取的纯SRAM架构并非Groq一家独有,阿里、Graphcore等公司都浏览过;且“GPU+LPU”的异构架构也非开创,国内大年夜厂早有测验测验,异构也是行业的演进偏向。

尽管如斯,他认为,“在大年夜模型不合阶段,用不合的芯片达到最好的后果,这个做法是毫无疑问的。”

LPU的一大年夜亮点,是其SRAM(静态随机存取存储器)架构大年夜幅削减了数据搬运时光。罗彤指出,LPU采取的SRAM架构,此前曾因成本是DRAM的6倍而被替代。但RISC-V 开山祖师David Patterson说过:“一个小型SRAM的能效是DRAM的128倍。”

以客岁被提出的CPX为例,以前其与HBM版本的芯片比起来成本显然大年夜幅降低,但在GDDR也涨价的当下,CPX的“性价比”故事是否讲得通已经存疑。(CPX当前性价比表示若何?可添加作者微信 Evelynn7778 交换)

或因为此,CPX在此次的GTC上鸣金收兵。但他表示,在将来合适的时刻,CPX可能还会“冒出来”。

据徐凌杰不雅察,此次GTC传递出的更重要的信息是:黄仁勋提出Token分层订价,这意味着只要有人愿意买单,就能获得最极致的机能。他直言,假如按照LPU的价值去计算,TAM(可触达市场)价值一会儿大年夜了几十倍,这是LPU最冲动人心的处所。

然而,LPU带来的变革也不是彻底的。

一位专家曾向罗彤表示,真正与众不合的存在是英特尔的CPU、英伟达的GPU和谷歌TPU,其他PU只是类似将X、Y、Z三个根本元素经由过程不合比重进行组合、最终调制而成的混淆物。

谈芯片:LPU背后:从经济瓶颈到物理瓶颈,SRAM重回牌桌

刘昊飞国内对算力的整体本钱投入会保持持续增长,但同时也会产生相当程度的冗余,进而造成浪费、形成镌汰。

因为单芯单方面积有限,MoE模型往往须要上百张卡协同工作。为了保障芯片间的高效通信,将各类芯片经由过程超节点耦合在一路,便成为瓜熟蒂落的选择。

当前家当链最须要霸占的难题,照样晋升芯片最根本的计算、存储和连接单位的效力,并达到降本后果。

谈架构:加码整机柜算力,英伟达70%毛利率可否持续

从Blackwell NVL72到Rubin的机架设计,英伟达持续加码“整机柜算力”的叙事。练习时代的王者在推理时代打出这套组合拳,意欲为何?这也是三位嘉宾热议的核心。

在刘昊飞看来,这是英伟达在推理时代进一步占据客户心智地位的表现;而在徐凌杰看来,这种进步自我门槛的叙事选择,本质是为了进步效力。

不过,英伟达今天之所以能涨得这么好,并不是因为把所有才能都抓在本身手里,而是分化在多方手里。没有任何一个实体可以零丁造成巨大年夜的伤害,从安然角度推敲是功德。

跟着模型参数膨胀,Token需求量激增,算力成本也急剧上升。“稀少化激活”的MoE模型架构经由过程降低单Token计算量解决了成本问题,但也随之衍生出“专家并行”等各类并行需求。

但做超节点绝非易事。徐凌杰留心到,在CES大年夜会上,黄仁勋前脚刚展示NVL72经由过程无缆化(cable less)设计将本来两小时的组装时光缩短至几分钟,AMD董事会主席及首席履行官苏姿丰后脚推出的Helios产品,采取的照样英伟达两年前的互联筹划——可见,大年夜家都在跟进,但技巧变更进步神速。(当前国产超节点扶植有何新进展和挑衅?迎接添加作者微信 Evelynn7778 交换)

技巧迭代如斯之快,那英伟达70%的毛利率将来还可否持续?

在他看来,黄仁勋与哈萨比斯(DeepMind开创人)的贸易逻辑很像,后者对DeepMind创建任务的阐释“解决智能,再用智能解决一切”在圈内广为传播。

这表如今英伟达身上,就是其与台积电、EDA巨擘Synopsys合作,在最尖端芯片的研发中应用自身算力改进芯片设计,经由过程“智能”反哺“智能”,飞轮由此高速转起来。

不过,这种强掌控力,不仅基于对核心技巧的构造,还源于英伟达对高价值环节的精准卡位。

徐凌杰指出,英伟达将来也不会独有整条家当链,而是像华为、苹果那样,将毛利相对较低的部分交由供给链完成,做“只吃高增长部分的蛋糕”的链主企业。

同时,他也提示,国产芯片公司不克不及盲目追乞降英伟达一样的高毛利,要在芯片互联、模型软硬件调优等范畴冲破立异的同时,经由过程性价比打开市场,带动国产家当链一路成长。

谈软件:“龙虾”配套开源模型,AI Factory下场和客户抢饭碗?

养虾潮也伸展到了大年夜会上。

映照黄仁勋所说的“每个公司都要有本身的OpenClaw计谋”,英伟达为龙虾推出的企业版软件栈NemoClaw正式表态,配套了最新一代Nemotron开源模型。

在专门针对OpenClaw的基准测试PinchBench上,Nemotron义务成功率直逼Claude Opus 4.6、GPT-5.4。

英伟达在软件栈上的持续迭代,是其在业内遥遥领先的一大年夜护城河。

在大年夜家看来,英伟达此举也不是想与它的软件客户们“抢地盘”。罗彤指出,身为GPU公司的英伟达,必须本身先把应用跑通,才能有效引导客户应用。

他打了个比方:CPU像一把内部构造精细复杂的手枪,任何人只要会扣动扳机就能上手;而GPU像一根棍子,构造简单,但须要控制技能才能发挥最大年夜威力。

徐凌杰:此次NVIDIA把Groq的LPU引入,把Attention跟FFN做分别,事实上我也懂得到国内的大年夜厂之前是在做测验测验的。这不是一个新的概念。

徐凌杰则从贸易逻辑角度弥补:开源开放是英伟达的根本策略。就像黄仁勋讲CUDA时第一个提到的词“Install base”(安装基本),英伟达须要足够多的客户来建筑生态基本。

他借用谷歌收购安卓的例子,指出前者不直接靠后者赚钱,而是基于后者体系让自家搜刮、浏览器等办事触达更多用户。

同理,英伟达也可以用开源软件为硬件“带货”,这是前者最大年夜的价值。假如有人想模仿,徐凌杰认为除非能做到整合人工智能底下“四层蛋糕”,放在国内语境来看,则须要家当链的互相合营。

然则,当下国内芯片公司,还广泛面对软件团队范围小、客户办事才能弱等困境,难以支撑完全的生态扶植。(当前有哪些突围之路值得借鉴?迎接添加作者微信 Evelynn7778 商量分享经验)

不过,几位嘉宾也已指出了破局之道。在罗彤看来,国内芯片企业实力过于分散,与其几十家小公司各自为战,不如经由过程整合形成一两家有实力的平台型公司,集中资本搭建软件生态和客户办事体系。

徐凌杰对此则较为乐不雅。他指出,国内大年夜模型在开源层面已接近国外程度,经由过程从闭源模型蒸馏,有望取得更好的后果。

与此同时,超节点所需的散热、互联、供电等工程化才能,恰是国内芯片家当的优势地点,这让国内厂商有望以美国几分之一的成本进行量产。


以下是此次圆桌对话的出色分享,雷峰网("大众,"号:雷峰网)在进行了不改原意的编辑整顿:

雷峰网("大众,"号:雷峰网)·胡敏:各位对本年GTC最强烈的感触感染是什么?或者你们对这场会议印象最深刻的是什么?

罗彤:黄仁勋特别强调”Token”这个概念,并且将(计量)单位从成本转成能量,即每焦耳能产生若干Token。从此次大年夜会他开端提到物理极限而不是经济极限来看,我认为那真的是摩尔定律在供给端到了将近终结的时刻。

作为存眷实际世界的科学,物理学与数学有一个很关键的不合:物理是要有界线前提才有谜底,但起初没有人去看算力的能源界线,因为一次计算的能耗是很低的,大年夜概一万亿分之一焦耳,而一焦耳相当于把一克水升高一度的能量。

当下计算能耗这个概念变得重如果因为计算量变得很宏大年夜,如今AI最主流的路线是把很多复杂问题解构成简单的数据问题,用蛮力去解决,对物理资本的压力就异常大年夜,芯片的各类才能(算力,存力,运力)也被压得异常极限。

比来DRAM内存荒、涨价异常离谱,都是因为达到了某种物理极限的成果,能源极限后就牵扯到了太空算力的问题。

除了物理极限,黄仁勋花时光讲的还有和Open Claw合营的生态。他试图把各类要素拼在一路,形成更大年夜的掌控才能。这也是双刃剑。假如一个公司把所有才能都控制在本身内部,对外界来说是更危险的,因为能控制的身分就少了。

此外安装小龙虾的设备是很典范的端侧,履行轻量级的编排和调剂,所以吃的内存不是很高,我认为(端侧)是将来的大年夜偏向。

徐凌杰:在魔形智能成立的这两年里,我们一向在讲Token,之前对于投资人来说照样属于比较抽象的,直到客岁下半年中国各类超等应用出来,再加上比来小龙虾火爆后,一把点燃了Token。我认为这是在对的机会有对的机会出现。

Token事实上是把人工智能蛋糕下面的四层完全封装在一路,可以或许整体地去做输出。那整体来讲,Token经济学变得异常清楚,毫无疑问这是一个异常大年夜的家当。

基于此,将来每个公司不仅要给员工发工资,还要别的配备Token,这是公司为智力付出的额外的成本。

方才罗总讲到了物理的极限。其实两年前我在参加台北电脑展的时刻,英伟达就第一次用了一个词叫“technology limits”,也就是说行业全部成长偏向不是在挤牙膏,(意味着)英伟达就是在贴着technology limits,甚至是说physical limits在往前走。

刘昊飞:可以用“热”来形容。此时圣何塞午后在30度,正好赶上这一波技巧热浪。现场可以说是摩肩擦踵,从早到晚,有点像90年代北京站春运。我住在Palo Alto,距离圣何塞大年夜概三四十公里,酒店每晚价格换算成人平易近币在两三千块钱。

雷峰网·胡敏:若何对待Vera Rubin平台此次引入的LPU?

在大年夜模型的不合阶段,用不合芯片来达到最好的后果的做法是毫无疑问的。像客岁提到的CPX,是RTX 6000 Pro的下一版,也是5090大年夜内存版本的专业版,看起来比拟HBM的版本芯片成本大年夜幅降低。但今天GDDR也涨价了,那经济上还算得过来?PCIe形态可否知足效力?我认为CPX可能接下来也会再冒出来,只是在不合阶段起到不合的感化。

黄仁勋的表达欲仍在延续。GTC落幕后,他依然四处讲着OpenClaw的时代象征、Rubin机架的生态议题、以及Token经济学的故事。当“十年寒窗无人问”的Token一夜成名,这场GTC毕竟给中国芯片厂商留下了什么启发?

2016年Groq横空出世时,我在硅谷和开创人Jonathan进行过多轮交换。如今其其实市场上供给办事的话,照样19 岁尾流片、20年回来的第一代芯片。后面因为融资问题一向没有进展,直到碰着了大年夜模型,Groq把这几百个芯片集联起往来交往做。

那我想这个芯片肯定是有可取之处,然则从这个流派来讲,并不说只是他一家独有的,像之前我们在阿里做的含光芯片、我们的CTO金琛之前在的Graphcore(后面被软银收购)做的芯片,也都是纯SRAM架构。

从这个产品本身来讲,我们看到的最大年夜的信息不是性价比。黄仁勋反而讲的是别的一个不雅点,就是Token是分层的,只要有人愿意买单,我就给他最极致的机能。今朝想在Groq这一采取SRAM架构的芯片上跑大年夜模型,假设在放得下、极低延迟的情况下,那么是能给到比较好的Token质量。但当前它的容量比较小,不必定能跑起来。

假如按照给出的价格区间,大年夜众化的Token在 3 ~ 6 美金,那是不是有人愿意以几十倍的溢价去付?我认为这是黄仁勋提出的异常重要的点。他肯定是看到有工资了达到更好后果愿意如许做。

这一会儿扩大年夜了TAM(可触达市场)。今天讲Token,存眷的是天天的消费量及增长速度。假如当前市场按照大年夜模型应用Token的单价去算,这是一个数字。假如按照 LPU价值去算,那全部市场价值一会儿大年夜了几十倍,想象力就变得异常大年夜。

大年夜家会想到我投了那么多的Capex(本钱支出),投了那么多的公司,将来是有机会以几十倍去变现,而不是说今天以几块钱的方法,这是LPU最冲动人心的处所。倒不是说它的技巧流派,因为之前已经有人在做了,并且异构本来就是个趋势,不是省钱,是为了赚钱。

刘昊飞:LPU可以说是颠覆性设计。我们客岁事尾就花时光在研究LPU,发明其最大年夜的特点在于设计构造更简化。那简化的好处是什么?大年夜家都知道GPU比CPU(构造)更简化,所以它做矩阵运算就异常快。而LPU比GPU更简单,尤其表如今存储方面。刚才也提到LPU不须要HBM,由此数据交换的延迟、显存成本大年夜幅降低,效力随之变高。

NVIDIA此次专门强调LPU的原因在于,小龙虾出来后,这几个月的Token应用量呈指数级上涨,那么若何有效降低推理成本和输出的延迟变得很重要。

徐凌杰:魔形智能CEO,曾任职于NVIDIA、AMD、三星北美研究院、阿里云,并结合创办了壁仞科技

其实我此次来的一个很重要的目标就是想知道英伟达若何对待LPU。在现场能看到很多人围着展区听分享,你想照张完全的照片都有些艰苦。所以我认为这种架构设计确切值得存眷。不过国内已经有创业团队把工作做在前头,我们也在评判是不是值得出手(投资)。

罗彤:我问过这方面的一个专家,以前是英特尔的,在他眼里真正与众不合的就是英特尔CPU、英伟达GPU、谷歌TPU,其他的PU只是各类组合不一样。类似把X、Y、Z三个根本元素经由过程不合比重进行组合,调制出一种混淆物,而不是化合物。

所以从这个角度来讲,对于家当链来说,最难的点照样把芯片最根本的计算、存储和连接单位的效力做好,降成本。

这表现了我刚才说的经济身分,之所以算力如今这么平易近主化,是摩尔定律带来的——当芯片缩小,成本、能耗随之降低。

但摩尔定律带来的器械必定会被摩尔定律带走。将来即便成本能降100倍,但假如算力想要高1万倍,最终成本也要提一百倍,那就没有什么人包袱得起了。所以将来的趋势必定从算力平易近主化变成集中化,真正的算力承担者会合中到云。

集中化的云端算力想要降低能耗和成本,在大年夜范围集成里设备之间的互联也很重要,所以互联此次采取的是集成模块,把光模块与电芯片封装在一路,今后会成为主流。

但技巧难度高,国内要有高端芯片产能来支撑,不然端赖台积电,产能是不敷用的。高通已经将其产能锁定到2028年。这也就是摩尔定律消掉的后果。

雷峰网·胡敏:将来1-3年,国产算力家当链有哪些您认为比较肯定性的机会或者趋势?

徐凌杰:更大年夜的算力体系承载更大年夜的模型,更大年夜的模型带来更高的智力,更高的智力产生更高的Token需求,这三个趋势是异常明白的。

英伟达已经走出来了,给了我们样板,只是在今天相对来讲我们还没那么有竞争力,是以须要一整条家当链往这个偏向逝世磕,把所有能联结的力量联结在身边。

但GTC带给我们的启发是,国内也须要强链主,不仅打磨自身内功,还带动全部家当链的繁华。这须要包涵。欲望两三年后有初步的苗头。

罗彤:一些半导体行业高层经常和我说:“我们不须要很多人,但须要很厉害的人。”也就是说,这个行业要增长对顶级人才的看重。

别的,假如程度差一点的话,我建议选小的细分赛道。固然你很多处所不是顶级程度,但你在这个赛道仍能做到降维袭击,避免竞争。比拟才能不敷咬牙切齿的戮力而为,我认为这是更可持续的路径。天天咬牙切齿很累的。在没有衡量本身的实力的情况下,就去和最强的一决高低,这是不明智的行动。

作者持续存眷AI算力芯片、整机架设计与构造等情况,以及高低游相干,更多信息可添加作者微信 Evelynn7778 交换。

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部