引入LPU的英伟达，是在补强，照样在拆本身的护城河？｜GTC不雅察

420 阅读 0 评论 0 点赞

GTC 2026落幕当天，英伟达泄漏起初与亚马逊云科技（AWS）杀青的大年夜范围芯片采购协定，将在2027年前完成交付。

黄仁勋在大年夜会上提到的2027年万亿美元营收目标，正在变成真金白银的合同。

但真正让行业侧目标，是Groq芯片初次进入AWS数据中间——LPU到底储藏多大年夜价值，值得英伟达如斯力推？（LPU到底是不是推理最优解？迎接添加作者微信 Evelynn7778 商量交换）

带着这个疑问，我们（"大众,"号：雷峰网）与三位半导体与AI算力范畴的老兵聊了聊，他们分别是：

罗彤：芯动科技首席技巧官，历任力积存储中国区总经理、爱普存储技巧（杭州）总经理、德商柏狮电子亚洲区市场与发卖副总、日商凸版半导体新加坡董事总经理

刘昊飞：盛景嘉成创投开创合股人，曾任中国移动体系架构师、汉能投资集团履行董事

“推理时代”已经到来。

两个月前在CES大年夜会上以六芯组合面世的Rubin平台，此次进级为七芯——新参加的，是专为AI推理设计的专用芯片LPU。这是英伟达获得Groq技巧授权后，后者芯片初次涌如今其产品组合中。

在刘昊飞看来，本次大年夜会为LPU入场的造势，离不开全平易近养虾的高潮。他表示，当Token应用量呈指数级增长时，降低推理成本与输出延迟变得至关重要，而构造比GPU更简化的LPU便显出优势——

这意味着，当衡量标准从成本转向能耗时，SRAM的优势将得以重现。

罗彤认为，英伟达不是光有技巧，而是具备将技巧转化为经久盈利的才能。

罗彤进一步解释，以前行业存眷的是“一美元能买若干Token”，这是经济学的逻辑。但在此次GTC上，黄仁勋特别强调“每焦耳能产生若干Token”，显然是摩尔定律的掉效让他有了新的思虑——物理极限的刚性不是其他身分可以比较的。

因为地球上许可接收的能量是有限的，谁能用更少的能量产生Token，谁就能在算力峰值上领先。这恰是从经济瓶颈时代进入物理瓶颈时代后的新规矩。

不过，徐凌杰也指出，Groq 3 LPU采取的纯SRAM架构并非Groq一家独有，阿里、Graphcore等公司都浏览过；且“GPU+LPU”的异构架构也非开创，国内大年夜厂早有测验测验，异构也是行业的演进偏向。

尽管如斯，他认为，“在大年夜模型不合阶段，用不合的芯片达到最好的后果，这个做法是毫无疑问的。”

LPU的一大年夜亮点，是其SRAM（静态随机存取存储器）架构大年夜幅削减了数据搬运时光。罗彤指出，LPU采取的SRAM架构，此前曾因成本是DRAM的6倍而被替代。但RISC-V 开山祖师David Patterson说过：“一个小型SRAM的能效是DRAM的128倍。”

以客岁被提出的CPX为例，以前其与HBM版本的芯片比起来成本显然大年夜幅降低，但在GDDR也涨价的当下，CPX的“性价比”故事是否讲得通已经存疑。（CPX当前性价比表示若何？可添加作者微信 Evelynn7778 交换）

或因为此，CPX在此次的GTC上鸣金收兵。但他表示，在将来合适的时刻，CPX可能还会“冒出来”。

据徐凌杰不雅察，此次GTC传递出的更重要的信息是：黄仁勋提出Token分层订价，这意味着只要有人愿意买单，就能获得最极致的机能。他直言，假如按照LPU的价值去计算，TAM（可触达市场）价值一会儿大年夜了几十倍，这是LPU最冲动人心的处所。

然而，LPU带来的变革也不是彻底的。

一位专家曾向罗彤表示，真正与众不合的存在是英特尔的CPU、英伟达的GPU和谷歌TPU，其他PU只是类似将X、Y、Z三个根本元素经由过程不合比重进行组合、最终调制而成的混淆物。

谈芯片：LPU背后：从经济瓶颈到物理瓶颈，SRAM重回牌桌

刘昊飞：国内对算力的整体本钱投入会保持持续增长，但同时也会产生相当程度的冗余，进而造成浪费、形成镌汰。

因为单芯单方面积有限，MoE模型往往须要上百张卡协同工作。为了保障芯片间的高效通信，将各类芯片经由过程超节点耦合在一路，便成为瓜熟蒂落的选择。

当前家当链最须要霸占的难题，照样晋升芯片最根本的计算、存储和连接单位的效力，并达到降本后果。

谈架构：加码整机柜算力，英伟达70%毛利率可否持续

从Blackwell NVL72到Rubin的机架设计，英伟达持续加码“整机柜算力”的叙事。练习时代的王者在推理时代打出这套组合拳，意欲为何？这也是三位嘉宾热议的核心。

在刘昊飞看来，这是英伟达在推理时代进一步占据客户心智地位的表现；而在徐凌杰看来，这种进步自我门槛的叙事选择，本质是为了进步效力。

不过，英伟达今天之所以能涨得这么好，并不是因为把所有才能都抓在本身手里，而是分化在多方手里。没有任何一个实体可以零丁造成巨大年夜的伤害，从安然角度推敲是功德。

跟着模型参数膨胀，Token需求量激增，算力成本也急剧上升。“稀少化激活”的MoE模型架构经由过程降低单Token计算量解决了成本问题，但也随之衍生出“专家并行”等各类并行需求。

但做超节点绝非易事。徐凌杰留心到，在CES大年夜会上，黄仁勋前脚刚展示NVL72经由过程无缆化（cable less）设计将本来两小时的组装时光缩短至几分钟，AMD董事会主席及首席履行官苏姿丰后脚推出的Helios产品，采取的照样英伟达两年前的互联筹划——可见，大年夜家都在跟进，但技巧变更进步神速。（当前国产超节点扶植有何新进展和挑衅？迎接添加作者微信 Evelynn7778 交换）

技巧迭代如斯之快，那英伟达70%的毛利率将来还可否持续？

在他看来，黄仁勋与哈萨比斯（DeepMind开创人）的贸易逻辑很像，后者对DeepMind创建任务的阐释“解决智能，再用智能解决一切”在圈内广为传播。

这表如今英伟达身上，就是其与台积电、EDA巨擘Synopsys合作，在最尖端芯片的研发中应用自身算力改进芯片设计，经由过程“智能”反哺“智能”，飞轮由此高速转起来。

不过，这种强掌控力，不仅基于对核心技巧的构造，还源于英伟达对高价值环节的精准卡位。

徐凌杰指出，英伟达将来也不会独有整条家当链，而是像华为、苹果那样，将毛利相对较低的部分交由供给链完成，做“只吃高增长部分的蛋糕”的链主企业。

同时，他也提示，国产芯片公司不克不及盲目追乞降英伟达一样的高毛利，要在芯片互联、模型软硬件调优等范畴冲破立异的同时，经由过程性价比打开市场，带动国产家当链一路成长。

谈软件：“龙虾”配套开源模型，AI Factory下场和客户抢饭碗？

养虾潮也伸展到了大年夜会上。

映照黄仁勋所说的“每个公司都要有本身的OpenClaw计谋”，英伟达为龙虾推出的企业版软件栈NemoClaw正式表态，配套了最新一代Nemotron开源模型。

在专门针对OpenClaw的基准测试PinchBench上，Nemotron义务成功率直逼Claude Opus 4.6、GPT-5.4。

英伟达在软件栈上的持续迭代，是其在业内遥遥领先的一大年夜护城河。

在大年夜家看来，英伟达此举也不是想与它的软件客户们“抢地盘”。罗彤指出，身为GPU公司的英伟达，必须本身先把应用跑通，才能有效引导客户应用。

他打了个比方：CPU像一把内部构造精细复杂的手枪，任何人只要会扣动扳机就能上手；而GPU像一根棍子，构造简单，但须要控制技能才能发挥最大年夜威力。

徐凌杰：此次NVIDIA把Groq的LPU引入，把Attention跟FFN做分别，事实上我也懂得到国内的大年夜厂之前是在做测验测验的。这不是一个新的概念。

徐凌杰则从贸易逻辑角度弥补：开源开放是英伟达的根本策略。就像黄仁勋讲CUDA时第一个提到的词“Install base”（安装基本），英伟达须要足够多的客户来建筑生态基本。

他借用谷歌收购安卓的例子，指出前者不直接靠后者赚钱，而是基于后者体系让自家搜刮、浏览器等办事触达更多用户。

同理，英伟达也可以用开源软件为硬件“带货”，这是前者最大年夜的价值。假如有人想模仿，徐凌杰认为除非能做到整合人工智能底下“四层蛋糕”，放在国内语境来看，则须要家当链的互相合营。

然则，当下国内芯片公司，还广泛面对软件团队范围小、客户办事才能弱等困境，难以支撑完全的生态扶植。（当前有哪些突围之路值得借鉴？迎接添加作者微信 Evelynn7778 商量分享经验）

不过，几位嘉宾也已指出了破局之道。在罗彤看来，国内芯片企业实力过于分散，与其几十家小公司各自为战，不如经由过程整合形成一两家有实力的平台型公司，集中资本搭建软件生态和客户办事体系。

徐凌杰对此则较为乐不雅。他指出，国内大年夜模型在开源层面已接近国外程度，经由过程从闭源模型蒸馏，有望取得更好的后果。

与此同时，超节点所需的散热、互联、供电等工程化才能，恰是国内芯片家当的优势地点，这让国内厂商有望以美国几分之一的成本进行量产。

以下是此次圆桌对话的出色分享，雷峰网（"大众,"号：雷峰网）在进行了不改原意的编辑整顿：

雷峰网("大众,"号：雷峰网)·胡敏：各位对本年GTC最强烈的感触感染是什么？或者你们对这场会议印象最深刻的是什么？

罗彤：黄仁勋特别强调”Token”这个概念，并且将（计量）单位从成本转成能量，即每焦耳能产生若干Token。从此次大年夜会他开端提到物理极限而不是经济极限来看，我认为那真的是摩尔定律在供给端到了将近终结的时刻。

作为存眷实际世界的科学，物理学与数学有一个很关键的不合：物理是要有界线前提才有谜底，但起初没有人去看算力的能源界线，因为一次计算的能耗是很低的，大年夜概一万亿分之一焦耳，而一焦耳相当于把一克水升高一度的能量。

当下计算能耗这个概念变得重如果因为计算量变得很宏大年夜，如今AI最主流的路线是把很多复杂问题解构成简单的数据问题，用蛮力去解决，对物理资本的压力就异常大年夜，芯片的各类才能（算力，存力，运力）也被压得异常极限。

比来DRAM内存荒、涨价异常离谱，都是因为达到了某种物理极限的成果，能源极限后就牵扯到了太空算力的问题。

除了物理极限，黄仁勋花时光讲的还有和Open Claw合营的生态。他试图把各类要素拼在一路，形成更大年夜的掌控才能。这也是双刃剑。假如一个公司把所有才能都控制在本身内部，对外界来说是更危险的，因为能控制的身分就少了。

此外安装小龙虾的设备是很典范的端侧，履行轻量级的编排和调剂，所以吃的内存不是很高，我认为（端侧）是将来的大年夜偏向。

徐凌杰：在魔形智能成立的这两年里，我们一向在讲Token，之前对于投资人来说照样属于比较抽象的，直到客岁下半年中国各类超等应用出来，再加上比来小龙虾火爆后，一把点燃了Token。我认为这是在对的机会有对的机会出现。

Token事实上是把人工智能蛋糕下面的四层完全封装在一路，可以或许整体地去做输出。那整体来讲，Token经济学变得异常清楚，毫无疑问这是一个异常大年夜的家当。

基于此，将来每个公司不仅要给员工发工资，还要别的配备Token，这是公司为智力付出的额外的成本。

方才罗总讲到了物理的极限。其实两年前我在参加台北电脑展的时刻，英伟达就第一次用了一个词叫“technology limits”，也就是说行业全部成长偏向不是在挤牙膏，（意味着）英伟达就是在贴着technology limits，甚至是说physical limits在往前走。

刘昊飞：可以用“热”来形容。此时圣何塞午后在30度，正好赶上这一波技巧热浪。现场可以说是摩肩擦踵，从早到晚，有点像90年代北京站春运。我住在Palo Alto，距离圣何塞大年夜概三四十公里，酒店每晚价格换算成人平易近币在两三千块钱。

雷峰网·胡敏：若何对待Vera Rubin平台此次引入的LPU？

在大年夜模型的不合阶段，用不合芯片来达到最好的后果的做法是毫无疑问的。像客岁提到的CPX，是RTX 6000 Pro的下一版，也是5090大年夜内存版本的专业版，看起来比拟HBM的版本芯片成本大年夜幅降低。但今天GDDR也涨价了，那经济上还算得过来？PCIe形态可否知足效力？我认为CPX可能接下来也会再冒出来，只是在不合阶段起到不合的感化。

黄仁勋的表达欲仍在延续。GTC落幕后，他依然四处讲着OpenClaw的时代象征、Rubin机架的生态议题、以及Token经济学的故事。当“十年寒窗无人问”的Token一夜成名，这场GTC毕竟给中国芯片厂商留下了什么启发？

2016年Groq横空出世时，我在硅谷和开创人Jonathan进行过多轮交换。如今其其实市场上供给办事的话，照样19 岁尾流片、20年回来的第一代芯片。后面因为融资问题一向没有进展，直到碰着了大年夜模型，Groq把这几百个芯片集联起往来交往做。

那我想这个芯片肯定是有可取之处，然则从这个流派来讲，并不说只是他一家独有的，像之前我们在阿里做的含光芯片、我们的CTO金琛之前在的Graphcore（后面被软银收购）做的芯片，也都是纯SRAM架构。

从这个产品本身来讲，我们看到的最大年夜的信息不是性价比。黄仁勋反而讲的是别的一个不雅点，就是Token是分层的，只要有人愿意买单，我就给他最极致的机能。今朝想在Groq这一采取SRAM架构的芯片上跑大年夜模型，假设在放得下、极低延迟的情况下，那么是能给到比较好的Token质量。但当前它的容量比较小，不必定能跑起来。

假如按照给出的价格区间，大年夜众化的Token在 3 ~ 6 美金，那是不是有人愿意以几十倍的溢价去付？我认为这是黄仁勋提出的异常重要的点。他肯定是看到有工资了达到更好后果愿意如许做。

这一会儿扩大年夜了TAM（可触达市场）。今天讲Token，存眷的是天天的消费量及增长速度。假如当前市场按照大年夜模型应用Token的单价去算，这是一个数字。假如按照 LPU价值去算，那全部市场价值一会儿大年夜了几十倍，想象力就变得异常大年夜。

大年夜家会想到我投了那么多的Capex（本钱支出），投了那么多的公司，将来是有机会以几十倍去变现，而不是说今天以几块钱的方法，这是LPU最冲动人心的处所。倒不是说它的技巧流派，因为之前已经有人在做了，并且异构本来就是个趋势，不是省钱，是为了赚钱。

刘昊飞：LPU可以说是颠覆性设计。我们客岁事尾就花时光在研究LPU，发明其最大年夜的特点在于设计构造更简化。那简化的好处是什么？大年夜家都知道GPU比CPU（构造）更简化，所以它做矩阵运算就异常快。而LPU比GPU更简单，尤其表如今存储方面。刚才也提到LPU不须要HBM，由此数据交换的延迟、显存成本大年夜幅降低，效力随之变高。

NVIDIA此次专门强调LPU的原因在于，小龙虾出来后，这几个月的Token应用量呈指数级上涨，那么若何有效降低推理成本和输出的延迟变得很重要。

徐凌杰：魔形智能CEO，曾任职于NVIDIA、AMD、三星北美研究院、阿里云，并结合创办了壁仞科技

其实我此次来的一个很重要的目标就是想知道英伟达若何对待LPU。在现场能看到很多人围着展区听分享，你想照张完全的照片都有些艰苦。所以我认为这种架构设计确切值得存眷。不过国内已经有创业团队把工作做在前头，我们也在评判是不是值得出手（投资）。

罗彤：我问过这方面的一个专家，以前是英特尔的，在他眼里真正与众不合的就是英特尔CPU、英伟达GPU、谷歌TPU，其他的PU只是各类组合不一样。类似把X、Y、Z三个根本元素经由过程不合比重进行组合，调制出一种混淆物，而不是化合物。

所以从这个角度来讲，对于家当链来说，最难的点照样把芯片最根本的计算、存储和连接单位的效力做好，降成本。

这表现了我刚才说的经济身分，之所以算力如今这么平易近主化，是摩尔定律带来的——当芯片缩小，成本、能耗随之降低。

但摩尔定律带来的器械必定会被摩尔定律带走。将来即便成本能降100倍，但假如算力想要高1万倍，最终成本也要提一百倍，那就没有什么人包袱得起了。所以将来的趋势必定从算力平易近主化变成集中化，真正的算力承担者会合中到云。

集中化的云端算力想要降低能耗和成本，在大年夜范围集成里设备之间的互联也很重要，所以互联此次采取的是集成模块，把光模块与电芯片封装在一路，今后会成为主流。

但技巧难度高，国内要有高端芯片产能来支撑，不然端赖台积电，产能是不敷用的。高通已经将其产能锁定到2028年。这也就是摩尔定律消掉的后果。

雷峰网·胡敏：将来1-3年，国产算力家当链有哪些您认为比较肯定性的机会或者趋势？

徐凌杰：更大年夜的算力体系承载更大年夜的模型，更大年夜的模型带来更高的智力，更高的智力产生更高的Token需求，这三个趋势是异常明白的。

英伟达已经走出来了，给了我们样板，只是在今天相对来讲我们还没那么有竞争力，是以须要一整条家当链往这个偏向逝世磕，把所有能联结的力量联结在身边。

但GTC带给我们的启发是，国内也须要强链主，不仅打磨自身内功，还带动全部家当链的繁华。这须要包涵。欲望两三年后有初步的苗头。

罗彤：一些半导体行业高层经常和我说：“我们不须要很多人，但须要很厉害的人。”也就是说，这个行业要增长对顶级人才的看重。

别的，假如程度差一点的话，我建议选小的细分赛道。固然你很多处所不是顶级程度，但你在这个赛道仍能做到降维袭击，避免竞争。比拟才能不敷咬牙切齿的戮力而为，我认为这是更可持续的路径。天天咬牙切齿很累的。在没有衡量本身的实力的情况下，就去和最强的一决高低，这是不明智的行动。

作者持续存眷AI算力芯片、整机架设计与构造等情况，以及高低游相干，更多信息可添加作者微信 Evelynn7778 交换。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

本文分类：互联网
本文标签：gtc大会 token AI
浏览次数：420 次浏览
发布日期：2026-04-14 08:37:39
本文链接：https://www.fqpy.com/internet/12673

引入LPU的英伟达，是在补强，照样在拆本身的护城河？｜GTC不雅察

评论列表共有 0 条评论

发表评论取消回复

引入LPU的英伟达，是在补强，照样在拆本身的护城河？｜GTC不雅察

CVPR 2026 动态视觉智能不雅察梳理：Benchmark 之外的新考题已经出现

摩尔线程最新财报：营收持续高增，推动十万卡级集群扶植

Token消费量翻10倍才算企业转型合格线？三位家当一线大年夜佬教你用出性价比

上交大年夜 x vivo 团队：一个简单修改，让 diffusion 周全晋升丨CVPR 2026

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复