“黄仁勋这200亿美元,买的其实就是Jonathan Ross这小我 ,押注在此英伟达将来可能会赚回三倍的钱,所以200 亿美元其实不算贵。”某投资人近日向雷峰网("大众,"号:雷峰网)泄漏。

2025年12月24日,英伟达以其史上最大年夜范围交易额200亿美金,将推理芯片独角兽Groq的核心技巧与团队收入麾下。Groq开创人、谷歌TPU初代核心开辟者Jonathan Ross带队加盟英伟达,其独创的LPU芯片技巧将融入英伟达AI Factory架构。

当下AI行业正从“范围比赛期”转向“效力价值兑换期”,推理侧需求大年夜于练习侧需求已成为广泛共鸣。

面对推理市场的爆发式增长,Groq的专属LPU芯片以5-10倍于GPU 的速度优势,以及1/10的成本优势,成为异军崛起的核心玩家,而黄仁勋最终照样选择了将这条搅动市场的鲶鱼收入囊中。

这毕竟是招安潜在敌手的缓兵之计,照样垄断推理市场的霸权构造?

2026年CES大年夜会时代,英伟达治理层在面向投资者的会议上强调,此次收购Groq不会对核心营业产生冲击,反而将为公司开辟全新的增长空间。 

业内人士爆料,英伟达下一代Feynman GPU或将于2028年集成Groq的LPU单位,采取类似AMD X3D筹划的自力芯片堆叠设计,即应用台积电的SoIC混淆键技巧将3D V-Cache芯片集成到主计算芯片上。


而这桩被包装成“非独家技巧授权”的交易,本质是硅谷近年风行的“收购式雇用”的进级版:用授权的名义实现“人才+技巧”的双收。

瑞银分析师团队在研报中直言:“这是一场没有收购之名的完全收购,英伟达用最小的监管风险,获得了最核心的计谋资产。”

根据披露信息,英伟达所付出的200亿美元中,130亿已即时到账,残剩款项中包含核心员工的股权鼓励,个中Groq CEO Jonathan Ross小我获得数亿美元英伟达股权。团队核心成员则几乎全员转入英伟达,芯片设计、编译器开辟等核心资产也尽数归入英伟达体系。


“黄仁勋这200亿美元买的其实就是Jonathan Ross这小我,因为Jonathan Ross是个非一般意义的天才。假如拿黄仁勋类比杰夫里辛顿(深度进修教父)的话,那Jonathan Ross就要类比伊利亚(OpenAI结合开创人兼首席科学家)。”苔藓花圃播客主办人、资深私募投资人王韦华告诉雷峰网。

作为谷歌初代TPU的核心设计者,Jonathan Ross早在2016年Groq成立时就已预判推理将成为范围化难题,并率先提出“推理市场范围终将远超练习”。他提前洞悉到推理的核心需求是“低延迟、高能效、低成本”,而非计算密度。是以他摒弃了GPU架构改进思路,从零打造专为推理设计的LPU架构。

LPU架构完全环绕“清除数据搬运延迟”展开,采取无外置内存、全片上SRAM作为主存的设计,片上带宽达80TB/s,是Blackwell B300 的HBM带宽8TB/s的10倍。

成本方面,Jonathan Ross曾在福布斯独家专访中公开声明,“Groq LPU在LLM推理速度快10倍同时,成本是Nvidia GPU的1/10,功耗是Nvidia GPU的1/10。”

2000年,英伟达以7000万美元+100万股通俗股收购了3dfx核心图形资产,奠定GPU范畴统治基本;2013年,收购了HPC编译器龙头PGI,强化了CUDA生态在高机能计算范畴的核心支撑;2019年,以约69亿美元收购了Mellanox,补全数据中间收集短板。

这种集机能与成本优势于一身的晋升,精准击中了英伟达在推理赛道的核心短板,也成为黄仁勋不吝斥资 200亿果断出手的关键地点。

另一方面,回溯英伟达过往的并购构造便不难发明,这场交易也并非有时。

王韦华认为,“LPU如今已经不是0亿美金市场了,但黄仁勋再次早于别人发清楚明了LPU的重要性。英伟达如今收购Groq,甚至比2019年收购Mellanox的重要性要更大年夜,这一步直接让英伟达在推理端领先两三年。固然在英伟达全部数据中间的扶植里推理占比不大年夜,但只要它在技巧上保持领先就会产生巨大年夜的杠杆效应。”

尽管Groq当前的市占率远未对英伟达构成直接威逼,但它控制的可重构数据流架构,代表了AI推理的将来偏向。英伟达此次用200亿美元“买断”这条技巧路线,恰是“技巧补位+生态垄断”并购计谋的延续。

而这种不计短期成本、锁定经久技巧优势的大年夜手笔操作,底气完全来自其充分到近乎 “多余” 的现金流。据英伟达最新财报,仅2026财年Q3,英伟达的自由现金流便达到了220.89亿美元。


为什么是Groq?

当下,全球仅有两个团队控制TPU架构技巧:谷歌与Groq。

在此之前,谷歌凭借TPU练习出优质模型激发市场存眷,导致英伟达股价受挫,此次收编补齐了其在TPU架构路线上的短板,在巩固行业地位的同时为其估值供给了重要支撑。

王韦华表示,“英伟达此次押注LPU不单是为了对抗谷歌的TPU,TPU专注于矩阵运算,更多照样强调在练习方面的优势。LPU 其实跟 TPU 比拟的话,更专注于推理这一块。今后在推理这块谁能省最多的电?谁能在速度上面最有优势?今朝看最有可能的偏向就是LPU了。”

作为谷歌TPU的核心创作创造者,Jonathan Ross深知GPU处理线性代数运算时的架构冗余,分开谷歌后他以第一性道理为核心,选择SRAM作为核心存储、经由过程编译器筹划数据路径,打造低延迟LPU产品,其TPU开辟经验直接决定了Groq“次序延迟优先”的技巧路线。从谷歌TPU的魂魄人物,到出走自立门户成立Groq,过程中的权势比赛,迎接添加作者微信 IHAVEAPLANB- 交换。

业内人士告诉雷峰网,TPU架构的计算效力远超GPU的原因在于,GPU需经历“计算-传数据至存储-读写-再计算”的轮回,而TPU采取片上存储直接计算,省去了数据往返存储的环节,效力极高。

当token的吞吐量效力落地到用户体验层面,Jonathan Ross表示,响应时光每缩短 100 毫秒,桌面端用户介入度就能晋升8%,移动端更是高达34%。业界早已形成共鸣:当用户体验的响应时光控制在250到300毫秒以内时,贸易收益才能最大年夜化。

根据Groq 官方信息,实测数据显示Groq LPU在运行Llama 3.3 70B模型时,token生成速度达284tokens/s,首token响应时光仅为0.22s,运行混淆专家(MoE)模型时更是冲破460 tokens/s。


巨额“收编” Groq,英伟达意欲何为?

据悉,在收购Groq后英伟达会将LPU作为专用的DAC硬件单位嵌入到CUDA生态体系中,以此保持CUDA编程的通用性。短期内,英伟达会经由过程NVFusion快速集成LPU;经久来看,则会在底层架构和编译器层面实现协同设计,从而知足机能场景下的高机能需求。

图片来源:Groq官网

这种极致机能让Groq斩获沙特王国15亿美元营业承诺资金,也让英伟达意识到,要统治推理市场需补齐这一短板。

英伟达此前推出的H200、B300等推理优化芯片,本质仍是基于GPU架构的改进,未能冲破冯·诺依曼架构的先天局限,而谷歌TPU、AMD MI300等竞争敌手,均在专用推理架构上持续发力。

更严格的是,Meta、谷歌等大年夜客户开端寻求算力供给多元化,Anthropic甚至宣布接入100万个谷歌TPU构建计算集群。在此背景下,收购Groq成为英伟达快速抢占推理高地、留住核心客户的最优解。

“英伟达真正善于的是练习,在这一范畴它是最出色的。英伟达既不供给高速的token处理办事,也没有低成本的token解决筹划,这就是Groq要解决的问题。”

在被英伟达纳入麾下之前,Jonathan Ross曾在播客中公开声明,英伟达与Groq并非竞争敌手,二者的产品美满是不合维度的存在。然而事实果真如斯吗?

某机构分析师张简告诉雷峰网:“英伟达要顾忌的,是Groq代表的“去GPU化”技巧路线可能激发的家当变革。英伟达的霸权建立在“GPU+CUDA生态+HBM/CoWoS稀缺产能”的三重护城河上,而Groq的技巧路线恰好绕开了这三大年夜壁垒:可重构架构无需依附CUDA生态,采取GlobalFoundries和三星代工,不占用台积电稀缺的CoWoS产能。”

巨额“收编” Groq,英伟达意欲何为?


重金收编的核心是什么?

“一旦这条路线跑通,意味着AI芯片的临盆门槛将大年夜幅降低,其他设计公司无需依附稀缺供给链就能大年夜范围临盆推理芯片。英伟达以200亿美元收编Groq,意味着将这条潜在的颠覆路线握在本身手中,确保算力革命的主导权不旁落。”


推理市场变天?

“为了成为一名心血管外科大夫,你弗成能花费平生95%的时光接收培训,真正手术的时光只占5%。实际情况恰好相反:你经由短暂培训,随后便会用余生持续实践这项技能。”对于推理市场将来的演进趋势,Jonathan Ross曾打过这么一个比方。

2025岁首年代Deepseek横空出世时,Jonathan Ross将其称为AI行业的“斯普特尼克时刻”;当下,推理市场也许将再次进入“斯普特尼克时刻”。

因为推理场景和练习场景存在明显差别,无法经由过程单一架构解决所有问题,不合推理场景对大年夜模型的工作负载请求各别,所以推理芯片架构将出现多样化,须要针对细分场景进行优化。

巨额“收编” Groq,英伟达意欲何为?

可能搭载LPU单位的Feynman芯片,图片来源:Wccftech

推敲到SRAM的扩大性有限,将其作为单位芯片集成到Feynman GPU中可能并非明智之举,因为在先辈制程上构建SRAM将导致高端硅片的浪费,并大年夜幅增长每片晶圆面积的应用成本,是以英伟达很可能会将LPU单位堆叠到Feynman芯片上。

“如许一来,像A16(1.6纳米)如许的芯片将用于主Feynman芯片,而自力的LPU芯片将包含大年夜型SRAM存储体。此外,为了将这些芯片连在一路,台积电的混淆键合技巧至关重要,因为它能供给更宽的接口,并且与封装外存储器比拟,每比特能耗更低。最重要的是,因为A16具有后头供电功能,正面将可用于垂直SRAM连接,从而确保低延迟的解码响应。”

可要做到上述也绝非易事,今朝的重要问题仍在于CUDA在LPU风格履行中的行动方法,因为它须要显式的内存构造,而CUDA内核设计初志是为了实现硬件抽象。对于英伟达团队而言,在AI架构中集成SRAM难度极高,这须要“工程事业”来确保LPU-GPU情况获得充分优化。

然而,假如英伟达想要主导推理市场,这或许是其愿意付出的价值。

本文作者经久聚焦海外To B半导体科技巨擘,更多公司动态、行业逻辑、价值投资信息,迎接添加作者微信IHAVAPLANB-交换商量。

注:文中张简为化名

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

巨额“收编” Groq,英伟达意欲何为?

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部