事实上,对于英伟达的一众核心客户而言,推动 Blackwell 办事器的落地与范围化运行,一度是令其倍感棘手的难题。据两名为 OpenAI 及其他大年夜客户供给办事的英伟达员工、一名亲历相干问题处理的Meta公司员工泄漏,客岁大年夜部分时光里,OpenAI、Meta Platforms 及其合作的云办事商始终难以稳定搭建并应用该类体系。而这些人士均表示,比拟之下,客户在收到 Blackwell 之前的英伟达人工智能芯片后,数周内便能顺利完成安排并投入应用。

英伟达核心客户在应用其 Blackwell 系列芯片(尤其是 Grace Blackwell 型号)时遭受的各种难题,似乎并未对这家芯片巨擘的营业造成严重冲击。英伟达仍是全球市值最高的企业,市值达 4.24 万亿美元,且今朝已根本解决阻碍大年夜客户快速大年夜范围安排该系列芯片的诸多技巧问题。

但假使英伟达将来的新芯片仍出现类似的安排难题,谷歌等竞争敌手或将迎来突围良机 —— 只要这些竞品厂商能赞助客户更快地大年夜范围安排芯片,以支撑前沿人工智能技巧的研发。此类问题还可能导致难以实现芯片范围化落地的云办事商利润缩水,同时拖慢依托这些芯片研发更先辈人工智能模型的 AI 企业的研发进度。

本文内容基于对英伟达、元宇宙员工,以及应用英伟达芯片的云办事商工作人员、为数据中间供给英伟达芯片安装办事的合作伙伴的采访。

对于 OpenAI、Meta这类客户而言,无法按预期范围搭建芯片集群,会限制其练习更大年夜范围人工智能模型的才能。据一名英伟达员工泄漏,尽管英伟达的客户并未公开抱怨相干问题,但部分客户已暗里向英伟达的对接人员表达了不满。

为弥补给受挫客户带来的损掉,据一名云办事商高管及一名介入相干协商的英伟达员工泄漏,英伟达客岁针对 Grace Blackwell 芯片的相干问题,向客户供给了部分退款及扣头优惠。

英伟达及云办事商高管均表示,问题重要出在将 72 颗 Grace Blackwell 芯片组联的办事器上 —— 这类设计本是为了让芯片间的通信速度大年夜幅晋升,并实现单体系协同运行。该款办事器可与其他办事器互联互通,构成超大年夜范围集群,为人工智能模型的高强度练习供给算力支撑。

英伟达一名谈话人表示,公司已于 2024 年回应了有关 Grace Blackwell 体系安排进度迟缓的相干质疑,并当时向《信息》杂志揭橥声明称,该类体系是 “有史以来最先辈的计算机”,其落地须要 “与客户开展结合工程研发”。

声明中还提到:“英伟达正与头部云办事商展开深度合作,其团队已成为我们工程研发体系和流程中弗成或缺的一部分,相干工程迭代属于行业正常现象,也是我们预期中的环节。”

OpenAI 基本举措措施营业高管萨钦・卡蒂揭橥声明称,这家始创企业与英伟达的合作 “正完全按筹划为我们的研发路线图供给算力支撑。我们正将所有可用的英伟达芯片周全应用于模型练习和推理环节,这也推动了研发的快速迭代与产品落地,近期我们宣布的多款模型就是最好的证实”。

然而,英伟达的这一新设计本身也存在马脚。将大年夜量芯片高度集成组联,意味着单颗芯片的故障都可能激发连锁反响,导致由数千颗芯片构成的全部集群瘫痪或运行中断。据三名亲历过此类故障的人士泄漏,企业若要从比来的保存节点重启中断的练习流程,所需成本从数千美元到数百万美元不等。

Meta的谈话人则拒绝就此置评。

有迹象注解,英伟达已从此次的安排难题中汲取了经验教训。公司不仅对现有 Grace Blackwell 体系进行了优化,还针对本年晚些时刻即将推出的、基于 Vera Rubin 新一代芯片的办事器开展了改进工作。

据两名介入芯片设计的人士泄漏,英伟达客岁推出了机能更强劲的 Grace Blackwell 芯片进级版,以确保其运行稳定性优于初代产品。他们表示,这款名为 GB300 的进级版芯片,在散热才能、核心材料及连接器品德上均实现了晋升。

但英伟达一名前高管为公司的这一策略进行了辩护,称 72 芯组联的 Grace Blackwell 办事器遭受的这些成长阵痛,恰好表现了黄仁勋勇于冲破技巧界线、而非寻求稳妥的经营理念。英伟达现任及前任员工均认为,指望英伟达能精准预判 OpenAI、Meta等客户的范围化安排场景下的芯片机能,本身并不实际。

一名懂得具体情况的元宇宙员工称,曾遭受初代 Grace Blackwell 体系技巧故障的Meta工程师发明,新款芯片的组联难度大年夜幅降低。另一名为 OpenAI 供给办事的英伟达员工则泄漏,OpenAI 等部分客户已对尚未到货的 Grace Blackwell 芯片订单进行调剂,转而增订这款进级版产品。

客岁秋季,英伟达曾向投资者泄漏,其 Blackwell 系列芯片的大年夜部分营收已来自经优化的 Grace Blackwell 办事器,公司筹划在本年实现该款办事器的大年夜批量交付。

先搭建,后测试

英伟达研发 Blackwell 芯片的目标十分明白:赞助客户以远优于前代人工智能芯片的范围和成本效益,开展人工智能模型的练习工作。

在英伟达的前代办事器中,客户最多只能将 8 颗芯片进行组联,且芯片间的通信速度较慢。而 Blackwell 系列芯片的设计核心,是经由过程在单台办事器内组联 72 颗 Grace Blackwell 芯片,削减不合办事器间的数据传输量,从而释放数据中间的收集资本,支撑更大年夜范围人工智能模型的练习与运行。

据一名曾介入芯片集群搭建的甲骨文员工泄漏,经由过程该种方法搭建大年夜范围芯片集群,还能晋升基于其练习的人工智能模型的质量,该体系的设计初志就是削减模型练习过程中常见的硬件故障。

英伟达 Grace Blackwell 体系的落地从一开端便曲折赓续。2024 年夏季,芯片设计缺点导致量产推迟,各类问题开端浮现。一年前,首批 Blackwell 芯片交付客户后,办事器机柜又接连出现过热、连接故障等问题,致使微软、亚马逊云科技、谷歌、元宇宙等核心客户纷纷削减订单,转而采购前代芯片。

多家订购了 Grace Blackwell 芯片的云办事商员工表示,他们认为英伟达在相干软硬件尚未完全调试到位的情况下,便向客户进行了交付。

且有迹象注解,OpenAI 今朝已实现英伟达 72 芯组联办事器的范围化应用。本周四,OpenAI 宣布,公司最新的人工智能代码模型 GPT-5.3-Codex 的研发,全程 “由该款专属体系结合设计、供给练习算力并支撑安排运行”。

营收兑现遇阻

据两家云办事商的高管泄漏,客岁全年,芯片安排的延迟令 OpenAI 的部分云办事合作伙伴遭受了损掉 —— 这些企业曾为 Grace Blackwell 芯片投入巨额资金,本来期望芯片能快速上线并收回成本,而云办事商只有在客户开端应用芯片后,才能获得相干收入。

据一名介入相干协商的云办事商高管泄漏,为缓解资金压力,部分云办事商客岁与英伟达协商杀青了扣头协定,得以按实际应用量的较小比例付出芯片费用。

另据一名英伟达员工及一名英伟达制造合作伙伴的工作人员泄漏,英伟达还为部分退回办事器的客户解决了退款。

云办事商推出新技巧时,往往须要先承担相干成本,待客户开端应用硬件后才能获得收入,是以这一阶段的利润率平日较低。一份文件显示,在截至客岁 8 月的三个月里,甲骨文公司因出租 Blackwell 系列芯片吃亏近 1 亿美元,究其原因,是甲骨文完成办事器调试并向客户交付的时光,与 OpenAI 等客户开端应用并付出房钱的时光存在明显滞后。

成长的阵痛

这份为甲骨文云营业高管预备的内部演示文件指出,Grace Blackwell 芯片租赁营业毛利率为负,主如果受 OpenAI 位于得克萨斯州阿比林市的数据中间相干芯片安排问题,以及客户验收周期滞后的影响。

深度依附英伟达芯片的埃隆・马斯克旗下 xAI 公司,在 Grace Blackwell 办事器的落地应用上似乎走在了行业前列。客岁 10 月,该公司已在孟菲斯的数据中间完成了约 10 万颗该款芯片的安排并投入运行,今朝尚不清楚这一安排策略是否带来了更优的后果。

甲骨文此后曾向投资者表示,其人工智能云营业最终将实现 30% 至 40% 的毛利率,这一预期已涵盖数据中间上线前的投入期。

甲骨文的谈话人则拒绝就此置评。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部