作者:尤洋,新加坡国立大年夜学 校长青年传授,潞晨科技 开创人。
2026年已至。在ChatGPT出生三年多后的今天,关于我们的智能程度是否令人知足,以及将来是否还能强劲增长,笔者想分享一些小我的看法。如有谬误,恳请大年夜家斧正。
为了能深刻商量智能的本质,本文将不涉及产品易用性、成本等贸易化或落地问题,因为这些本质上与智能冲破本身无关。
1. 智能的近况
什么是智能?其实今朝并没有一个明白的定义。
从比来图灵奖得主 Yann LeCun 和诺贝尔奖得主 Demis Hassabis 关于 AGI 的争辩中,我感触感染到即就是世界上最顶尖的专家也无法准肯定义智能。
小我感到,AGI 很难定义,其标准也会跟着时代的变更而变更。我依然记得十几年前,通俗人对人脸辨认技巧认为弗成思议。假如把今天的 ChatGPT 拿到 2006 年,信赖那时刻的很多人会毫不困惑地认为我们已经实现了 AGI。
我认为智能的核心是猜测和创作。
我认为假如达到以下这种状况,那么就离 AGI 不远了:
- 假如你选择接收哪个工作 Offer,完全服从 AI 的看法。
- 假如你买足球彩票猜测世界杯冠军,完全服从 AI 的看法。
- 假如你有健康问题,会完全采取 AI 制订的筹划去治疗。
- 你分辨不清楚一部奥斯卡最佳片子是否是由 AI 生成的。
- 石油公司的勘察团队用 AI 替代了所稀有值算法。
- AI 能指导初级高铁工程师在 5 分钟内清除高铁的疑难故障。
- AI 能研制出一款专杀癌细胞且不破坏好细胞的药物。
- AI 能经由过程某区域的地下构造数据,精准猜测地动的时光。
- 等等……
今天,我们显然还没实现这些。将来可否实现,取决于我们可否克服智能成长的瓶颈。
2. 智能成长的瓶颈
以前10年,AI 大年夜模型的技巧本质,是把电力能源经由过程计算过程转化为可复用的智能。技巧的短长取决于这个转化效力的高低。类似的表述,我也听月之暗面的同伙说起过。
转载自:https://zhuanlan.zhihu.com/p/1989100535295538013
从智能增长的角度,我们甚至不消克意区分预练习、SFT 和强化进修。它们的差别重要在于更新参数的次数与范围。从计算本质上看:预练习、微调、强化进修(比如 GRPO)都是在计算梯度的类似物,并用它来更新参数。
今天模型的智能本身,最重要照样来自预练习(往往是自监督办法),仅有少量来自微调或强化进修。
为什么?先算一笔浅近的经济账:因为预练习消费的算力最多,消费的能源也最多。
当然,预练习、微调、强化进修本质上都是在计算梯度以更新参数。假如有合适的海量数据和 Loss 函数,将来在预练习阶段采取 SFT(监督微调)或特别的强化进修办法也有可能。
那么,能源从何而来呢?这就是 GPU 或算力。英伟达在这点上做了最大年夜的供献。固然英伟达有很多先辈的技巧,比如更强的 Tensor Cores、Transformer Engine、互联技巧(NVLink / 收集化 NVLink)、软件栈等,但我先试图用一句话说清楚英伟达以前几年在技巧上做的最重要的工作,即其 GPU 设计的核心思路。
简而言之,英伟达以前几年最重要的路线是:在同样的物理空间里堆更多 HBM(高带宽内存)。
HBM 固然带宽很高,但依然是计算核心之外的内存(Off-chip from logic die),与计算核心存在弗成忽视的物理距离。为了掩盖内存拜访延迟,GPU 只能依附超大年夜的 Batch Size(批处理量)和大年夜范围并行来处理数据。英伟达 GPU 本质上就是一台并行计算机。
是以,英伟达对算法层和软件层的请求异常明白:必须供给足够大年夜的 Batch Size 或并行度。
面对英伟达的请求,很多研究团队都提出了本身的筹划。比如 RNN、Transformer、卷积序列模型(CNN for Sequence)等等。甚至有人测验测验用 SVM 来处理大年夜范围序列数据。
那为什么 Transformer 率先脱颖而出?因为 Transformer 也是一台并行计算机。这里我引用一下 Ilya Sutskever 的一句话:“Transformers: parallel computers in disguise”,直白的意思是:Transformer 本质上是一个被神经收集外壳包裹起来的并行计算机。这也是 Transformer 最先可以或许浮现智能的核心原因,因为它的并行计算特点完美匹配了 GPU 的并行计算单位。

同时,OpenAI 完美地实现了 Next-Token Prediction 这个 Loss 函数,它给了 AI 大年夜模型近乎无穷的练习数据。理论上 BERT 的 Loss 函数(完形填空和 Next Sentence Prediction)也可以供给近乎无穷的数据,但在实践中,Next-Token Prediction 的后果明显更好。
我推想,这个 Loss 函数最小化了人类的干涉——它不是工资设计的,而是大年夜天然在进化过程中付与人脑的逻辑。并且,Next-Token Prediction 其实是猜测将来,而 BERT 的完形填空其实是把以前的信息和如今的信息串联起来。这就比如让一个足球专家根据汗青数据和当天的比赛成果去解释合理性,几乎所有专家都能做到;然则,假如让专家去猜测每一场比赛的精准比分,他们会经常掉足。这再次说清楚明了,猜测 (Prediction)是智能的核心才能表现,难度远高于解释 (Explanation)。
其实我挺佩服 OpenAI 团队可以或许保持下来的勇气。2018 年时,BERT 在媒体上的影响力几乎完全碾压了 GPT,且当时 OpenAI 的 AI 研发团队体量跟 Google 比起来眇乎小哉。很佩服他们没有放弃 Next-Token Prediction,也没有转向类 BERT 的练习方法。真谛往往须要时光去考验。
同时,以 Transformer 为核心的筹划收成了“一箭双雕”的双重优势:
- 模型的每层参数量越多,并行度就越高 (Tensor Parallelism)。 所以,只要通信价值不明显增长,能同时应用的算力就越多。这点须要点赞行业引导者的先见之明。几年前,我看到 CNN 时代有研究人员试图把模型往深度成长,比如假想 1000 层的神经收集。其实异常深(层数异常多)的神经收集是晦气于有效应用算力的,因为流水线并行供给的并行度上限不高。
- Transformer 的不合 Token 可以同时计算。 序列长度越长,并行度就越高,只要通信价值不明显增长,能同时应用的算力就越多。Sequence Parallelism 与 Data Parallelism 互补,进一步供给了更多的并行度。
就如许,我们见证了 GPT-1、BERT、GPT-2、GPT-3、ChatGPT、Gemini 一步一步把智能晋升到了今天的高度。
到这里,大年夜家大年夜概也清楚为什么 AI 模型的智能增长会碰到瓶颈了——因为我们如今的范式无法充分消化持续增长的算力。
其实,很多时刻我们把“效力优化技巧”和“智能晋升技巧”混淆了。比如,明天我提出一个新的架构,实验发明达到跟 GPT-5 类似的后果,只须要 20% 的参数量或计算量。这其实更多是落地或贸易化问题;智能的最终问题是:应用同样的浮点数计算次数(而非 Token 量),可否获得一个更好的模型。 浮点数计算次数,才是算力最根本、最本质的计量单位。
3. 将来的办法商量
起首从硬件层来看,我们须要持续产生更大年夜的绝对算力,这不必定局限于单位芯片上的算力晋升。
即便单位芯片上的算力没有大年夜幅度晋升,我们经由过程集群的方法也能构建更大年夜的绝对算力。这里须要均衡的是:集合芯片带来的机能增长,要高于“芯片或办事器之间通信增长带来的包袱”。
今天,我们经常听到一些关于智能成长碰到瓶颈,或者预练习红利已尽的不雅点。何为瓶颈?我们先商量一下智能从何而来。
所以,具体的硬指标就是:增长或至少保持住“计算开销/通信开销”这个比值。这是全部 AI 基本举措措施层最核心的技巧目标。要想实现这个目标,我们须要扩大性更好的并行计算技巧,无论是软件照样硬件。
假定一次模型练习和微调消费的浮点数计算次数(即法度榜样员面试中的计算复杂度的具体值)从 10^n 变成 10^{n+3} 时,我们是否获得了一个明显更好的模型?
在更上层的摸索中,我们须要让 AI 模型在单位时光内“吃下”更多能源,并真正将其转化为智能。小我感到大年夜概有以下几点偏向:
- 更高精度的计算才能。 今天,从 FP16 到 FP32,甚至 FP64,模型智能并未出现明显跃升。这本身就是一个瓶颈。理论上,更高精度应当带来更靠得住的计算成果,这一点在传统科学计算中早已获得验证。这个不雅点可能与主流机械进修共鸣并不一致,并且真正产生可能须要很长时光,但从本质上看,智能仍然须要更精准的计算。这与过拟归并无直接关系,过拟合的根源在于数据范围不足或参数与数据不匹配。
- 更高阶的优化器。 Google 的同伙告诉我,他们有时刻已经不消类 Adam 优化器,而是用更高阶的优化器在练习模型。高阶优化器理论上能在进修过程中给模型更好的指导,算出更好的梯度,这是模型智能晋升的本质。当然,高阶优化器的周全替代可能须要很长的时光。
- 扩大性更好的模型架构或 Loss 函数。 我们仍然须要一种扩大性更好的整合和应用算力的方法。这点我们须要留意:优化效力不必定能晋升智能。比如 Mamba 出来的时刻,宣传重点是吞吐量的晋升,用更小的模型获得同程度的智能。然则,本文存眷的是:在最健全的 AI 基本举措措施上,用最大年夜的可接收成本,可否训出更好的模型,获得更高的智能。比如,今天 Google 告诉你:预算 300 亿美元,半年内给我训出一个更好的模型,不推敲省钱问题,花 10 亿和花 100 亿没差别。在这个场景下,你最终是否会用 Mamba 如许的架构?你是否须要设计更好的 Loss 函数?
- 更多的 Epoch 和更好的超参数。 迫于成本压力,我们今天其实并没有对 AI 模型进行深度优化,甚至没有深度搜刮超参数。这其实也是我之所以对 AI 模型的智能持续增长有信念的原因。我这里的意思不是直接练习更多的 Epoch。明知无效却生硬地跑更多 Epoch 其实是办法纰谬(比如参数量和数据量不匹配)。然则,根本上,更多的 Epoch 代表更多的浮点数、更多的能源。我们须要找到办法去“吃下”更多能源,并转化出更高智能。
有些技巧对大年夜范围落地 AI 异常重要,比如低精度练习、剪枝、量化、蒸馏、PD 分别等推理优化技巧。然则,在一个“算力转智能”极端有效的情况下,这些技巧跟晋升智能上限无关。笔者对这些技巧的供献者异常尊敬,它们在实际落地中至关重要,只是与本文商量的主题无关。
智能增长归根到底照样算力应用问题。假定算力无穷大年夜,比如一个集群的算力达到今天的万亿倍,可能我们会发明更简单的模型构造比 Transformer 和 Next-Token Prediction 的扩大性更好。从 SVM 到 CNN、LSTM、BERT、GPT、MoE:我们始终在寻找能更高效应用算力且具备更好扩大性的办法。这个过程中,核心原因是问题的范围在赓续扩大年夜。
我们在 AI 时代到来之前便已实现气象预告,然而至今仍未能霸占地动预告,尽管两者本质上都是针对地球数据的研究。究其原因,地下构造涉及比大年夜气加倍错综复杂、且变量范围呈指数级宏大年夜的动态多模态数据。这种传统计算模式难以驾驭的高维复杂性,恰好是将来 AI 技巧大年夜有可为的机会地点。
所以,我有信念我们将来会赓续找到更高效的算力应用方法。固然过程中可能会有很多艰苦和低潮,但大年夜趋势弗成阻挡。
最后,借用 Richard Sutton 传授的一句话收尾:人工智能 70 年的研究留给我们最大年夜的经验教训是,依托计算才能的通用办法才是最终的赢家,且具备胜过性的优势。

发表评论 取消回复