图1:黄仁勋开端发力推理芯片

固然不合类型的数据对应的换算范围有所不合,但平日认为一个词元大年夜约相当于四分之三个英文单词。以“今天气象怎么样?”如许简单的聊天机械人查询为例,模型会将其解析为六到八个词元。

从练习到推理

如今,跟着越来越多的公司安排AI智能体,并试图将基于大年夜说话模型构建的新对象贸易化,核心已转向推理:这种计算方法能让练习好的AI模型响应用户的查询。

根据研究机构Gartner的数据,本年全球在推理基本举措措施(包含芯片、数据中间和收集硬件)上的本钱支出,估计将初次跨越练习本钱支出。到2029年,企业在推理上的投入将达到720亿美元,是练习投入370亿美元的近两倍。

推理支出将跨越练习

这一改变意味着,科技公司购买的芯片类型将产生重大年夜变更。英伟达之所以成为全球市值最高的公司,靠的是发卖名为GPU的芯片,这类芯片具备模型练习所需的原始处理才能。但乔治城大年夜学研究AI的学者雅各布·菲尔德戈伊斯(Jacob Feldgoise)表示,那些预期将进行更多推理工作的公司,可以经由过程应用专门为推理义务优化的芯片来获得机能晋升。

专学临盆推理芯片的制造商包含谷歌、Cerebras Systems、SambaNova等,他们正以越来越快的速度签下价值数十亿美元的订单。英伟达则预备推出本身的推理专用处理器,此前该公司于客岁12月斥资200亿美元,获得了定制推理芯片公司Groq的技巧授权并吸纳其顶尖人才。

那么,毕竟什么是推理计算?它与练习所需的计算有何不合?为什么需求如斯敏捷转向推理?这对市场又意味着什么?

推理计算的道理

芯片制造商格芯的CEO蒂姆·布林(Tim Breen)表示,这使得推理芯片高效输出成果的才能变得尤为重要,“如今,降低推理成本才是关键地点”。

你可以把AI想象成一家餐厅。模型就是那位厨师。在经由一段时光的密集培训,进修了数百甚至数十亿个食谱和烹调技能后,它就可以开端接单了。

推理就是这家餐厅的日常运营。门客下单(平日以向聊天机械人提问的情势),厨师备餐(聊天机械人生成回应)。

推理的道理

推理包含两个阶段,即预填充和解码。当用户输入提示词时,预填充阶段开端,模型经由过程处理个中的每个单词、符号或图像来解读用户的查询。

解码则是模型应用其在练习中学到的一切,生成查询响应的过程。

推理的这两个阶段对芯片有着不合的请求:预填充阶段须要更强的处理才能,而解码阶段则须要更大年夜的内存,部分原因在于它必须调动所积聚的全部常识,才能为用户呈上新鲜出炉的“词元”(token)。

什么是词元?

词元是用于处理查询并生成响应的根本数据单位。

词元

模型平日逐次生成一个词元,并且必须按精确的次序输出每个词元,如许才能包管答复通顺合理。

今朝,那些正试图将AI对象变现的公司,从管帐软件、观光预订办事到图像生成器,都痴迷于诸如“每瓦每秒生成的词元数”或“每美元每秒生成的词元数”这类成本指标。

练习与推理芯片的差别

因为练习须要在长时光内处理海量数据,所采取的芯片必须具备强大年夜的处理才能,且芯片地点的数据中间必须可以或许获得充分的能源以及用于冷却芯片的水。练习同样须要内存,但假如GPU内存不足,可以将部分处理义务分派给其他芯片,或者等待现有内存释放。

比拟之下,推理过程是按需进行的,耗时以秒计,而非数周。“跨越十秒钟,用户就已经开端用大年夜拇指敲手机屏幕,预备去做下一件事了。”芯片设计公司SambaNova的CEO罗德里戈·梁(Rodrigo Liang)表示。

是以,推理芯片必须配备更大年夜容量的高带宽内存,且其地点的数据中间必须邻近用户集合区以降低延迟。像Ayar Labs如许的芯片创业公司也越来越多地采取光纤连接组件,光纤的数据传输速度比铜缆更快,且所需冷却更少。

Ayar Labs CEO马克·韦德(Mark Wade)表示:“如今,一切都环绕着推理范围化展开。”

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部