胡侠团队便针对这一目标提出了一项最新研究筹划——“经由过程有损计算(Lossy Computation)来进步大年夜说话模型的推理效力”。这项研究的根本思路是,应用大年夜说话模型对来自低精度计算等“有损”操作产生的噪声具有极强鲁棒性这一特点,主动引入可控的、不伤害机能的信息损掉,以换取明显的效力晋升。

针对这两项挑衅,团队提出的“经由过程有损计算(Lossy Computation)来进步大年夜说话模型的推理效力”筹划,实现了两项关键技巧冲破:一是在算法层面,经由过程粗化远距离标记的地位信息,成功将大年夜说话模型的语境长度扩大至原有程度的 8 倍;二是在体系层面,将过往标记的中心状况(KV Cache)量化为 2 比特数字,实现了 8 倍内存效力的晋升和 3.5 倍时钟时光加快的重大年夜进展。

胡侠是人工智能范畴的国际知逻辑学者,经久从事数据发掘、机械进修和人工智能研究,今朝是上海人工智能实验室主任助理、领军科学家,曾担负美国莱斯大年夜学正传授、数据科学中间主任,亦是AIPOW公司结合开创人兼首席科学家。其主导开辟的开源体系 AutoKeras 成为最常用的自念头器进修框架之一(跨越 8000 次 star 及 1000 次 fork),开辟的 NCF 算法及体系(单篇论文被引用超 8000 余次)成为主流人工智能框架 TensorFlow 的官方推荐体系,主导开辟的异常检测体系在通用、Trane、苹果等公司的产品中获得广泛应用。

关于这两项关键技巧的相干细节以及应用前景,近日我们跟胡侠传授聊了聊,以下内容经由不改变原意的编辑、整顿:

从模糊的高低文地位信息以及模糊的 KV Cache 两点入手做“有损计算”

雷峰网:请您先简单介绍下"经由过程有损计算实现高效大年夜说话模型推理"的具体思路?

胡侠:我们根据大年夜说话模型对来自低精度计算等"有损操作"产生的噪声具有极强鲁棒性这一特点,主动引入可控的、不伤害机能的信息损掉,可以或许极高地供给推理效力,实际上是用精度换取效力的思路。我们的"有损计算"重要实施方法是两种,一是在算法层面,不要用高低文精确的相对距离来进行计算,而是经由过程粗化远距离标记的地位信息,成功将大年夜说话模型的语境长度扩大至本来程度的 8 倍;二是在体系层面,将以前令牌的中心状况(KV Cache)做响应的量化,量化为 2 比特数字,可以实现 8 倍内存效力晋升和 3.5 倍实际速度加快,且不影响模型机能。

雷峰网:“有损计算”的灵感是否部分源于对大年夜模型本身作为一种“有损世界紧缩器”的理论认知?

胡侠:全部筹划的灵感来源于深度进修,深度进修中有两个重要的发明。一个是模型的参数量实际上比模型的精度更重要,我们做了很多实验,个中一堆实验都注解相对大年夜的模型比相对精确的模型,它的推理无论是效力照样精确度来讲都更好。

第二个重要发明是在深度模型中,当我们把很多参数删掉落今后,模型的精确率损掉异常小。

于是我们就想到了如何从模糊的高低文信息以及模糊的 KV Cache 这两点入手做有损计算。具体举个例子,比如我们读书时,当我们试图记忆高低文,比如想知道上一章出现了一个什么故事,但我们不须要知道这个故事产生在第 265 个字之前照样第 257 个字之前,我只须要知道大年夜概两三百个字之前出现了这么一个故事就行了。

雷峰网:您的"有损计算"筹划重要经由过程两种筹划,个中经由过程粗化地位信息来扩大高低文,这种粗化策略是静态,照样根据文本内容动态调剂的?

胡侠:都不是,它实际上是根据当时高低文的须要进行动态调剂的。

雷峰网:第二种办法是将 KV Cache 紧缩到 2 比特,这是一项异常激进的优化,在这个过程中您以及您团队碰到最大年夜的挑衅是什么?

胡侠:全部研究最大年夜的挑衅就是紧缩到 2 比特今后,在这种低精度表示的情况下是否还可以或许让模型保持响应的精确率,所以必须经由过程大年夜量实验来解决。

固然我们在实验情况下紧缩到 2 比特是可行的,但在实际应用中很少有人这么做,工业界主流的优化手段例如 DeepSeek 是紧缩到 8 比特,在实际应用中紧缩到 4 比特已经异常激进了,2 比特如今更多照样一个实验室的成果。

紧缩可以或许进步模型的工作效力,这已经形成了广泛共鸣,紧缩办法是最大年夜的挑衅,所以我们的工作最大年夜的供献就是对 Key Cache 和 Value Cache 的紧缩方法是不一样的。

雷峰网:紧缩 KV Cache 后,能实现什么价值?

胡侠:KV Cache 是大年夜模型练习和推理中最重要的一个中心存储状况,KV Cache 直接跟 GPU 的内存相干,例如A100 80GB,个中的 80GB 就是它的内存,而 80GB 傍边可能有 90% 以上的用处都是用来存 KV Cache,它是计算中一个最重要的中心存储计算对象。

假如从 16 比特压到 2 比特,就相当于紧缩了近 10 倍,就相当于可以或许让 80GB A100 的 GPU 增长了 10 倍的存储量,这就异常有价值了,因为一块通俗的 GPU 就是两三万美金,假如能增长 10 倍存储量的话,粗算下来相当于把 2 万美金的 GPU 直接增值到 20 万美金。

雷峰网:这两个办法重要在哪些模型上实验过?

胡侠:我们重要的成果是在 llama 上做的。两篇文章都是 2024 年发的。

雷峰网:您团队开辟的 AutoKeras 等开源项目已被广泛采取。对于这项有损计算技巧,您是否也筹划经由过程类似的路径来推动其工业界采取?

胡侠:已经有很多主流的开源软件包都在应用了,像 hugging face 的 transformer,llama.cpp 都在应用这两个办法。

雷峰网:您的筹划跟当前其他一些推理办法,比如混淆专家模型 MoE,模仿计算等,在哲学和技巧路径有和根本不合?

胡侠:哲学上是差不多的,有句话叫 no free lunch,我们获得的是它的效力,损掉的是精度,就看损掉的精度会不会影响模型的精确性。然则我们寻求的并不是模型的精度,而是最后的精确率。所以哲学上都是经由过程一些办法来让模型效力更快,在快的同时还不掉落点,即精确率还不会降低。

技巧上就完全不一样了,MoE 是经由过程 sparsity(稀少性)来解决问题。举个例子,比如你读篇文章,sparsity 意味着有些词就完全不读,删掉落,而我们的粗化地位信息方轨则是都要读完,然则读的异常快,不消去记精确的地位,我只知道它可能在 1~10 之间,20~30 之间,但不须要去记地位是 5 照样 16。

“有损计算”在模型处理不合义务的精确率不合

雷峰网:假如模型在生成过程中忽然须要回想一个之前被剖断为“不重要”并丢弃的信息,您的算法若何应对这种“大年夜海捞针(Needle- in-a-Haystack)”的掉败风险?

胡侠 :模型不消非要去看之前的绝对地位,所有的模型的目标都是在最后生成精确的谜底即可。

胡侠:我认为可以这么讲,这个讲法对我来说还挺新鲜。

雷峰网:该“有损计算”筹划对于模型处理不合义务的影响是雷同的吗?

雷峰网:从柯氏复杂度和最小描述长度的角度看,练习大年夜模型是寻找数据背后的最短法度榜样,那么您认为在推理阶段进行有损计算,是否可以懂得为在特定义务和高低文束缚下进一步寻找“最短的运行时法度榜样”?

胡侠认为,大年夜说话模型虽已实现类人对话才能,但在处理医疗范畴长篇文献信息提取等长语境义务时,面对着“预练习长度限制”与“推理内存需求激增”的双重挑衅。

雷峰网:若何评估并确保这些“有损操作”没有过度?

大年夜模型中的“有损计算”是经由过程有选择地就义一部分精度来大年夜幅降低计算或者存储成本,从而晋升推理效力,重要环绕模型参数量化、KV Cache 紧缩、模型剪枝与常识蒸馏等核心路径展开。

胡侠:这是个很好的问题。我们更多是用大年夜量实验来看是否过度,比如说如今常见的是 16 比特,毕竟要紧缩到 8 比特、照样 4 比特、照样 2 比特,这就要根据实际需求来断定,因为模型精确率的降低曲线在不合的义务上也是不合的。当实验时模型的精确率已经开端大年夜幅降低了,就压过火了,就不克不及再压了。

雷峰网:您提到紧缩时,模型精确率的降低曲线在不合义务上不合,是否可以举例在哪些义务上出现明显不合?

胡侠:我们实验比较多的义务,包含多模态的义务、classification 的义务,主如果答复问题,即 chatbot 的精确率在紧缩到 2 比特的时刻不会掉落点,然则可能用来做生成法度榜样比较艰苦。我们的有损办法对生成法度榜样这种对精度请求异常高的义务可能会影响其精确性,我们没做响应的实验,但我感到可能比较艰苦。

雷峰网:经历了若干次实验才发明将 KV Cache 紧缩到 2 比特的时刻掉落点很少?

胡侠:很难讲,因为这个项目也不是凭空从头开端做的,也是基于我们之前很多其他工作积聚出来的。我们在经由过程不合方法跑通大年夜模型的过程中赓续做各类实验,然后发清楚明了这个现象,但我们也不是第一个做紧缩的人,做紧缩的人很多。但我们重要供献了一种新的紧缩办法,就是 Key 跟 Value 这两种 Cache,所以叫它 KV Cache,之前大年夜家都用同一种办法来紧缩这两种 Cache,但我们比较立异地将 Key 跟 Value 按照不合的紧缩办法紧缩,可以让它在 2 比特的时刻掉落点异常少或者几乎不掉落点,这是最大年夜的一个供献。

雷峰网:那有没有实验证实紧缩到 1 比特的时刻,开端出现大年夜的掉落点?

胡侠:弗成能 1 比特,1 比特就相当于只用 0 和 1 来表示,全部矩阵就是 0、1,信息量太少了。

该“有损筹划”应用的潜力若何

雷峰网("大众,"号:雷峰网):在司法、医疗这种对精确性请求极高的场景,您的有损计算筹划是否完全不克不及应用到这些场景?

胡侠:如今我们的筹划更多是针对说话大年夜模型,但对于多模态大年夜模型或者其他智能体的后果是不合的,其他的我们也没有实验去支撑,所以很难讲后果会好照样不好。但从机理上来讲,我们大年夜概的思路就是用精度换效力,但这个损掉的精度并没有伤害到模型的精确率。所以从大年夜的逻辑上来讲对很多义务应当没有太多影响,但具体义务也要具体分析。

胡侠:实际上,司法跟医疗没有大年夜家想象的对精确性请求那么高,因为它照样基于大年夜量统计信息,比如要断定某小我是否患有某种疾病,信息来源异常多,这就是为啥中医、西医都可以断定有没有病,做血检也可以。所以不须要那么多的信息就可以做出异常精准的断定了。

这跟大年夜家想象的可能不太一样,反而须要精确地控制的比如说做一道数学题,写一个法度榜样,而断定一小我有没有什么疾病,在多半情况下数据好的话是一个比较简单的义务。

雷峰网:您的有损计算筹划可以应用到哪些场景?

胡侠:如今主如果 chatbot,我们在医疗健康范畴应用的是一个基于罕有病的问诊体系,假如一小我出现一些症状,他是否可能有某种罕有病就可以问这个体系,后果照样异常好的。医疗范畴现有的体系、有关罕有病的数据创建得特别少,因为一个大夫没办法囊括几千种罕有病,然则大年夜模型可以,并且具有了长高低文才能的大年夜模型可以或许做得更好。

雷峰网:您的研究成果是否推敲了与特定硬件(如内存计算、低精度AI芯片)的协同设计?要发挥最大年夜潜力,是否须要硬件层面的响应变革?

胡侠:如今还没有推敲硬件。但 KV Cache 存在于 GPU 上,实际上是专用于 GPU 的一种办法,这个层面是推敲了硬件的。

雷峰网:假如推理阶段我们可以丢弃 80% 的信息而不影响后果,这是否反向解释,今朝的模型架构在预练习阶段就存在巨大年夜的效力浪费,将来的架构是否应当直接把这种稀少性设计在预练习阶段,而不是留给推理阶段来解救?

胡侠:这倒是一个好问题,你可以这么讲,可能有一个新的架构会更好地应用这些信息让预练习变得更高效,而不然则推理阶段。

雷峰网:您的这个研究是否对于大年夜模型安排到手机上或者笔记本电脑等端侧的意义更大年夜?

胡侠:很难讲,实际上如今不管用 DeepSeek 照样其他大年夜说话模型,不知道你留意到没,点了发送键后,照样要等好一会儿才会出成果,原因就是它推理太慢了,所以在 server 端还没解决推理慢的问题,还没到研究是否到端侧更有效的地步。

雷峰网:您认为有损计算的下一个前沿会是什么?

然则这场有关晋升大年夜模型高低文长度的“军备赛”依然不会停止,这是一项巨大年夜的工程与效力之战。因为超长下文为模型智能供给了最广阔的发挥空间——在处理如金融、司法、医疗等范畴的长语境义务是表示更好。所以谁能率先冲破更长高低文处理才能,便有机会创造出更大年夜的贸易与技巧价值。

胡侠:我认为更多的是比如 2 比特能不克不及真的应用到实际中,什么情况下能用,什么情况下不克不及用,如今还不是特别清楚。还有就是理论研究得跟上,如今更多是实验型的研究。从哲学上来讲有太多可以有损的处所,但具体一个体系的实现,从设计出来到最后落地哪些处所可以有损,哪些不克不及有损,这个中还有蛮多可以做的工作。

雷峰网:您的高效推理筹划是“即插即用”的照样要针对特定的模型甚至特定的垂直范畴数据进行额外的微调呢?

胡侠:它好就好在是“即插即用”的,并且实现的道理异常简单大年夜家都能懂得,因为这些身分如今用户很多。


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

今朝,不合大年夜模型厂商宣布的大年夜说话模型在处理超长高低文方面已经有明显冲破,最高的已能支撑数百万 Token 的输入,例如 MiniMax-M1、Qwen2.5-1M 系列模型,均支撑百万Token(1M)级其余超长高低文处理才能。

上海AI Lab胡侠:KV Cache紧缩之后,可让价格2万美金的GPU发挥出20万美金的价值 | GAIR 2025

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部