实验数据注解,TurboQuant在点积掉真和召回率方面均达到了最优评分机能,同时最大年夜限度地削减了键值(KV)内存占用。

这一算法一经宣布,美股芯片股回声下挫。Google和华尔街也掀起了一场热烈评论辩论:当前困扰浩瀚科技巨擘的内存芯片缺乏灾害是否可以就此终结了?
TurboQuant是什么?
根据Google在官方网站的介绍,TurboQuant是一种紧缩办法,它可以或许在不损掉任何精度的前提下大年夜幅减小模型大年夜小,是以异常合适支撑键值缓存(KV Cache)紧缩和向量搜刮。它经由过程两个关键步调实现这一点:
先来说说这项TurboQuant算法具体是什么。
1、高质量紧缩(PolarQuant method):TurboQuant 起首随机扭转数据向量。这一奇妙的步调简化了数据的几何构造,使得可以轻松地将标准的高质量量化器分别应用于向量的每个部分。第一阶段应用了大年夜部分紧缩才能(大年夜部分比特)来保存原始向量的重要概念和特点。
2、清除隐蔽误差:TurboQuant 应用少量残剩的紧缩才能(仅1比特)将QJL算法应用于第一阶段遗留的渺小误差。QJL 阶段充当数学误差检查器,清除误差,从而获得更精确的留意力评分。
简单来说,TurboQuant本质上就是在保持AI模型核心构造不变的情况下紧缩AI模型,并且无需预处理或特定的校准数据。
Google声称,他们应用开源的长高低文模型(Gemma和Mistral ),在包含LongBench、Needle In A Haystack、ZeroSCROLLS、RULER和L-Eval在内的多项基准测试中,对 TurboQuant、PolarQuant 和KIVI这三种算法进行了严格评估。

Google称,TurboQuant在所有基准测试中均取得了完美的下流成果,同时将键值内存大年夜小至少削减了6倍。
他们筹划鄙人个月的ICLR 2026会议上展示他们的研究成果,以及展示实现这种紧缩的两种办法:量化办法PolarQuant和名为QJL的练习和优化办法。
Google迎来DeepSeek时刻?
Google的这一算法,令不少人联想到了HBO电视剧《硅谷》(2014年至2019年播出)中虚构的创业公司Pied Piper。在电视剧中,Pied Piper同样开辟出一种冲破性的紧缩算法,能在近乎无损紧缩的情况下大年夜幅减小文件大年夜小。

上图展示了TurboQuant、PolarQuant 和KIVI基线算法在问答、代码生成和摘要等不合义务中的综合机能得分。
而实际中的Google研究院宣布的TurboQuant技巧,同样致力于在不损掉质量的前提下实现极致紧缩,但它应用于人工智能体系的核心瓶颈。
是以,这并非存储总需求或硬件总量削减6倍,而是经由过程效力晋升增长单GPU吞吐量——雷同硬件可支撑4至8倍更长的高低文,或在不触发内存溢出的前提下明显晋升批处理范围。
Cloudflare首席履行官Matthew Prince等人甚至称之为Google的DeepSeek时刻,认为其有望像DeepSeek一样,经由过程极高的效力收益大年夜幅拉低AI的运行成本,同时在成果上保持竞争力。

他在X上的一篇文章中写道:“在速度、内存应用、功耗和应用率方面,AI推理还有很大年夜的优化空间。”
内存芯片需求将会降温?
Google的这一算法宣布之际,正值全球存储芯片缺乏问题日趋严格的时刻。
因为全球各大年夜巨擘全力兴建AI基本举措措施,内存需求赓续攀升,供不该求的现象短期内难以缓解。各大年夜科技公司开辟人员已经想出各类立异办法来克服或至少应对内存缺乏,而Google的TurboQuant,今朝被科技界人士认为,很可能成为一种给内存需求降温的可持续筹划。
这一预期对于致力于扶植AI基本举措措施的科技巨擘们来说,天然是一件功德。但对于内存芯片厂商们来说,可能成果就不合了。
受到内存需求可能降温预期的影响,美东时光周三,美股存储芯片板块在开盘后不久就集体跳水:闪迪一度跌6.5%,美光科技跌4%,西部数据跌超4%,希捷科技跌超5%。

闪迪周三早盘一度大年夜跌
周四亚洲时段,截至发稿时SK海力士下跌4.42%,三星跌3.02%。
Futurum股票研究部分的Shay Boloor声称:
“市场认为这对内存类股票来说是一个潜在的晦气身分,因为长高低文AI推理每个工作负载可能须要的内存如今可能大年夜幅削减。”
大年夜摩提出相反不雅点
不过,也有华尔街巨擘提出了相反的看法。
比如,Lynx Equity Strategies分析师KC Rajkumar就提出,TurboQuant的技巧“颠覆性”可能并没有媒体描述的那么夸大。
他表示,Google所谓的“8倍机能晋升”是建立在与老旧的32-bit模型比较之上的,然而当前的推理模型早已广泛采取4-bit量化数据,是以机能晋升幅度并没有那么夸大。
此外,摩根士丹利还指出,GoogleTurboQuant技巧仅感化于推理阶段的键值缓存,不影响模型权重所占用的HBM,也与练习义务无关。
更重要的是,摩根士丹利进一步援引了“杰文斯悖论”(Jevons Paradox),来解释内存需求不会降温的断定。
杰文斯悖论是经济学中的一个重要概念,指的是技巧进步与资本消费之间的一种反直觉关系。其定义是:当技巧进步进步了效力,资本消费不仅没有削减,反而激增。例如,瓦特改进的蒸汽机让煤炭燃烧加倍高效,但成果倒是煤炭需求飙升。
摩根士丹利认为,经由过程大年夜幅降低单次查询的办事成本,TurboQuant可以或许让本来只能在云端昂贵集群上运行的模型迁徙至本地,有效降低AI范围化安排的门槛,这可能反而能进一步提振整体需求。
实际上,Cloudflare首席履行官Matthew Prince等人提到的DeepSeek,就是杰文斯悖论的最光鲜例子:在DeepSeek客岁事首年代方才宣布时,市场也一度担心AI硬件需求将会降温,但事实是,效力的晋升带来了AI应用的进一步普及,AI硬件需求也再次升温。

发表评论 取消回复