NVIDIA创造新技巧KVTC 内存应用量缩减20倍

136 阅读 0 评论 0 点赞

简单来说，KVTC技巧的核心就是紧缩大年夜型说话模型背后的KV缓存——它相当于AI模型的“短期记忆”。我们可以把KV缓存懂得成学生记笔记：模型处理对话时，会把关键信息（也就是Key和Value）记下来，下次生成回应时，不消从头从新计算整段对话，响应速度就能大年夜幅晋升。

但问题是，对话越长，这份“笔记”就越大年夜，甚至会膨胀到几个GB，占用大年夜量GPU内存，反而拖慢模型运行、限制其处理才能。

NVIDIA资深深度进修工程师Adrian Lancucki表示：“大年夜型说话模型进行推论时，机能瓶颈往往不在运算才能，而在GPU内存。”那些临时不消的KV缓存，会一向占用宝贵的GPU资本，逼得体系只能把它们转移到CPU内存或硬盘里，如许不仅会增长数据传输的包袱，还可能出现新的卡顿问题，这些额外成本最终也会表如今企业的应用费用中。

和现有紧缩技巧比拟，KVTC没有那些明显的局限，它借鉴了我们熟悉的JPEG图片紧缩思路，经由过程“主成分分析、自适应量化、熵编码”三个简单步调，就能实现高效紧缩。

更便利的是，这项技巧不消修改模型的核心设置和代码，属于“非侵入式”设计，企业拿来就能快速安排。它的核心优势是，能抓住KV缓存“数据高度相干”的特点，在保存关键信息的同时，去掉落冗余数据，并且解压时可以分块、逐层进行，不会影响模型及时回应。

多轮测试显示，KVTC的表示远超现有主流办法。在参数量从15亿到700亿的多种模型（包含Llama 3系列、R1-Qwen 2.5等）上，即便将内存紧缩20倍，模型精确率也几乎不受影响，损掉不到1%，与未紧缩时相差无几；而传统紧缩办法仅紧缩5倍，就会出现明显的精确率降低。

须要留意的是，KVTC更合适长对话、多轮互动场景，比如编程助手、迭代式代理推理等，若对话较短，很难发挥其紧缩价值。

今朝，NVIDIA正筹划将这项技巧整合进Dynamo框架的KV块治理器，使其能与vLLM等主流开源推论引擎兼容。

别的，在H100 GPU上处理8000个Token的提示时，不应用KVTC须要3秒才能生成第一个回应，应用后仅需380毫秒，提速整整8倍。

业内人士认为，跟着大年夜型说话模型可处理的对话长度赓续增长，KVTC这类标准化紧缩技巧，将来可能会像视频紧缩一样普及，助力AI更广泛地落地应用。

点赞(0) 打赏

本文分类：互联网
本文标签：nVIDIA NVIDIA发明新技术KVTC 内存使用量缩减20倍
浏览次数：136 次浏览
发布日期：2026-03-23 16:33:34
本文链接：https://www.fqpy.com/internet/11518

评论列表共有 0 条评论

暂无评论

NVIDIA创造新技巧KVTC 内存应用量缩减20倍

黄仁勋回应Anthropic与美军方争执：科技领袖不要制造AI惊恐

黄仁勋：NVIDIA从来不反CPU 但他们单核太弱了

NVIDIA创造新技巧KVTC 内存应用量缩减20倍

黄仁勋针对DLSS 5的表述似乎与自家员工的说法抵触

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复