在大年夜说话模型快速迈向更强推理才能与更复杂应用处景的过程中,“高低文长度”已经从一个模型设备参数,演变为制约体系才能上限的关键瓶颈。
一方面,长文档懂得、跨轮对话记忆、复杂筹划与长链式推理等义务,对模型提出了远超传统 4k 或 8k 序列长度的需求;另一方面,主流 Transformer 架构中基于全留意力机制的计算模式,在序列长度增长时弗成避免地带来平方级的时光与显存开销,使得“支撑更长高低文”在实际工程中敏捷转化难堪以遭受的成本问题。
环绕这一抵触,稀少留意力几乎成为学术界与工业界的共鸣偏向,但随之而来的,并不是问题的彻底解决,而是一系列新的构造性张力。
以前数年中,大年夜量工作测验测验经由过程引入新的留意力构造、路由机制或可练习稀少模块来缓解计算压力。这些办法在理论复杂度或特定评测上往往表示出色,但在真实模型练习与安排流程中,却逐渐裸露出一个被经久低估的问题:当前大年夜说话模型几乎无一例外遵守“短序列预练习、长序列微调”的练习范式,而一些修改模型架构的稀少留意力筹划例如NSA,在构造、参数或输出情势上与标准 dense attention 存在明显纰谬齐。
恰是在这一背景下,清华大年夜学刘知远团队提出了《InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation》。与以往强调“引入新构造”或“增长可练习模块”的路径不合,这项研究将存眷点前移至一个更基本的问题:稀少留意力是否必须以改变模型构造为价值,才能获得长高低文效力?
为此研究团队提出了一种 dense–sparse 可切换的留意力框架,试图在以原有 dense attention 参数作为肇端点,保持输出情势不变,做到长短文本可同时练习,且能高效地实现从短高低文到长高低文的腻滑过渡。
值得一提的是,这项工作并未将重点放在单一指标的晋升上,而是体系性地从机能保持、练习稳定性以及端到端推理效力三个层面,对这一设计思路进行了验证,从而为长高低文大年夜说话模型的研究与工程实践供给了一条不合于以往的技巧路线。
论文地址:https://arxiv.org/pdf/2509.24663
一次「是否真可用」的实验答复
刘知远分别于 2006 年、 2011 年于清华大年夜学计算机科学与技巧系获得学士、博士学位,并在清华大年夜学开展博士后研究,后留校任教。其重要研究偏向包含大年夜模型技巧、天然说话处理、常识图谱与语义计算以及社管帐算等核心范畴。

在更切近真实应用处景的 LongBench 基准上,这一趋势表示得加倍明显。因为 LongBench 覆盖问答、摘要、推理以及多说话等多种真实义务,其整体难度高于合成数据集,但 InfLLM-V2(Sparse)的整体得分依然达到甚至略微跨越 Full Attention。雷峰网
比拟之下,NSA 的机能明显低于全留意力,而仅依附长度外推的 SHORT+YaRN 方轨则出现了大年夜幅机能退化。研究人员进一步不雅察到,InfLLM-V2 的 dense / sparse 可切换机制在部分义务中反而降低了留意力噪声,从而使模型输出加倍稳定。

在 LongPPL 这一用于衡量长序列说话建模才能的困惑度评测中,InfLLM-V2 的表示与 Full Attention 根本一致,而 NSA 的困惑度明显更高。这一成果解释,NSA 在短到长迁徙练习后并未真正学会建模长程说话分布,其较低的练习 loss 并未转化为有效的长序列建模才能。
刘知远,他是清华大年夜学计算机科学与技巧系传授、博士生导师,兼任中国中文信息学会理事、社会媒体处理专委会副主任等学术职务。

环绕第二个问题,研究团队还体系评估了长链式推理义务,包含 MATH-500、AIME 以及 LiveCodeBench。这类义务的合营特点在于输出序列较长,且中心推理步调高度依附早期高低文信息。
实验成果显示,InfLLM-V2(Sparse)在这些义务上的表示与 Full Attention 几乎持平,而 NSA 在所有相干义务中均出现了明显的机能降低。这直接注解,InfLLM-V2 所采取的稀少留意力机制不会破坏链式思维推理过程中所需的“思保持续性”。

此外,研究人员还验证了一个在工程实践中尤为关键但常被忽视的问题:在完成长高低文微调之后,模型是否仍可以或许胜任惯例短序列义务。在 MMLU、CEval、HumanEval 等评测中,InfLLM-V2 切回 dense 模式后依然保持了与 Full Attention 相当的机能,而 NSA 则出现了明显退化。这一成果从工程角度注解,InfLLM-V2 不会在适配长高低文才能的过程中破坏模型原有的通用才能。

最后,针对第三个问题,研究团队不仅评估了 attention kernel 层面的理论加快后果,还在完全推理流程中测量了 prefilling(TTFT)和 decoding(TPOT)的端到端效力。

成果之外,这项研究的实验实际上答复了一个更根本的问题:为什么 InfLLM-V2 的实验成果并非“有时跑出来的”,而是其设计逻辑在完全练习流程中被体系性验证的必定成果。
研究团队起首指出,实际世界中几乎所有大年夜说话模型都遵守“短序列预练习、长序列微调”的通行范式,是以,任何稀少留意力筹划假如在这一过程中大年夜幅改变参数构造、调剂 attention 的输出情势,都邑直接毁伤模型在短序列阶段已经学到的表示才能。
基于这一实际束缚,研究人员明白设定了 InfLLM-V2 的核心实验前提:在从 dense attention 过渡到 sparse attention 的过程中,必须包管已有 dense attention 的表达才能不被破坏。
在具体练习流程上,研究团队起首采取完全标准的 Transformer 架构对模型进行短序列预练习,模型范围为 8B 参数,应用 GQA 构造,序列长度为 4k。这一阶段未引入任何 InfLLM-V2 相干的稀少机制,确保模型才能完全建立在传统全留意力的基本之上。雷峰网("大众,"号:雷峰网)
随后,在进入长高低文练习阶段时,模型内部仅产生了三项关键变更:当序列长度跨越预设阈值时,attention mask 由稠密情势切换为稀少情势;Key 与 Value 的投影参数被完全复用,不引入新的参数分支;attention 的输出情势始终保持为 single-output 构造,不应用 gating,也不存在多路 attention 输出的聚合。
恰是这种“最小构造扰动”的切换方法,使 InfLLM-V2 可以或许在适配长高低文的同时,最大年夜限度保存原有模型才能,这也构成了其与 NSA 等可练习稀少留意力办法的本质差别。
相干实验进一步验证了一个具有反直觉意味的结论:可练习的稀少 attention 并不必定更合适短到长的迁徙练习。研究人员的分析注解,NSA 在该设定下的机能问题并非源自稀少机制本身,而是因为其引入了三套 Key–Value 投影、多路 attention 输出以及基于 gating 的成果聚合构造。
在可见 token 数为 6k(|I|=96)的设置下,InfLLM-V2 实现了约 2.1× 的 prefilling 加快和 2.3× 的 decoding 加快,并且这一成果是在前馈收集(FFN)部分完全未进行优化的前提下获得的,进一步解释该稀少留意力设计在真实推理场景中具有切实可落地的加快价值。
从构造选择到体系优化

这些额外模块在短序列阶段不仅带来冗余计算开销,还会明显改变留意力分布形态,从而对模型已学到的表示造成干扰。在实验成果中,这一问题具体表示为练习 loss 曲线出现明显震动、长序列困惑度(LongPPL)明显升高,以及长链式推理义务机能的体系性降低。
在工程实现层面,研究团队还经由过程进一步的消融分析定位了 InfLLM-V2 的重要机能瓶颈,发明其集中在 block selection 阶段,尤其是 compression attention 的计算以及 attention score 的显式物化过程。针对这一问题,研究人员在实验中引入了 head-group fusion 和 LSE Approximation 等优化策略。
实验成果注解,这些改进在几乎不影响模型机能的前提下,可以将 block selection 的计算时光降低约 20–30%,从而为后续端到端推理加快实验中不雅察到的明显机能晋升奠定了关键基本。

可「热进级」的长高低文筹划
整体来看,研究的实验设计并非简单地验证“InfLLM-V2 是否有效”,而是环绕三个逐层递进的核心问题展开:第一,在长高低文义务中,该办法的机能是否可以或许切近亲近甚至匹配全留意力机制;第二,在“短序列预练习 → 长序列微调”的真实练习范式下,该办法是否会破坏模型原有才能;第三,在完全推理流程中,稀少留意力带来的计算加快是否可以或许转化为端到端的实际收益。
从研究意义的角度来看,这项研究对“长高低文大年夜说话模型”这一偏向给出了具有办法讲价值的启发。
研究团队明白指出,稀少留意力机制将来的成长重点并不在于设计全新的留意力构造,而在于如安在不破坏既有 dense attention 构造的前提下实现高效的稀少化,这一不雅点在必定程度上改变了此前以“构造立异”为主导的研究范式。
在工程实践层面,InfLLM-V2 所具备的一系列特点正好契合真实工业安排的核心需求,包含无需调剂模型参数范围、无需保护多套模型版本、不会就义短序列义务机能,且不依附从新进行大年夜范围预练习。这意味着,一个已经安排或练习完成的现有大年夜说话模型,可以在最小价值下被“热进级”为具备长高低文处理才能的模型。
在此基本上,研究人员也为后续工作隐含地规定了若干重要束缚:起首,应避免引入额外的 attention 分支,以免破坏原有构造的一致性;其次,不该采取与 dense attention 输出情势不兼容的设计,不然将导致短到长迁徙过程中的才能损掉;最后,稀少留意力的设计必须充分推敲底层计算实现与 kernel 特点,而不仅逗留在概念层面的构造优雅性。
恰是因为该研究将练习范式、模型构造设计以及 CUDA 级实现细节进行了同一考量,并体系性地说清楚明了以往稀少留意力办法在真实练习与推理流程中掉败的原因,才使其不仅逗留在办法层面的提出,而可以或许进一步支撑实际模型的练习与落地应用,这也是研究团队可以或许基于该框架直接产出 MiniCPM-4.1 等模型的重要原因。
InfLLM-V2 重要作者
赵威霖,他是清华大年夜学计算机科学与技巧系天然说话处理实验室(THUNLP)的博士研究生,研究偏向聚焦于高效大年夜说话模型。
他的研究重要环绕模型推理与练习加快展开,存眷点并非纯真引入新的模型构造,而是如安在不破坏标准 Transformer 表达才能与既有模型机能的前提下,实现对各类场景的有效适配与工程级加快。
环绕第一个问题,研究团队重点评测了多种长输入懂得义务。在 32k 长度的 RULER 基准上,InfLLM-V2(Sparse)在绝大年夜多半子义务中的表示几乎与 Full Attention 重合,而练习后稀少办法(如 InfLLM、MInference)在部分义务上出现明显机能断崖,可练习稀少留意力办法 NSA 在短序列到长序列迁徙的设定下也明显落后。
除学术研究外,他还经久介入 OpenBMB、MiniCPM 等开源项目,在高机能 attention kernel、推理优化与体系实现方面承担关键工程工作,其研究成果揭橥于 ICLR、ACL、EMNLP 等国际主流会议。

参考链接:https://weilin-zhao.com
刘知远在国际主流学术会议和期刊(如Nature Machine Intelligence、ACL、EMNLP、IJCAI 和 AAAI)上揭橥了 200 余篇论文,其 Google Scholar 引用量跨越7万次,反应出广泛的学术影响力。
他在多项国度级科研项目中担负负责人或重要介入者,曾获教导部天然科学一等奖、中国中文信息学会钱伟长中文信息处理科学技巧奖一等奖、世界互联网领先科技成果奖、北京市青年教授教化名师奖等多项科研嘉奖,并入选包含国度青年人才筹划、Elsevier 中国高被引学者、《麻省理工科技评论》中国区“35 岁以下科技立异 35 人榜单”及中国科协青年人才托举工程等人才项目。

这一成果注解,InfLLM-V2 的稀少策略并未破坏跨块的长距离依附建模才能,而其他办法要么在 block 选择阶段掉效,要么对原有留意力分布造成了明显扰动。
参考地址:https://nlp.csai.tsinghua.edu.cn/~lzy/zh.html
韩旭,他是清华大年夜学计算机科学与技巧系助理研究员,也是大年夜模型开源社区 OpenBMB 的核心提议人与经久负责人之一。
韩旭经久从事大年夜模型技巧、天然说话处理、常识工程等方面的研究,部分研究也涉及并行计算、异构体系优化等偏向,在国际顶级学术会议及期刊揭橥论文数十篇,Google Scholar 他引 1.6 万余次,曾获教导部天然科学一等奖、世界互联网大年夜会领先科技奖,并入选中国计算机学会(CCF)优博鼓励筹划、清华优良博士后、《麻省理工科技评论》中国区“35 岁以下科技立异 35 人榜单”、及博士后立异人才支撑筹划。

参考链接:https://www.cs.tsinghua.edu.cn/info/1114/6422.htm
肖朝军,他是清华大年夜学计算机系博士后,重要研究偏向为高效大年夜模型架构,在Nature Machine Intelligence、ICML、NeurIPS、ICLR、ACL等国际顶级会议及期刊揭橥论文多篇,曾获钱伟长中文信息处理科学技巧奖一等奖,博士后立异人才支撑筹划,清华大年夜学水木学者,清华大年夜学优良博士论文等荣誉。

参考链接:https://xcjthu.github.io/
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复