西湖大年夜学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

93 阅读 0 评论 0 点赞

以前一段时光，AI 视频最让人惊艳的，往往都是前几秒。人物状况天然，光影氛围到位，动作也足够流畅，很轻易让人产生一种感到，视频生成已经离真正可用不远了。

比如一段厨房视频里，镜头从备菜推动到下锅，再切到摆盘，不雅众等待看到的是同一个空间、同一套器具和同一份食材被天然地串联起来。再比如一段城市通勤视频里，人物从地铁口走到街边商号，镜头可以变更，但人物状况、情况关系和动作逻辑不克不及越走越散。

但行业越往前走，问题也越清楚，真正难的从来不是做出一小段漂亮画面，而是能不克不及把这种质量稳定地延续下去。一旦视频时长被拉长，很多模型就会开端慢慢掉稳，人物、场景和动作外面上还在延续，内部却已经出现细节漂移和时序松动。

这也是为什么，今天 AI 视频行业真正卡住的处所，已经不只是能不克不及生成片段，而是能不克不及生成持续、稳定、可以承载完全情境的内容。

只有解决这种长时光稳定性问题，AI 视频才真正有机会从展示走向创作和临盆。也恰是在如许的背景下，西湖大年夜学的张驰团队提出了《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》。

这项研究存眷的，不是如何把某一帧做得更亮眼，而是为什么模型在短视频里表示很好，一旦进入长视频生成，质量就会越来越难保持。也正因为它抓住了这个行业里越来越核心的问题，所以这项研究不只是一次惯例优化，而更像是在答复，AI 视频从短片段走向长内容时，毕竟卡在了哪里。

西湖大年夜学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

论文地址：https://arxiv.org/pdf/2603.25209

更长的视频，更明显的优势

在 Wan2.1-T2V-1.3B 上，研究人员把视频长度扩大到 2 倍和 4 倍之后，发明 FreeLOC 的优势异常稳定，并且视频越长，这种优势越明显。

先看 2 倍长度，也就是 161 帧的成果。主体一致性达到 98.06，背景一致性达到 97.49，活动腻滑达到 98.98，解释在人物、场景和动作持续性上，它都已经处在最好或接近最好的程度。

更凸起的部分在画质相干指标上。图像质量达到 68.31，明显高于 Direct 的 60.34，也高于 Sliding Window 的 64.64 和 FreeNoise 的 67.19。美学质量达到 62.33，而其他办法大年夜多只在 52 到 56 之间，所以这一项的领先尤其明显。

动态程度也达到 39.41，已经接近最佳。换句话说，在 2 倍长度下，FreeLOC 不是只在某一个指标上占优，而是在稳定性、清楚度和整体不雅感上都表示更强。

到了 4 倍长度，也就是 321 帧，长视频生成的难度会明显上升，因为模型更轻易出现内容漂移、画面变糊或者动作掉真。但研究成果注解，FreeLOC 在这种更苛刻的设定下仍然能保持很强的表示。

主体一致性达到 98.44，仍然几乎是最高程度。图像质量达到 67.44，而 Direct 已经掉落到 59.21，差距达到 8.2。美学质量达到 61.21，Direct 只有 49.43，差距进一步扩大年夜到 11.8。动态程度达到 36.27，而 Direct 只有 4.32，差不多已经是数量级上的差别。

这个成果解释，跟着视频长度持续增长，很多办法会越来越难保持质量，但 FreeLOC 仍然能把画面质量和动态表示保持在较高程度，所以它的优势不是有时，而是在高难度长视频场景里依然成立。

西湖大年夜学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

这种晋升并不只涌如今一个模型上。研究团队又在 HunyuanVideo 上做了同样的测试，成果趋势依然一致。2 倍长度，也就是 253 帧时，图像质量达到 68.92，美学质量达到 62.38，都是最高，主体一致性也有 97.92，优于大年夜多半办法。

到了 4 倍长度，也就是 509 帧，图像质量仍有 67.92，美学质量仍有 61.09，动态程度达到 39.28，也接近最佳。也就是说，FreeLOC 的后果并不是只在 Wan2.1-T2V-1.3B 上成立，而是在另一套视频生成模型上也能复现出雷同趋势，这就解释研究提出的办法具有比较明显的跨模型通用性。雷峰网("大众,"号：雷峰网)

为了进一步解释这种晋升到底来自哪里，研究团队还做了消融实验，把办法拆开来看。只应用 TSA 时，图像质量是 65.87，美学质量是 57.05，解释零丁处理长高低文问题已经能带来可见晋升。

只应用 VRPR 时，图像质量是 61.88，美学质量是 54.13，解释零丁修改地位问题也有效，但感化还不敷强。假如把 TSA 和 VRPR 一路加上去，却对所有层同一处理，图像质量是 65.19，美学质量是 56.34，固然比只用一个模块更好，但仍然不是最佳成果。

更关键的是，研究人员还测试了随机分派到不合层的做法，成果图像质量反而掉落到 63.90，这解释模块本身并不是随便放在哪里都行，真正重要的是放在哪些层上。按层选择之后，也就是 FreeLOC 的做法，图像质量达到 67.44，美学质量达到 61.21，都是最高。

这一部分实验最想解释的是，机能晋升不只是因为多加了两个模块，而是因为研究人员发明不合层对不合问题的敏感程度并不一样，所以必须做分层处理，而这恰是 FreeLOC 最核心的立异点之一。

西湖大年夜学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

研究人员还进一步比较了不合的地位处理方法和不合的留意力机制。在地位处理上，他们比较了 Clipping、Grouping 和 VRPR，最后发明 VRPR 的后果最好，图像质量达到 68.84，美学质量达到 61.21，都明显领先。这解释多粒度的地位重编码确切比简单截断或者简单分组更有效。

在留意力机制上，研究又比较了 Sliding Window、Selected Frame Attention 和 TSA，成果 TSA 依然最好，图像质量达到 68.84，美学质量达到 61.21。这意味着，纯真用滑动窗口固然能缩小留意力范围，但会损掉一部分长程信息，而 TSA 能在控制高低文长度的同时，尽量保存长距离时序接洽关系，所以整体表示更强。

西湖大年夜学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

把这些实验合在一路看，研究团队实际上是在证实一件事，FreeLOC 的优势不是只表如今某一个局部技能上，而是来自一整套更合理的设计，包含地位重编码、留意力控制，以及最关键的分层应用策略。

整体来看，这组实验传递出的结论异常清楚。无论是在 Wan2.1-T2V-1.3B 照样 HunyuanVideo 上，无论是在 2 倍长度照样 4 倍长度设置下，FreeLOC 都能同时晋升视频的稳定性、清楚度、美感和动态表示，并且越到更长、更难的生成场景，这种优势越明显。

西湖大年夜学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

从设置到机制，一步步验证

在实验设置上，研究团队选用了两个公开可用的视频生成模型，分别是 Wan2.1-T2V-1.3B 和 HunyuanVideo，用来验证 FreeLOC 是否具有跨模型的实用性。

如许的比较覆盖了今朝比较常见的长视频生成思路，有的是最直接的基线办法，有的是经由过程局部窗口保持持续性，也有的是已有的练习免费办法，所以可以或许比较周全地看出 FreeLOC 比拟其他筹划到底强在哪里。

视频生成时，研究人员把输出分辨率同一设为 480p，也就是 832 × 480，并且重点测试了把视频长度扩大到 2 倍和 4 倍之后的生成后果。如许做的目标很明白，就是看模型在视频明显变长之后，是否还能保持本来的画面质量和时序稳定性。雷峰网

西湖大年夜学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

质量方面重要看 Imaging Quality，也就是画面清楚度，Aesthetic Quality，也就是整体视觉美感，以及 Dynamic Degree，也就是视频的动态表示强不强。如许一来，研究考察的就不只是纯真的清楚度，而是把人物稳定、背景稳定、动作持续、画面质量和不雅感都纳入了评估范围。

除了惯例的比较实验，研究团队还做了一个很关键的探测实验，也就是逐层分析 Transformer。具体来说，研究人员会对每一层施加扰动，然后不雅察两个成果，一是视觉质量到底降低了若干，二是 attention 的变更到底有多大年夜。

经由过程这种办法，他们发明不合层对问题的敏感性并不一样，有的层更轻易受到地位变更的影响，有的层更轻易受到长高低文扩大的影响。这个发明异常重要，因为它直接支撑了 FreeLOC 后面的分层处理思路，也就是不是所有层都一视同仁，而是要针对不合层采取不合修改方法。

研究还专门验证了两类核心的 O.O.D 问题。第一类是地位 O.O.D，做法是改变帧之间的相对地位关系，然后不雅察生成质量会不会降低。第二类是长度 O.O.D，做法是直接增长视频长度，再计算 attention entropy，也就是留意力分散程度。

实验成果注解，视频长度一旦增长，attention 就会变得更分散，而留意力越分散，生成质量往往越差。也恰是基于这两类问题的验证，研究团队才进一步提出了后面的 VRPR、TSA 和分层适配策略。整体来看，这一部分实验经由的意义就在于，研究并不是只做成果比较，而是先把问题来源拆清楚，再针对性地设计解决办法。

西湖大年夜学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

从「能生成」走向「能应用」

这项研究的意义，不只是把长视频生成的成果做得更好，而是把问题背后的原因说清楚了。研究团队指出，长视频之所以轻易出现画面变糊、动作不连贯、人物不稳定这些问题，核心来自两类 O.O.D，也就是地位 O.O.D 和高低文 O.O.D。

这个断定很重要，因为它解释以前很多办法更像是在赓续试技能、调参数，而这项研究开端把问题推动到机制解释的层面。也就是说，研究人员不仅提出了一个更有效的筹划，还说清楚明了为什么以前的办法轻易掉效，为什么视频一变长，模型就会更轻易出问题。

这项研究还有一个很实际的意义，就是证清楚明了练习并不是独一办法。以前一说到长视频生成，很多人会默认要从新练习模型，或者至少做一次很重的额外练习，因为短视频模型平日很难直策应对更长的时序范围。

研究团队此次证实，只在推理阶段做更精细的修改，也能明显改良生成后果。这一点很关键，因为它意味着算力成本会更低，现有模型也更轻易直接应用，对技巧落地和实际安排都更有赞助。

别的，研究人员还从新揭示了 Transformer 不合层的感化差别。他们发明，不合层并不是在做同一件事，有些层更轻易受到地位问题影响，有些层更轻易受到长高低文问题影响。

所以这项研究真正推动的，不只是技巧指标的晋升，而是让 AI 长视频生成离日常可用、贸易可用又近了一步。

FreeLOC 的创建者

所以真正有效的办法，不是一刀切地改所有层，而是先找出问题重要集中在哪些层，再做针对性修复。这个熟悉很有价值，因为它不只实用于视频生成，对长高低文的 LLM、图像生成模型的推理优化，其实也都有启发。

换句话说，这项研究提出的不只是一个技能，更是一种更通用的思路，也就是先辨认问题，再定位到层，最后做局部修复。

在评价方法上，研究人员采取的是 VBench 标准，并且把指标分成了一致性和质量两大年夜类。一致性方面重要看 Subject Consistency，也就是人物在长视频里会不会变形或漂移，Background Consistency，也就是背景是否稳定，以及 Motion Smoothness，也就是动作和活动过程是否持续天然。

假如从通俗人的角度来看，这项研究的影响其实也很直接。将来大年夜家用 AI 生成稍微长一点的视频时，人物忽然变脸、衣服乱变、背景乱跳、动作接不上的情况，有望明显削减。

对通俗用户来说，这意味着做故事短片、教授教化视频、产品展示视频时，成片会更稳定，也更接近真正能用的内容。对内容创作者来说，这意味着返工会更少，制造成本会更低，小团队和小我创作者也更有机会用现成模型做出更长、更连贯的视频内容。

论文一作田佳豪，今朝是西湖大年夜学 AGI Lab 的科研助理，师从张驰传授。重要从事计算机视觉方面的研究。他当前的研究重点集中在扩散生成模型，视频生成，世界模型等偏向。

就学术成果来看，他已揭橥或介入多项工作，包含以第一作者揭橥在 CVPR 2026 的FreeLOC，以及送达于 ECCV 2026 的 HeadForcing，此外还揭橥了 DCCM，Loss-Guided Diffusion For General Controllable Generation 等工作，整体研究路径表现出从图像级扩散模型理论、视频时序建模到自回归长视频生成与交互式视频合成的持续推动。

为了证实 FreeLOC 的后果不是有时，研究还设置了多组比较办法，包含 Direct Sampling，也就是直接生成，Sliding Window，也就是滑动窗口，以及 FreeNoise、FreeLong、RIFLEx 和 FreeLOC。

通信作者张驰，西湖大年夜学助理传授、自力PI，同时担负 AGI Lab负责人，在生成式人工智能和多模态智能偏向开展研究工作。在

此之前，他曾在腾讯担负研究科学家，并于新加坡南洋理工大年夜学获得博士学位，师从林国哄传授，同时与沈春华等学者保持经久合作关系。在学术影响力方面，他持续入选斯坦福大年夜学宣布的全球前 2% 科学家榜单，并担负多个顶级会议和期刊的重要学术办事角色，包含 ICML、ICLR、CVPR 等会议的 Area Chair，以及 IEEE T-CSVT 的副编辑。

在学术成果与研究产出方面，他经久深耕生成式人工智能范畴，研究偏向涵盖扩散模型、多模态生成建模以及智能系一切，近年来带领团队在 CVPR、ICCV、ICLR、NeurIPS 等顶级会议上持续揭橥成果，例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。

这些研究从图像生成、视频生成延长到 3D/4D 场景建模以及多模态智能体，形成了一条从视觉懂得到世界建模的体系性研究路线。

从整体研究特点来看，张驰的工作强调生成模型的可控性、多模态融合才能以及向真实世界建模才能的拓展，既存眷模型基本理论，也重视实际体系构建与应用落地。例如在视频生成与3D建模偏向，他推动从纯真生成内容向可控相机活动和空间懂得成长，在智能体偏向，他摸索多模态大年夜模型在真实交互情况中的应用。

这种研究路径表现出从传统计算机视觉向通用人工智能过渡的趋势，也使其工作处于当前人工智能范畴较为前沿的地位。

西湖大年夜学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

参考链接：https://icoz69.github.io/

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

本文分类：互联网
本文标签：世界模型西湖大学 CVPR
浏览次数：93 次浏览
发布日期：2026-04-22 16:20:57
本文链接：https://www.fqpy.com/index.php/internet/13029

西湖大年夜学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

更长的视频，更明显的优势

从设置到机制，一步步验证

从「能生成」走向「能应用」

FreeLOC 的创建者

评论列表共有 0 条评论

发表评论取消回复

西湖大年夜学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

更长的视频，更明显的优势

从设置到机制，一步步验证

从「能生成」走向「能应用」

FreeLOC 的创建者

中山大年夜学郭裕兰团队：数据充分却练习掉败，多智能体到底卡在哪丨CVPR 2026

上交大年夜 x vivo 团队：一个简单修改，让 diffusion 周全晋升丨CVPR 2026

东南大年夜学耿新团队：模型不是不会做，而是被「挤掉落了才能」丨CVPR 2026

西湖大年夜学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复