以前一段时光,AI 视频最让人惊艳的,往往都是前几秒。人物状况天然,光影氛围到位,动作也足够流畅,很轻易让人产生一种感到,视频生成已经离真正可用不远了。
比如一段厨房视频里,镜头从备菜推动到下锅,再切到摆盘,不雅众等待看到的是同一个空间、同一套器具和同一份食材被天然地串联起来。再比如一段城市通勤视频里,人物从地铁口走到街边商号,镜头可以变更,但人物状况、情况关系和动作逻辑不克不及越走越散。
但行业越往前走,问题也越清楚,真正难的从来不是做出一小段漂亮画面,而是能不克不及把这种质量稳定地延续下去。一旦视频时长被拉长,很多模型就会开端慢慢掉稳,人物、场景和动作外面上还在延续,内部却已经出现细节漂移和时序松动。
这也是为什么,今天 AI 视频行业真正卡住的处所,已经不只是能不克不及生成片段,而是能不克不及生成持续、稳定、可以承载完全情境的内容。
只有解决这种长时光稳定性问题,AI 视频才真正有机会从展示走向创作和临盆。也恰是在如许的背景下,西湖大年夜学的张驰团队提出了《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》。
这项研究存眷的,不是如何把某一帧做得更亮眼,而是为什么模型在短视频里表示很好,一旦进入长视频生成,质量就会越来越难保持。也正因为它抓住了这个行业里越来越核心的问题,所以这项研究不只是一次惯例优化,而更像是在答复,AI 视频从短片段走向长内容时,毕竟卡在了哪里。

论文地址:https://arxiv.org/pdf/2603.25209
更长的视频,更明显的优势
在 Wan2.1-T2V-1.3B 上,研究人员把视频长度扩大到 2 倍和 4 倍之后,发明 FreeLOC 的优势异常稳定,并且视频越长,这种优势越明显。
先看 2 倍长度,也就是 161 帧的成果。主体一致性达到 98.06,背景一致性达到 97.49,活动腻滑达到 98.98,解释在人物、场景和动作持续性上,它都已经处在最好或接近最好的程度。
更凸起的部分在画质相干指标上。图像质量达到 68.31,明显高于 Direct 的 60.34,也高于 Sliding Window 的 64.64 和 FreeNoise 的 67.19。美学质量达到 62.33,而其他办法大年夜多只在 52 到 56 之间,所以这一项的领先尤其明显。
动态程度也达到 39.41,已经接近最佳。换句话说,在 2 倍长度下,FreeLOC 不是只在某一个指标上占优,而是在稳定性、清楚度和整体不雅感上都表示更强。
到了 4 倍长度,也就是 321 帧,长视频生成的难度会明显上升,因为模型更轻易出现内容漂移、画面变糊或者动作掉真。但研究成果注解,FreeLOC 在这种更苛刻的设定下仍然能保持很强的表示。
主体一致性达到 98.44,仍然几乎是最高程度。图像质量达到 67.44,而 Direct 已经掉落到 59.21,差距达到 8.2。美学质量达到 61.21,Direct 只有 49.43,差距进一步扩大年夜到 11.8。动态程度达到 36.27,而 Direct 只有 4.32,差不多已经是数量级上的差别。
这个成果解释,跟着视频长度持续增长,很多办法会越来越难保持质量,但 FreeLOC 仍然能把画面质量和动态表示保持在较高程度,所以它的优势不是有时,而是在高难度长视频场景里依然成立。

这种晋升并不只涌如今一个模型上。研究团队又在 HunyuanVideo 上做了同样的测试,成果趋势依然一致。2 倍长度,也就是 253 帧时,图像质量达到 68.92,美学质量达到 62.38,都是最高,主体一致性也有 97.92,优于大年夜多半办法。
到了 4 倍长度,也就是 509 帧,图像质量仍有 67.92,美学质量仍有 61.09,动态程度达到 39.28,也接近最佳。也就是说,FreeLOC 的后果并不是只在 Wan2.1-T2V-1.3B 上成立,而是在另一套视频生成模型上也能复现出雷同趋势,这就解释研究提出的办法具有比较明显的跨模型通用性。雷峰网("大众,"号:雷峰网)
为了进一步解释这种晋升到底来自哪里,研究团队还做了消融实验,把办法拆开来看。只应用 TSA 时,图像质量是 65.87,美学质量是 57.05,解释零丁处理长高低文问题已经能带来可见晋升。
只应用 VRPR 时,图像质量是 61.88,美学质量是 54.13,解释零丁修改地位问题也有效,但感化还不敷强。假如把 TSA 和 VRPR 一路加上去,却对所有层同一处理,图像质量是 65.19,美学质量是 56.34,固然比只用一个模块更好,但仍然不是最佳成果。
更关键的是,研究人员还测试了随机分派到不合层的做法,成果图像质量反而掉落到 63.90,这解释模块本身并不是随便放在哪里都行,真正重要的是放在哪些层上。按层选择之后,也就是 FreeLOC 的做法,图像质量达到 67.44,美学质量达到 61.21,都是最高。
这一部分实验最想解释的是,机能晋升不只是因为多加了两个模块,而是因为研究人员发明不合层对不合问题的敏感程度并不一样,所以必须做分层处理,而这恰是 FreeLOC 最核心的立异点之一。


研究人员还进一步比较了不合的地位处理方法和不合的留意力机制。在地位处理上,他们比较了 Clipping、Grouping 和 VRPR,最后发明 VRPR 的后果最好,图像质量达到 68.84,美学质量达到 61.21,都明显领先。这解释多粒度的地位重编码确切比简单截断或者简单分组更有效。
在留意力机制上,研究又比较了 Sliding Window、Selected Frame Attention 和 TSA,成果 TSA 依然最好,图像质量达到 68.84,美学质量达到 61.21。这意味着,纯真用滑动窗口固然能缩小留意力范围,但会损掉一部分长程信息,而 TSA 能在控制高低文长度的同时,尽量保存长距离时序接洽关系,所以整体表示更强。

把这些实验合在一路看,研究团队实际上是在证实一件事,FreeLOC 的优势不是只表如今某一个局部技能上,而是来自一整套更合理的设计,包含地位重编码、留意力控制,以及最关键的分层应用策略。
整体来看,这组实验传递出的结论异常清楚。无论是在 Wan2.1-T2V-1.3B 照样 HunyuanVideo 上,无论是在 2 倍长度照样 4 倍长度设置下,FreeLOC 都能同时晋升视频的稳定性、清楚度、美感和动态表示,并且越到更长、更难的生成场景,这种优势越明显。

从设置到机制,一步步验证
在实验设置上,研究团队选用了两个公开可用的视频生成模型,分别是 Wan2.1-T2V-1.3B 和 HunyuanVideo,用来验证 FreeLOC 是否具有跨模型的实用性。
如许的比较覆盖了今朝比较常见的长视频生成思路,有的是最直接的基线办法,有的是经由过程局部窗口保持持续性,也有的是已有的练习免费办法,所以可以或许比较周全地看出 FreeLOC 比拟其他筹划到底强在哪里。
视频生成时,研究人员把输出分辨率同一设为 480p,也就是 832 × 480,并且重点测试了把视频长度扩大到 2 倍和 4 倍之后的生成后果。如许做的目标很明白,就是看模型在视频明显变长之后,是否还能保持本来的画面质量和时序稳定性。雷峰网

质量方面重要看 Imaging Quality,也就是画面清楚度,Aesthetic Quality,也就是整体视觉美感,以及 Dynamic Degree,也就是视频的动态表示强不强。如许一来,研究考察的就不只是纯真的清楚度,而是把人物稳定、背景稳定、动作持续、画面质量和不雅感都纳入了评估范围。
除了惯例的比较实验,研究团队还做了一个很关键的探测实验,也就是逐层分析 Transformer。具体来说,研究人员会对每一层施加扰动,然后不雅察两个成果,一是视觉质量到底降低了若干,二是 attention 的变更到底有多大年夜。
经由过程这种办法,他们发明不合层对问题的敏感性并不一样,有的层更轻易受到地位变更的影响,有的层更轻易受到长高低文扩大的影响。这个发明异常重要,因为它直接支撑了 FreeLOC 后面的分层处理思路,也就是不是所有层都一视同仁,而是要针对不合层采取不合修改方法。
研究还专门验证了两类核心的 O.O.D 问题。第一类是地位 O.O.D,做法是改变帧之间的相对地位关系,然后不雅察生成质量会不会降低。第二类是长度 O.O.D,做法是直接增长视频长度,再计算 attention entropy,也就是留意力分散程度。
实验成果注解,视频长度一旦增长,attention 就会变得更分散,而留意力越分散,生成质量往往越差。也恰是基于这两类问题的验证,研究团队才进一步提出了后面的 VRPR、TSA 和分层适配策略。整体来看,这一部分实验经由的意义就在于,研究并不是只做成果比较,而是先把问题来源拆清楚,再针对性地设计解决办法。


从「能生成」走向「能应用」
这项研究的意义,不只是把长视频生成的成果做得更好,而是把问题背后的原因说清楚了。研究团队指出,长视频之所以轻易出现画面变糊、动作不连贯、人物不稳定这些问题,核心来自两类 O.O.D,也就是地位 O.O.D 和高低文 O.O.D。
这个断定很重要,因为它解释以前很多办法更像是在赓续试技能、调参数,而这项研究开端把问题推动到机制解释的层面。也就是说,研究人员不仅提出了一个更有效的筹划,还说清楚明了为什么以前的办法轻易掉效,为什么视频一变长,模型就会更轻易出问题。
这项研究还有一个很实际的意义,就是证清楚明了练习并不是独一办法。以前一说到长视频生成,很多人会默认要从新练习模型,或者至少做一次很重的额外练习,因为短视频模型平日很难直策应对更长的时序范围。
研究团队此次证实,只在推理阶段做更精细的修改,也能明显改良生成后果。这一点很关键,因为它意味着算力成本会更低,现有模型也更轻易直接应用,对技巧落地和实际安排都更有赞助。
别的,研究人员还从新揭示了 Transformer 不合层的感化差别。他们发明,不合层并不是在做同一件事,有些层更轻易受到地位问题影响,有些层更轻易受到长高低文问题影响。
所以这项研究真正推动的,不只是技巧指标的晋升,而是让 AI 长视频生成离日常可用、贸易可用又近了一步。
FreeLOC 的创建者
所以真正有效的办法,不是一刀切地改所有层,而是先找出问题重要集中在哪些层,再做针对性修复。这个熟悉很有价值,因为它不只实用于视频生成,对长高低文的 LLM、图像生成模型的推理优化,其实也都有启发。
换句话说,这项研究提出的不只是一个技能,更是一种更通用的思路,也就是先辨认问题,再定位到层,最后做局部修复。
在评价方法上,研究人员采取的是 VBench 标准,并且把指标分成了一致性和质量两大年夜类。一致性方面重要看 Subject Consistency,也就是人物在长视频里会不会变形或漂移,Background Consistency,也就是背景是否稳定,以及 Motion Smoothness,也就是动作和活动过程是否持续天然。
假如从通俗人的角度来看,这项研究的影响其实也很直接。将来大年夜家用 AI 生成稍微长一点的视频时,人物忽然变脸、衣服乱变、背景乱跳、动作接不上的情况,有望明显削减。
对通俗用户来说,这意味着做故事短片、教授教化视频、产品展示视频时,成片会更稳定,也更接近真正能用的内容。对内容创作者来说,这意味着返工会更少,制造成本会更低,小团队和小我创作者也更有机会用现成模型做出更长、更连贯的视频内容。
论文一作田佳豪,今朝是西湖大年夜学 AGI Lab 的科研助理,师从张驰传授。重要从事计算机视觉方面的研究。他当前的研究重点集中在扩散生成模型,视频生成,世界模型等偏向。
就学术成果来看,他已揭橥或介入多项工作,包含以第一作者揭橥在 CVPR 2026 的FreeLOC,以及送达于 ECCV 2026 的 HeadForcing,此外还揭橥了 DCCM,Loss-Guided Diffusion For General Controllable Generation 等工作,整体研究路径表现出从图像级扩散模型理论、视频时序建模到自回归长视频生成与交互式视频合成的持续推动。
为了证实 FreeLOC 的后果不是有时,研究还设置了多组比较办法,包含 Direct Sampling,也就是直接生成,Sliding Window,也就是滑动窗口,以及 FreeNoise、FreeLong、RIFLEx 和 FreeLOC。
通信作者张驰,西湖大年夜学助理传授、自力PI,同时担负 AGI Lab负责人,在生成式人工智能和多模态智能偏向开展研究工作。在
此之前,他曾在腾讯担负研究科学家,并于新加坡南洋理工大年夜学获得博士学位,师从林国哄传授,同时与沈春华等学者保持经久合作关系。在学术影响力方面,他持续入选斯坦福大年夜学宣布的全球前 2% 科学家榜单,并担负多个顶级会议和期刊的重要学术办事角色,包含 ICML、ICLR、CVPR 等会议的 Area Chair,以及 IEEE T-CSVT 的副编辑。
在学术成果与研究产出方面,他经久深耕生成式人工智能范畴,研究偏向涵盖扩散模型、多模态生成建模以及智能系一切,近年来带领团队在 CVPR、ICCV、ICLR、NeurIPS 等顶级会议上持续揭橥成果,例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。
这些研究从图像生成、视频生成延长到 3D/4D 场景建模以及多模态智能体,形成了一条从视觉懂得到世界建模的体系性研究路线。
从整体研究特点来看,张驰的工作强调生成模型的可控性、多模态融合才能以及向真实世界建模才能的拓展,既存眷模型基本理论,也重视实际体系构建与应用落地。例如在视频生成与3D建模偏向,他推动从纯真生成内容向可控相机活动和空间懂得成长,在智能体偏向,他摸索多模态大年夜模型在真实交互情况中的应用。
这种研究路径表现出从传统计算机视觉向通用人工智能过渡的趋势,也使其工作处于当前人工智能范畴较为前沿的地位。

参考链接:https://icoz69.github.io/
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复