西湖大年夜学张驰团队：从视觉合成到空间懂得，视频 AI 正在「转向」丨CVPR 2026

31 阅读 0 评论 0 点赞

以前两年，视频生成的成长几乎是指数级的。从最早只能生成模糊片段，到如今可以生成具有叙事构造、光影一致性甚至风格控制的长视频，行业外面上已经接近一个阶段性成熟。

一旦涉及视角变更，模型往往无法包管同一个物体在不合帧之间的几何一致性，人物会产生细微但累积的漂移，建筑构造在移动中逐渐扭曲，遮挡关系也难以保持持续，这意味着模型生成的并不是一个被持续不雅察的世界，而是一系列在视觉上类似但空间上不一致的成果。

在如许的行业背景下，西湖大年夜学 AGI Lab 研究团队提出了论文《Taming Video Models for 3D and 4D Generation via Zero Shot Camera Control》，值得一提的是，这篇论文也入选了 CVPR Highlight。与以往经由过程从新练习模型来引入控制才能的路径不合，这项工作将问题从新落回到推理阶段本身，测验测验在不改变模型参数的情况下，让相机轨迹成为生成过程中的束缚前提，使模型在每一步生成中持续对齐同一个空间构造。

这种安排表现出一种明显的时光调剂机制，也就是在不合生成阶段分派不合控制强度，从而在构造稳定性与细节保真之间取得均衡。

换句话说，这项研究存眷的不是若何让模型生成更多内容，而是若何让模型在视角变更中保持世界的一致性，从而把视频生成从二维视觉合成，推动到具有三维构造束缚的动态世界建模。

假如从应用角度懂得这一点，可以把它算作一种才能的改变。以前模型更像一个可以或许赓续画出新画面的体系，而如今的目标，是让模型像一个可以移动的开麦拉，在同一个场景中进行不雅察和记录。无论是商品展示、空间漫游，照样内容创作中的镜头设计，本质上都依附这种才能的成立。

WorldForge 的提出，恰是在这一关键转折点上，给出了一个不依附额外练习、却可以或许实现精确相机控制的路径，也是以成为当前视频生成从“生成才能竞争”走向“空间一致性与可控性竞争”的一个代表性工作。

从整体研究特点来看，张驰的工作强调生成模型的可控性、多模态融合才能以及向真实世界建模才能的拓展，既存眷模型基本理论，也重视实际体系构建与应用落地。例如在视频生成与3D建模偏向，他推动从纯真生成内容向可控相机活动和空间懂得成长，在智能体偏向，他摸索多模态大年夜模型在真实交互情况中的应用。

西湖大年夜学张驰团队：从视觉合成到空间懂得，视频 AI 正在「转向」丨CVPR 2026

论文地址：https://arxiv.org/pdf/2509.15130

跨义务、多指标的同一机能晋升

在实验成果方面，研究团队起首验证了 3D 静态场景生成，也就是单图到多视角义务，相干数据来自 Table 1。从生成质量看，WorldForge 的 FID 为 96.08，是所有办法里最低的，CLIPsim 为 0.948，是所有办法里最高的。作为比较，TrajectoryCrafter 的 FID 为 111.49，CLIPsim 为 0.910，NVS-Solver 的 FID 为 118.64，CLIPsim 为 0.937。

这解释 WorldForge 在真实感和语义一致性上都更强，FID 从 118 降低到 96，降幅约 20%，CLIPsim 从 0.91 晋升到 0.948，解释生成成果既更真实，又更相符原图语义。

研究团队还说清楚明了实验前提。主模型应用 Wan2.1，范围为 14B，硬件方面须要至少 69GB 显存的 GPU。生成阶段采取 50 步采样，个中 IRR 感化在前 20 步。这组前提解释，办法在后果上很强，但计算成本也比较高，对硬件资本有较高请求。

从轨迹精度也就是相机控制才能看，WorldForge 的 ATE 为 0.077，是最低值，RPE-T 为 0.086，RPE-R 为 0.221。比较来看，ViewCrafter 的 ATE 为 0.236，约为 WorldForge 的 3 倍，NVS-Solver 的 RPE-R 为 1.056，明显高于 0.221，所以可以看出，相机路径误差被明显压低，整体大年夜约达到 2 到 5 倍的改进。

在 4D 动态视频生成义务中，也就是输入视频并从新指定轨迹的场景，相干数据来自 Table 2。从视频质量看，WorldForge 的 FVD 为 93.17，是最低值，CLIP-Vsim 为 0.938，是最高值。

比较办法中，TrajectoryCrafter 的 FVD 为 97.31，ViewExtrapolator 的 FVD 为 108.48。也就是说，WorldForge 比拟 108 降到 93，晋升幅度约为 15%，解释在动态视频生成中，画面质量和语义一致性仍然保持领先。从轨迹精度看，WorldForge 的 ATE 为 0.527，RPE-T 为 0.826，RPE-R 为 2.690，而 ViewExtrapolator 的 ATE 为 1.040，几乎是前者的两倍，这解释在动态视频前提下，WorldForge 依然能保持比较稳定的轨迹控制后果。

除了机能指标，研究人员还给出了实验范围，这部分信息很重要。在 3D 义务中，实验覆盖 40 多个场景、70 多张单图输入，应用的数据集包含 LLFF、Tanks & Temples、MipNeRF 360，同时还参加了真实图片和 AI 生成图片。雷峰网

西湖大年夜学张驰团队：从视觉合成到空间懂得，视频 AI 正在「转向」丨CVPR 2026

在 4D 义务中，实验覆盖 30 多个视频和 50 多个测试样例，数据来源包含 DAVIS 数据集、片子片段以及 VDM 生成视频。如许的设置解释，测试范围同时覆盖真实世界数据和合成数据，泛化才能验证相对充分。

在消融实验部分，相干数据来自 Table 3。完全模型表示最好，个中 FID 为 96.08，FVD 为 93.17。去掉落 DSG 今后，FID 上升到 109.43，FVD 上升到 95.69，解释画面质量和视频质量都明显变差。

去掉落 FLF 今后，FID 进一步上升到 112.69，FVD 上升到 99.79，成果更差。把 DSG 和 FLF 一路去掉落今后，FID 达到 113.12，FVD 达到 103.17，退化加倍明显。假如把 DSG 换成传统 CFG，成果最差，FID 达到 120.91，FVD 达到 109.1。

综合这些数字可以看到，每个模块都邑带来大年夜约 10% 到 20% 的机能晋升，并且几个模块之间存在明显的互补关系，少了任何一个，整体后果都邑降低。

西湖大年夜学张驰团队：从视觉合成到空间懂得，视频 AI 正在「转向」丨CVPR 2026

一套可迁徙、可控制的生成流程

在实验经由方面，研究团队起首从模型设置入手验证办法的通用性，一共选用了三个不合类型的视频生成模型进行测试，分别是作为主实验基本模型的 Wan2.1，其范围为 14B，作为轻量级对比模型的 SVD，以及较新的 LongCat-Video 模型。

西湖大年夜学张驰团队：从视觉合成到空间懂得，视频 AI 正在「转向」丨CVPR 2026

经由过程在这三类才能和构造差别明显的模型上分别进行实验，研究人员不雅察办法在不合基本才能前提下的表示变更，成果显示办法可以直接迁徙到不合视频模型中应用，不依附特定模型构造或练习方法，是以具有明显的模型无关性，也就是 model-agnostic 特点。

西湖大年夜学张驰团队：从视觉合成到空间懂得，视频 AI 正在「转向」丨CVPR 2026

在推理流程参数方面，研究团队对扩散生成过程进行了精细控制。全部视频生成过程同一设置为 50 步采样。在这一过程中，IRR 并不是在全部步调中持续感化，而是集中感化在前 35% 到 45% 的阶段，也就是大年夜约前 15 到 25 步之间，在主实验设备中平日为前 20 步。

但假如把评价标准从“能不克不及生成一段视频”稍微进步到“能不克不及控制镜头”，问题就会完全裸露出来。当前大年夜多半模型仍然逗留在一种近似二维的生成范式中，它们善于在时光上延续视觉模式，却缺乏对空间构造的稳定建模才能。

这一阶段重要负责建立整体构造和活动趋势，是以经由过程 IRR 在这一阶段持续注入轨迹信息，可以赓续修改生成偏向，使成果慢慢切近目标相机路径。

西湖大年夜学张驰团队：从视觉合成到空间懂得，视频 AI 正在「转向」丨CVPR 2026

与此同时，FLF 在时光维度上也采取分阶段策略，在最初的若干步中封闭 FLF，让模型优先应用全部通道建立整体构造，避免过早限制信息流动而影响全局构造，随后在中后期逐渐启用 FLF，对通道进行筛选，仅对活动相干通道施加束缚，从而在不破坏外不雅细节的前提下加强轨迹控制。

西湖大年夜学张驰团队：从视觉合成到空间懂得，视频 AI 正在「转向」丨CVPR 2026

在轨迹类型设计方面，研究团队为了验证办法的实用范围，构建了多种不合情势的相机活动路径进行测试，包含圆弧轨迹，也就是 arc，用于模仿环绕目标的侧向移动；推动轨迹，也就是 dolly，用于模仿镜头进步或撤退撤退；扭转轨迹，也就是 orbit，用于实现环绕式不雅察；以及自由摸索路径，用于测试复杂、不规矩的相机活动。

这些轨迹不仅在几何情势上存在差别，同时在活动幅度、视角变更范围以及遮挡情况上也存在明显不合。经由过程在这些多样化轨迹前提下进行实验，研究人员验证办法不仅可以处理规矩路径，也可以应对复杂动态路径，从而解释办法具备较强的泛化才能，而不是只对某一类预设活动模板有效。

西湖大年夜学张驰团队：从视觉合成到空间懂得，视频 AI 正在「转向」丨CVPR 2026

从理论意义上看，这项研究还有一个很重要的供献，就是进一步证清楚明了 latent 空间内部并不是混在一路、无法区分的。FLF 的实验成果注解，不合通道确切承担着不合功能，有些更偏向活动信息，有些更偏向外不雅与细节信息。

在评价指标选择方面，研究团队结合义务特点进行了专门设计。对于单图生成多视角的 3D 义务，因为输入只有一张图像，目标视角并不存在真实参考，也就是没有 ground truth，是以无法应用依附真实图像比较的指标，例如 PSNR 这一类像素级误差指标。

在这种情况下，研究人员选择应用 FID 来衡量生成成果在分布层面与真实图像的接近程度，同时应用 CLIP 类似度来评估生成内容在语义层面与输入图像的一致性。

对于 4D 动态视频义务，则进一步引入 FVD 来衡量视频整体质量，以及 CLIP-Vsim 来评估视频语义一致性。这种指标体系表现出研究团队对问题性质的懂得，也就是把义务视为生成问题而不是重建问题，是以评价重点放在真实感、语义一致性以及时光持续性，而不是像素级还原精度。

从成果优化，到过程控制的一次转向

在实验意义方面，这项研究的价值不仅表如今指标晋升上，更表如今它改变了视频生成技巧的成长偏向。起首，从机能上看，研究成果不是只优化了某一个局部环节，而是在多个核心维度上同时取得晋升。

FID 降低了 20%，FVD 降低了 15%，轨迹误差降低了 2 到 5 倍，这解释研究团队提出的办法既能让画面更真实，也能让视频更稳定，还能让相机活动更精确。

换句话说，研究人员解决的不是单一的清楚度问题，也不是单一的控制问题，而是把生成质量、活动一致性和空间控制才能一路往前推动了一步，这种周全晋升解释办法已经具备较强的实用潜力。

从办法意义上看，这项研究进一步解释，视频生成将来的重要偏向，很可能不是赓续从新练习更大年夜的模型，而是在推理过程中进行更精细的控制。研究人员经由过程实验发明，传统 CFG 在这一义务中会掉败，FID 会高到 120 以上，而应用 DSG 今后，FID 可以降到 96。

这解释以前那种重要面向图像生成的控制思路，放到视频义务里并不敷用，因为视频不仅要生成单帧内容，还要包管前后帧连接天然，人物和场景不克不及乱变，镜头活动也不克不及掉控。也正因为如斯，研究团队提出的构造感知式控制方法才显得更有意义，它证实视频生成不克不及只靠简单加前提，而是须要真正懂得空间构造和活动关系。

从工程意义上看，这项研究也很诚实地揭示了当前技巧所处的阶段。办法固然强，但成本也高，须要大年夜约 70GB 显存，还要进行多路径推理，所以它更像是一种高质量离线衬着筹划，而不是已经成熟到可以及时运行的轻量体系。

这一点其实也很有意义，因为它告诉人们，当前视频生成技巧已经可以或许做出高质量成果，但距离真正低成本、及时化、大年夜范围普及，还有一段工程化的路要走。也就是说，这项研究更像是在证实一件事可行，而不是已经把一件事做成人人顺手可用的产品。

假如进一步看这项研究对通俗人的影响，意义会更直不雅。对于通俗用户来说，这类技巧将来最直接的变更，就是拍视频和做视频的门槛可能会持续降低。以前想拍出镜头绕人移动、迟缓推动、自由换视角的后果，往往须要专业摄影设备、轨道、稳定器，甚至还要后期团队处理。雷峰网("大众,"号：雷峰网)

沿着这项研究持续成长，将来通俗人只用一张图或者一段通俗视频，就有可能生成更像片子镜头的画面，旅游视频、卒业纪念、短视频创作、家庭影像记录都邑是以变得更轻易、更丰富。

对于内容创作者来说，这种技巧会进一步改变创作方法。很多人没有专业拍摄前提，也不会复杂建模，但依然欲望让视频看起来更有空间感、更有镜头说话。

这项研究解释，将来创作者可能只须要先拍一个基本画面，后续再经由过程生成式办法从新设计镜头轨迹，让镜头进步、环绕、拉远、摸索场景，等于把部分摄影和后期才能交给了模型。如许一来，小我创作者、小型工作室，甚至通俗学生，都可能获得以前只有专业团队才能完成的视觉表达才能。

也就是说，这项研究固然如今还重要逗留在高成本实验阶段，但它指向的是一种更低门槛、更强表达力的视觉临盆方法，而这种变更最后会落到通俗人的不雅看体验、记录方法和创作才能上。

WorldForge 背后的科研力量

论文一作宋晨光，今朝是西湖大年夜学 AGI Lab 的博士后研究员，师从张驰传授，2024 年于吉林大年夜学获得工学博士学位，博士阶段重要从事 3D 计算机视觉与计算机图形学研究。

他当前的研究重点集中在 3D 与 4D 场景建模、可控视频生成等偏向，同时也活泼于学术合营体，担负 NeurIPS、CVPR、ECCV、AAAI、MM 和 T-CSVT 等会议与期刊的审稿人。

就学术成果来看，他已揭橥或介入多项代表性工作，包含以第一作者揭橥在 CVPR 2026 的 WorldForge，以及揭橥于 IEEE T-CSVT 的 FewarNet，此外还介入了 SwitchCraft、Free-Lunch Long Video Generation、FlowDirector、Fast3Dcache、AppAgentX 等项目，整体研究路径表现出从多视角重建、3D 几何建模到练习自由的视频生成与世界模型构建的持续推动

西湖大年夜学张驰团队：从视觉合成到空间懂得，视频 AI 正在「转向」丨CVPR 2026

参考链接：https://chenxi-song.github.io/

通信作者张驰，西湖大年夜学助理传授、自力PI，同时担负 AGI Lab负责人，在生成式人工智能和多模态智能偏向开展研究工作。在

此之前，他曾在腾讯担负研究科学家，并于新加坡南洋理工大年夜学获得博士学位，师从林国哄传授，同时与沈春华等学者保持经久合作关系。在学术影响力方面，他持续入选斯坦福大年夜学宣布的全球前 2% 科学家榜单，并担负多个顶级会议和期刊的重要学术办事角色，包含 ICML、ICLR、CVPR 等会议的 Area Chair，以及 IEEE T-CSVT 的副编辑。

在学术成果与研究产出方面，他经久深耕生成式人工智能范畴，研究偏向涵盖扩散模型、多模态生成建模以及智能系一切，近年来带领团队在 CVPR、ICCV、ICLR、NeurIPS 等顶级会议上持续揭橥成果，例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。

这些研究从图像生成、视频生成延长到 3D/4D 场景建模以及多模态智能体，形成了一条从视觉懂得到世界建模的体系性研究路线。

这种研究路径表现出从传统计算机视觉向通用人工智能过渡的趋势，也使其工作处于当前人工智能范畴较为前沿的地位。

西湖大年夜学张驰团队：从视觉合成到空间懂得，视频 AI 正在「转向」丨CVPR 2026

参考链接：https://icoz69.github.io/

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

本文分类：互联网
本文标签：AI CVPR 世界模型
浏览次数：31 次浏览
发布日期：2026-04-22 16:20:50
本文链接：https://www.fqpy.com/internet/13028

西湖大年夜学张驰团队：从视觉合成到空间懂得，视频 AI 正在「转向」丨CVPR 2026

跨义务、多指标的同一机能晋升

一套可迁徙、可控制的生成流程

WorldForge 背后的科研力量

评论列表共有 0 条评论

发表评论取消回复

西湖大年夜学张驰团队：从视觉合成到空间懂得，视频 AI 正在「转向」丨CVPR 2026

跨义务、多指标的同一机能晋升

一套可迁徙、可控制的生成流程

WorldForge 背后的科研力量

中山大年夜学郭裕兰团队：数据充分却练习掉败，多智能体到底卡在哪丨CVPR 2026

上交大年夜 x vivo 团队：一个简单修改，让 diffusion 周全晋升丨CVPR 2026

清华段岳圻团队论文：从调参数到做控制，文生图迎来一次办法论进级丨CVPR 2026

东南大年夜学耿新团队：模型不是不会做，而是被「挤掉落了才能」丨CVPR 2026

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复