以前两年,视频生成的成长几乎是指数级的。从最早只能生成模糊片段,到如今可以生成具有叙事构造、光影一致性甚至风格控制的长视频,行业外面上已经接近一个阶段性成熟。
一旦涉及视角变更,模型往往无法包管同一个物体在不合帧之间的几何一致性,人物会产生细微但累积的漂移,建筑构造在移动中逐渐扭曲,遮挡关系也难以保持持续,这意味着模型生成的并不是一个被持续不雅察的世界,而是一系列在视觉上类似但空间上不一致的成果。
在如许的行业背景下,西湖大年夜学 AGI Lab 研究团队提出了论文《Taming Video Models for 3D and 4D Generation via Zero Shot Camera Control》,值得一提的是,这篇论文也入选了 CVPR Highlight。与以往经由过程从新练习模型来引入控制才能的路径不合,这项工作将问题从新落回到推理阶段本身,测验测验在不改变模型参数的情况下,让相机轨迹成为生成过程中的束缚前提,使模型在每一步生成中持续对齐同一个空间构造。
这种安排表现出一种明显的时光调剂机制,也就是在不合生成阶段分派不合控制强度,从而在构造稳定性与细节保真之间取得均衡。
换句话说,这项研究存眷的不是若何让模型生成更多内容,而是若何让模型在视角变更中保持世界的一致性,从而把视频生成从二维视觉合成,推动到具有三维构造束缚的动态世界建模。
假如从应用角度懂得这一点,可以把它算作一种才能的改变。以前模型更像一个可以或许赓续画出新画面的体系,而如今的目标,是让模型像一个可以移动的开麦拉,在同一个场景中进行不雅察和记录。无论是商品展示、空间漫游,照样内容创作中的镜头设计,本质上都依附这种才能的成立。
WorldForge 的提出,恰是在这一关键转折点上,给出了一个不依附额外练习、却可以或许实现精确相机控制的路径,也是以成为当前视频生成从“生成才能竞争”走向“空间一致性与可控性竞争”的一个代表性工作。
从整体研究特点来看,张驰的工作强调生成模型的可控性、多模态融合才能以及向真实世界建模才能的拓展,既存眷模型基本理论,也重视实际体系构建与应用落地。例如在视频生成与3D建模偏向,他推动从纯真生成内容向可控相机活动和空间懂得成长,在智能体偏向,他摸索多模态大年夜模型在真实交互情况中的应用。

论文地址:https://arxiv.org/pdf/2509.15130
跨义务、多指标的同一机能晋升
在实验成果方面,研究团队起首验证了 3D 静态场景生成,也就是单图到多视角义务,相干数据来自 Table 1。从生成质量看,WorldForge 的 FID 为 96.08,是所有办法里最低的,CLIPsim 为 0.948,是所有办法里最高的。作为比较,TrajectoryCrafter 的 FID 为 111.49,CLIPsim 为 0.910,NVS-Solver 的 FID 为 118.64,CLIPsim 为 0.937。
这解释 WorldForge 在真实感和语义一致性上都更强,FID 从 118 降低到 96,降幅约 20%,CLIPsim 从 0.91 晋升到 0.948,解释生成成果既更真实,又更相符原图语义。
研究团队还说清楚明了实验前提。主模型应用 Wan2.1,范围为 14B,硬件方面须要至少 69GB 显存的 GPU。生成阶段采取 50 步采样,个中 IRR 感化在前 20 步。这组前提解释,办法在后果上很强,但计算成本也比较高,对硬件资本有较高请求。
从轨迹精度也就是相机控制才能看,WorldForge 的 ATE 为 0.077,是最低值,RPE-T 为 0.086,RPE-R 为 0.221。比较来看,ViewCrafter 的 ATE 为 0.236,约为 WorldForge 的 3 倍,NVS-Solver 的 RPE-R 为 1.056,明显高于 0.221,所以可以看出,相机路径误差被明显压低,整体大年夜约达到 2 到 5 倍的改进。
在 4D 动态视频生成义务中,也就是输入视频并从新指定轨迹的场景,相干数据来自 Table 2。从视频质量看,WorldForge 的 FVD 为 93.17,是最低值,CLIP-Vsim 为 0.938,是最高值。
比较办法中,TrajectoryCrafter 的 FVD 为 97.31,ViewExtrapolator 的 FVD 为 108.48。也就是说,WorldForge 比拟 108 降到 93,晋升幅度约为 15%,解释在动态视频生成中,画面质量和语义一致性仍然保持领先。从轨迹精度看,WorldForge 的 ATE 为 0.527,RPE-T 为 0.826,RPE-R 为 2.690,而 ViewExtrapolator 的 ATE 为 1.040,几乎是前者的两倍,这解释在动态视频前提下,WorldForge 依然能保持比较稳定的轨迹控制后果。
除了机能指标,研究人员还给出了实验范围,这部分信息很重要。在 3D 义务中,实验覆盖 40 多个场景、70 多张单图输入,应用的数据集包含 LLFF、Tanks & Temples、MipNeRF 360,同时还参加了真实图片和 AI 生成图片。雷峰网

在 4D 义务中,实验覆盖 30 多个视频和 50 多个测试样例,数据来源包含 DAVIS 数据集、片子片段以及 VDM 生成视频。如许的设置解释,测试范围同时覆盖真实世界数据和合成数据,泛化才能验证相对充分。
在消融实验部分,相干数据来自 Table 3。完全模型表示最好,个中 FID 为 96.08,FVD 为 93.17。去掉落 DSG 今后,FID 上升到 109.43,FVD 上升到 95.69,解释画面质量和视频质量都明显变差。
去掉落 FLF 今后,FID 进一步上升到 112.69,FVD 上升到 99.79,成果更差。把 DSG 和 FLF 一路去掉落今后,FID 达到 113.12,FVD 达到 103.17,退化加倍明显。假如把 DSG 换成传统 CFG,成果最差,FID 达到 120.91,FVD 达到 109.1。
综合这些数字可以看到,每个模块都邑带来大年夜约 10% 到 20% 的机能晋升,并且几个模块之间存在明显的互补关系,少了任何一个,整体后果都邑降低。

一套可迁徙、可控制的生成流程
在实验经由方面,研究团队起首从模型设置入手验证办法的通用性,一共选用了三个不合类型的视频生成模型进行测试,分别是作为主实验基本模型的 Wan2.1,其范围为 14B,作为轻量级对比模型的 SVD,以及较新的 LongCat-Video 模型。

经由过程在这三类才能和构造差别明显的模型上分别进行实验,研究人员不雅察办法在不合基本才能前提下的表示变更,成果显示办法可以直接迁徙到不合视频模型中应用,不依附特定模型构造或练习方法,是以具有明显的模型无关性,也就是 model-agnostic 特点。

在推理流程参数方面,研究团队对扩散生成过程进行了精细控制。全部视频生成过程同一设置为 50 步采样。在这一过程中,IRR 并不是在全部步调中持续感化,而是集中感化在前 35% 到 45% 的阶段,也就是大年夜约前 15 到 25 步之间,在主实验设备中平日为前 20 步。
但假如把评价标准从“能不克不及生成一段视频”稍微进步到“能不克不及控制镜头”,问题就会完全裸露出来。当前大年夜多半模型仍然逗留在一种近似二维的生成范式中,它们善于在时光上延续视觉模式,却缺乏对空间构造的稳定建模才能。
这一阶段重要负责建立整体构造和活动趋势,是以经由过程 IRR 在这一阶段持续注入轨迹信息,可以赓续修改生成偏向,使成果慢慢切近目标相机路径。

与此同时,FLF 在时光维度上也采取分阶段策略,在最初的若干步中封闭 FLF,让模型优先应用全部通道建立整体构造,避免过早限制信息流动而影响全局构造,随后在中后期逐渐启用 FLF,对通道进行筛选,仅对活动相干通道施加束缚,从而在不破坏外不雅细节的前提下加强轨迹控制。

在轨迹类型设计方面,研究团队为了验证办法的实用范围,构建了多种不合情势的相机活动路径进行测试,包含圆弧轨迹,也就是 arc,用于模仿环绕目标的侧向移动;推动轨迹,也就是 dolly,用于模仿镜头进步或撤退撤退;扭转轨迹,也就是 orbit,用于实现环绕式不雅察;以及自由摸索路径,用于测试复杂、不规矩的相机活动。
这些轨迹不仅在几何情势上存在差别,同时在活动幅度、视角变更范围以及遮挡情况上也存在明显不合。经由过程在这些多样化轨迹前提下进行实验,研究人员验证办法不仅可以处理规矩路径,也可以应对复杂动态路径,从而解释办法具备较强的泛化才能,而不是只对某一类预设活动模板有效。

从理论意义上看,这项研究还有一个很重要的供献,就是进一步证清楚明了 latent 空间内部并不是混在一路、无法区分的。FLF 的实验成果注解,不合通道确切承担着不合功能,有些更偏向活动信息,有些更偏向外不雅与细节信息。
在评价指标选择方面,研究团队结合义务特点进行了专门设计。对于单图生成多视角的 3D 义务,因为输入只有一张图像,目标视角并不存在真实参考,也就是没有 ground truth,是以无法应用依附真实图像比较的指标,例如 PSNR 这一类像素级误差指标。
在这种情况下,研究人员选择应用 FID 来衡量生成成果在分布层面与真实图像的接近程度,同时应用 CLIP 类似度来评估生成内容在语义层面与输入图像的一致性。
对于 4D 动态视频义务,则进一步引入 FVD 来衡量视频整体质量,以及 CLIP-Vsim 来评估视频语义一致性。这种指标体系表现出研究团队对问题性质的懂得,也就是把义务视为生成问题而不是重建问题,是以评价重点放在真实感、语义一致性以及时光持续性,而不是像素级还原精度。
从成果优化,到过程控制的一次转向
在实验意义方面,这项研究的价值不仅表如今指标晋升上,更表如今它改变了视频生成技巧的成长偏向。起首,从机能上看,研究成果不是只优化了某一个局部环节,而是在多个核心维度上同时取得晋升。
FID 降低了 20%,FVD 降低了 15%,轨迹误差降低了 2 到 5 倍,这解释研究团队提出的办法既能让画面更真实,也能让视频更稳定,还能让相机活动更精确。
换句话说,研究人员解决的不是单一的清楚度问题,也不是单一的控制问题,而是把生成质量、活动一致性和空间控制才能一路往前推动了一步,这种周全晋升解释办法已经具备较强的实用潜力。
从办法意义上看,这项研究进一步解释,视频生成将来的重要偏向,很可能不是赓续从新练习更大年夜的模型,而是在推理过程中进行更精细的控制。研究人员经由过程实验发明,传统 CFG 在这一义务中会掉败,FID 会高到 120 以上,而应用 DSG 今后,FID 可以降到 96。
这解释以前那种重要面向图像生成的控制思路,放到视频义务里并不敷用,因为视频不仅要生成单帧内容,还要包管前后帧连接天然,人物和场景不克不及乱变,镜头活动也不克不及掉控。也正因为如斯,研究团队提出的构造感知式控制方法才显得更有意义,它证实视频生成不克不及只靠简单加前提,而是须要真正懂得空间构造和活动关系。
从工程意义上看,这项研究也很诚实地揭示了当前技巧所处的阶段。办法固然强,但成本也高,须要大年夜约 70GB 显存,还要进行多路径推理,所以它更像是一种高质量离线衬着筹划,而不是已经成熟到可以及时运行的轻量体系。
这一点其实也很有意义,因为它告诉人们,当前视频生成技巧已经可以或许做出高质量成果,但距离真正低成本、及时化、大年夜范围普及,还有一段工程化的路要走。也就是说,这项研究更像是在证实一件事可行,而不是已经把一件事做成人人顺手可用的产品。
假如进一步看这项研究对通俗人的影响,意义会更直不雅。对于通俗用户来说,这类技巧将来最直接的变更,就是拍视频和做视频的门槛可能会持续降低。以前想拍出镜头绕人移动、迟缓推动、自由换视角的后果,往往须要专业摄影设备、轨道、稳定器,甚至还要后期团队处理。雷峰网("大众,"号:雷峰网)
沿着这项研究持续成长,将来通俗人只用一张图或者一段通俗视频,就有可能生成更像片子镜头的画面,旅游视频、卒业纪念、短视频创作、家庭影像记录都邑是以变得更轻易、更丰富。
对于内容创作者来说,这种技巧会进一步改变创作方法。很多人没有专业拍摄前提,也不会复杂建模,但依然欲望让视频看起来更有空间感、更有镜头说话。
这项研究解释,将来创作者可能只须要先拍一个基本画面,后续再经由过程生成式办法从新设计镜头轨迹,让镜头进步、环绕、拉远、摸索场景,等于把部分摄影和后期才能交给了模型。如许一来,小我创作者、小型工作室,甚至通俗学生,都可能获得以前只有专业团队才能完成的视觉表达才能。
也就是说,这项研究固然如今还重要逗留在高成本实验阶段,但它指向的是一种更低门槛、更强表达力的视觉临盆方法,而这种变更最后会落到通俗人的不雅看体验、记录方法和创作才能上。
WorldForge 背后的科研力量
论文一作宋晨光,今朝是西湖大年夜学 AGI Lab 的博士后研究员,师从张驰传授,2024 年于吉林大年夜学获得工学博士学位,博士阶段重要从事 3D 计算机视觉与计算机图形学研究。
他当前的研究重点集中在 3D 与 4D 场景建模、可控视频生成等偏向,同时也活泼于学术合营体,担负 NeurIPS、CVPR、ECCV、AAAI、MM 和 T-CSVT 等会议与期刊的审稿人。
就学术成果来看,他已揭橥或介入多项代表性工作,包含以第一作者揭橥在 CVPR 2026 的 WorldForge,以及揭橥于 IEEE T-CSVT 的 FewarNet,此外还介入了 SwitchCraft、Free-Lunch Long Video Generation、FlowDirector、Fast3Dcache、AppAgentX 等项目,整体研究路径表现出从多视角重建、3D 几何建模到练习自由的视频生成与世界模型构建的持续推动

参考链接:https://chenxi-song.github.io/
通信作者张驰,西湖大年夜学助理传授、自力PI,同时担负 AGI Lab负责人,在生成式人工智能和多模态智能偏向开展研究工作。在
此之前,他曾在腾讯担负研究科学家,并于新加坡南洋理工大年夜学获得博士学位,师从林国哄传授,同时与沈春华等学者保持经久合作关系。在学术影响力方面,他持续入选斯坦福大年夜学宣布的全球前 2% 科学家榜单,并担负多个顶级会议和期刊的重要学术办事角色,包含 ICML、ICLR、CVPR 等会议的 Area Chair,以及 IEEE T-CSVT 的副编辑。
在学术成果与研究产出方面,他经久深耕生成式人工智能范畴,研究偏向涵盖扩散模型、多模态生成建模以及智能系一切,近年来带领团队在 CVPR、ICCV、ICLR、NeurIPS 等顶级会议上持续揭橥成果,例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。
这些研究从图像生成、视频生成延长到 3D/4D 场景建模以及多模态智能体,形成了一条从视觉懂得到世界建模的体系性研究路线。
这种研究路径表现出从传统计算机视觉向通用人工智能过渡的趋势,也使其工作处于当前人工智能范畴较为前沿的地位。

参考链接:https://icoz69.github.io/
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复