作者丨齐铖湧
编辑丨马晓宁
世界模型的研究尚处于起步阶段,共鸣尚未形成,有关该范畴的研究形成了无数支流,以前一年多,Sora为代表的视频生成模型,成为继大年夜说话模型(LLM)后新的学术热点。本质上讲,当下火爆的视频生成模型,是一种世界模型,其核心目标是生成一段逼真、连贯的视频。
要达到如许的目标,模型必须在必定程度上懂得这个世界的运作方法(比如水往低处流、物体碰撞后的活动、人的合理动作等)。
胡文博恰是世界模型研究范畴近两年的绝对新锐。
在方才停止的 GAIR 2025,腾讯ARC Lab高等研究员胡文博,在雷峰网举办的GAIR大年夜会现场带来了异常有看法的演讲:《迈向三维感知的视频世界模型》(Towards 3D-aware Video World Models )。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
以下是具体内容,AI科技评论做了不改变原意的编辑和整顿。
感激邀请和介绍,我今天禀享的标题是《迈向三维感知的视频世界模型》(Towards 3D-aware Video World Models)。
之所以讲这个,是因为Sora在2024岁首年代出来时,给大年夜家带来很大年夜震动。比如它生成的视频,固然看起来是二维的,但已经具备必定的3D一致性。不过从我们做三维重建的角度看,比如测验测验把它重建出来,会发明墙面与地面的垂直性、平整度等都还不敷好。

基于这个不雅察,范畴内认为视频扩散模型有潜力作为世界模型的一种表示方法,但视频本身仍是二维的,而我们的世界是三维的。
所以我们思虑:若何实现一个具备三维感知才能的视频世界模型?
为了实现这种三维感知,我们重要做了两方面工作,今天重点讲第二方面。
我先简单介绍一下第一方面的工作:如安在开放世界情况中,从二维视频中重建三维信息。
我们做了一系列工作,例如video depth (DepthCrafter)(2024年10月挂在arXiv上,如今后果可能已经不是最新的了)。
第一方面是若何从二维不雅测中重建三维信息,这部分和前面彭师长教师讲的内容比较接近。第二方面是若何将重建获得的三维信息融入到生成过程中,使二维空间的视频扩散模型具备三维感知特点。
除了video depth (DepthCrafter),我们进一步思虑:既然video depth照样2.5维的信息,可否直接从视频中估计点云。这就是GeometryCrafter,有了点云,我们就能做类似4D重建的义务,把各帧融合到同一坐标系中。
再进一步,我们还估计了活动信息,这部分我们最新的工作叫Holi4D,可以从单目视频中重建活动。最后一块是外面法线估计NormalCrafter,与前几项比拟,法线包含更多高频细节,因为它是地位的一阶偏导数。基于法线我们可以做重打光、材质编辑等义务。

总的来说,今朝从随便率性开放世界二维视频中重建三维信息的技巧已经成长得不错,我们能获得比较好的三维重建成果了。
接下来重点讲第二方面:若何将三维信息用在视频扩散过程中,使模型具备三维感知才能。我们起首摸索了静态场景下的生成义务:输入一张单图,欲望模型能根据随便率性指定的相机位姿,生成对应的不雅测图像。如许我们就能像玩游戏一样,经由过程控制相机,实现对静态场景的摸索。
这些空洞正好由善于内容生成的视频扩散模型来弥补。我们将衬着的点云作为前提,控制视频扩散过程,从而生成既逼真又相符指定视角变换的图像。
更重要的是,生成的新图像可以反过来用于多视角重建,更新点云,从而实现迭代式、更大年夜范围的场景摸索。这其实与世界模型中的记忆机制相干:三维点云作为一种记忆,经由过程新摸索内容更新点云,再中查询信息作为前提,支撑更远的摸索。

这个工作叫ViewCrafter,2024年10月公开,后来被PAMI接收。办法上,我们借助重建才能:给定一张图,先重建出一个粗拙的三维点云,形成场景的“骨架”。然后基于这个点云进行漫游衬着,衬着成果固然粗拙(可能有空洞),但视角变换关系异常精确。(雷峰网)
后果还不错,不仅支撑单图输入,也支撑稀少多视图输入。从两张图出发的话,摸索范围会大年夜很多。摸索获得的多视图图像可以直接用于重建三维高斯泼溅模型(3D Gaussian Splatting),实现及时衬着。

刚才讲的是静态场景摸索,接下来是若何对动态场景进行摸索。这是我们揭橥在ICCV 2025上的Oral工作TrajectoryCrafter。
核心思惟是:用户输入一段单目视频(它是四维世界的二维投影),模型应许可用户对其背后的四维世界进行摸索,即同时指定相机位姿和时光点,生成对应的动态不雅测。
不合之处在于,动态摸索对生成质量请求更高,是以我们除了注入点云信息外,还将原始视频(质量最高)也作为前提注入扩散模型,从而在精准控制相机位姿的同时实现高质量生成。
成果展示:左侧是原始动态视频,右侧是根据新指定相机位姿生成的动态视频。例如左上角第一个例子,甚至可以绕到人物背后不雅看,光影反射后果也不错。(雷峰网)
模型还能实现“枪弹时光”特效:固准时光点,扭转相机。别的也能模仿“Dolly Zoom”特效(片子常用手段:边推移相机边调剂焦距,使主体大年夜小不变而背景变更),我们的模型可以从原始固定相机视频出发,同时修改相机内参和外参,复现这种后果。
办法延续之前的思路:核心是若何将重建的三维信息注入生成过程。输入是一段视频,我们经由过程视频重建办法将其晋升为三维空间中的动态点云。然后像ViewCrafter一样,基于指定位姿衬着点云。
以上两个工作分别实现了对静态和动态场景的摸索。
我们展示一些成果:左侧是指定的相机轨迹,右侧是从单图出产生成的摸索成果。
对于世界模型,除了摸索,下一步是实现交互:若何对场景中多个物体进行交互?这是我们最新工作VerseCrafter(即将公开)。
仍从单图输入出发,重建几何信息,并将可移动物体用高斯球标注出来。相机和物体轨迹可在Blender中编辑:用户可以交互式设计相机和每个物体的活动轨迹。然后,我们的模型能根据这些交互成果,生成逼真的不雅测视频。也就是说,相机和所有物体的活动都是可交互的。(雷峰网("大众,"号:雷峰网))
实现筹划上,我们构建了一个“4D控制视频世界模型”:从单图出发,基于重建和瓜分办法,重建出部分三维场景,并标注可移动物体。如许就在Blender中获得一个粗拙的、可交互的三维(或四维)世界。固然粗拙,但易于交互。交互成果作为前提,输入到我们设计的视频扩散模型中,生成最终逼真的不雅测。
这个筹划的关键在于若何构建练习数据。我们建立了一套完全的练习数据标注流程,核心基于重建算法和视觉说话模型(VLM)进行标注与过滤。最终我们获得了约35K个高质量视频片段的数据集。
基于这个模型,我们可以做很多工作:固定相机只移动物体、固定物体只移动相机、同时移动相机和物体。我们比较了现有筹划,很多办法只能处理特定类别(如仅限人体),而我们的办法在活动相符度和生成质量上都有不错表示。我们还测试了多玩家联机摸索场景的才能:用两小我各自拍摄的照片作为Player A和Player B的视角,让他们在同一个场景中同时摸索与交互,模型能分别生成各自的视角视频。
总结一下,今上帝要存眷第二方面——三维感知视频世界模型,但这部分异常依附第一方面的开放世界三维重建技巧(包含深度、点云、活动、法线等重建)。
在三维感知视频世界模型方面,我们实现了静态场景摸索模型、动态场景摸索模型,以及支撑在四维场景中同时进行摸索与交互的模型。
这就是今天想和大年夜家分享的内容,感谢。

发表评论 取消回复