谷歌 DeepMind 最新宣布了名为 D4RT(Dynamic 4D Reconstruction and Tracking)的 AI 模型,冲破了传统 AI 对视频感知的限制,使机械可以或许像人类一样“看到”并懂得动态世界——不仅是空间的 3 维,还包含时光这一第四维度。
据介绍,D4RT 是一个同一、高效的 AI 模型,可以或许从通俗 2D 视频中重建 3D 场景和物体随时光的活动轨迹。传统技巧平日须要多个自力组件分别处理深度估计、活动跟踪、相机位姿等义务,这不仅复杂且运算量大年夜。D4RT 则将这些功能整合到一个 Transformer 架构中,经由过程一种灵活的查询机制同一完成。
其核心思惟是:
体系可以被问一个关键问题——某个像素在某一时刻、某一视角下的 3D 地位在哪里?
然后经由过程高效的查询机制快速给出谜底。
D4RT 的表示远超现有办法:
-
经由过程同一的架构和并行查询处理,它在多个 4D 场景重建义务中表示优良。
-
在标准数据集上,它比传统技巧快 18× 到 300×,例如处理 1 分钟视频只需约 5 秒(而以前的模型可能须要数分钟)。
-
即使当物体临时被遮挡或分开画面,D4RT 也能精确猜测其活动轨迹。

D4RT 不仅是理论模型,还具备实际应用价值:
- 点追踪(Point Tracking):可从视频中追踪像素在 3D 空间中随时光的移动轨迹。
- 点云重建(Point Cloud Reconstruction):能在随便率性时光下生成完全的 3D 构造。
- 相机位姿估计(Camera Pose Estimation):重建相机路径和姿势,无需额外外部信息。

D4RT 的技巧冲破不仅晋升了 4D 场景懂得的速度与精确性,还意味着 AI 体系可以更接近真实世界感知才能:
- 机械人:及时感知动态情况,有助于导航与操作。
- 加强实际(AR):可为 AR 设备供给低延迟、精确的空间懂得。
- “世界模型”:赞助 AI 更好地舆解物体、相机与时光之间的关系,是通向更高等智能的一步。
谷歌 DeepMind 表示,D4RT 将视觉懂得从传统的二维视频分析推动到了真正的“四维时空感知”。其同一而高效的架构不仅冲破了机能瓶颈,还在真实应用处景中展示出强大年夜潜力,为下一代智能机械感知动态实际奠定了基本。

发表评论 取消回复