在单目深度估计中,分辨率越来越高已经是一个很常见的趋势。很多办法可以输出 2K 甚至 4K 的深度成果,看起来也确切比低分辨率更过细。

但在实际应用中,这类高分辨率深度并不老是好用。尤其是在三维重建、新视角合成等对几何一致性请求较高的义务中,物体边沿轻易发虚,渺小构造经常对不齐,成果并没有跟着分辨率晋升而明显改良。类似的问题在主动驾驶和机械人导航场景中同样存在,几何误差会影响障碍物界线断定和可通行区域估计,从而增长后续筹划与决定计划的不肯定性。

基于如许的不雅察,浙江大年夜学彭思达团队结合幻想研究团队,提出了论文《InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields》。这项工作并未急于在既有框架上寻求更高指标,而是从深度的表示方法本身出发,从新思虑高分辨率前提下深度应若何被建模和应用。

环绕这一思路,研究团队设计了一系列覆盖合成数据、真实数据以及三维下流义务的实验,将这种表示方法放到不合场景中加以考验,从而更过细地不雅察其在细节区域和复杂几何构造中的实际表示。

浙大年夜彭思达团队 × 幻想最新研究:直面高分辨率深度的细节缺掉

而对于依附深度信息进行情况建模的主动驾驶体系而言,这种误差不仅影响局部几何质量,还会进一步影响路径筹划和决定计划的稳定性。久而久之,人们开端意识到,高分辨率深度面对的瓶颈,可能并不只是模型不敷复杂,而是猜测深度的方法本身存在局限。

论文地址:https://arxiv.org/pdf/2601.03252

当深度不再受分辨率限制

研究团队经由过程一系列覆盖合成数据、真实数据以及下流三维义务的实验,体系验证了InfiniDepth 在高分辨率深度估计、细粒度几何建模以及大年夜视角衬着方面的有效性。

起首,在研究团队构建的 Synth4K 数据集上,对模型进行了零样本相对深度评测。Synth4K 由五个子数据集构成,分别来自不合高质量游戏场景,每个子集包含数百张分辨率为 3840×2160 的 RGB 图像及对应高精度深度图,可以或许真实反应高分辨率场景中的边沿构造、薄物体以及复杂曲面。

浙大年夜彭思达团队 × 幻想最新研究:直面高分辨率深度的细节缺掉

在评测过程中,研究人员同时申报了全图区域和高频细节区域的成果,并采取 δ0.5、δ1 和 δ2 作为评价指标。在全图区域内,InfiniDepth 在五个子数据集上均取得了最优表示。

例如,Synth4K-1上,InfiniDepth的δ1达到89.0%,明显高于 DepthAnything 的 83.8% 和MoGe-2 的 84.2%;在Synth4K-3 上,其 δ1晋升至 93.9%,比拟DepthPro和Marigold 等办法仍具有明显优势;在 Synth4K-5 上,InfiniDepth 的 δ1 达到 96.3%,在所有比较办法中排名第一。这些成果注解,在整体区域内,该办法在高分辨率前提下具备稳定而一致的精度优势。

在进一步针对高频细节区域的评测中,研究人员仅在由多标准拉普拉斯算子筛选出的几何变更激烈区域计算指标。成果显示,所有办法在高频区域的机能都邑明显降低,但InfiniDepth 的降低幅度最小,且在多半子集上仍保持领先。

例如,在Synth4K-1 的高频区域内,其δ1达到67.5%,而 DepthAnything 和 DepthAnythingV2 分别仅为 61.3% 和 60.6%;在 Synth4K-3 的高频区域中,InfiniDepth 的 δ1 为 69.0%,比拟 MoGe-2 的 63.4% 有明显晋升。整体来看,InfiniDepth 在高频区域的 δ1 指标平日比主流办法赶过约 5 至 8 个百分点,注解这个办法在边沿、薄构造和局部几何变更区域具有更强的表达才能。

彭思达传授在三维视觉、神经隐式表示以及深度感知等研究偏向上具有扎实的研究积聚和持续的学术供献,已在多项国际顶级会议和期刊上揭橥高程度论文,并在多项学术评选中获得重要荣誉,包含2025 China3DV 年度出色青年学者奖和2024 CCF 优良博士论文奖。

值得一提的是,这类高频区域本身并非只存在于合成数据中,而是广泛涌如今真实世界的复杂场景中。在主动驾驶情况下,路缘、护栏、交通标记杆等关键元素往往具有细长、界线清楚且几何变更明显的特点,其深度估计精度直接影响车辆对门路构造和可行驶空间的懂得才能。是以,在这些区域中保持稳定的几何表达,对于晋升复杂门路情况下的感知靠得住性具有实际意义。

研究团队还特别指出,这种机能差别并非来自后处理技能。对于 Synth4K 的 4K 输出,绝大年夜多半比较办法须要先在较低分辨率下猜测深度,再经由过程插值方法上采样到 4K,而InfiniDepth 因为采取持续深度表示,可以直接在 4K坐标地位猜测深度值,是以其在高分辨率评测中的优势反应的是模型原生的分辨率扩大才能。

浙大年夜彭思达团队 × 幻想最新研究:直面高分辨率深度的细节缺掉

在真实世界数据集上的零样本相对深度评测中,研究人员在KITTI、ETH3D、NYUv2、ScanNet和DIODE五个数据集上申报了 δ1 指标。成果显示,InfiniDepth在这些数据集上的表示与当前主流办法整体处于同一程度。

例如,在ETH3D上,其 δ1 达到 99.1%,略高于MoGe-2的99.0%;在KITTI 上,其 δ1 为 97.9%,与DepthPro和MoGe等办法根本持平;在NYUv2和ScanNet 上,InfiniDepth的表示也未出现明显退化。这些成果解释,即便模型只应用合成数据练习,其持续深度表示并未对真实数据的泛化才能造成负面影响。这种对练习数据分布变更不敏感的特点,在主动驾驶和移念头器人等实际安排场景中尤为关键,因为真实情况往往与练习前提存在较大年夜差别,对感知体系的稳定性提出了更高请求。

浙大年夜彭思达团队 × 幻想最新研究:直面高分辨率深度的细节缺掉

在标准深度估计实验中,研究团队将 InfiniDepth 与稀少深度提示机制结合,并在 Synth4K 以及真实数据集上采取更严格的 δ0.01、δ0.02 和 δ0.04 指标进行评测。雷峰网

在 Synth4K 的全图区域中,InfiniDepth-Metric 在 Synth4K-1 上的δ0.01 达到 78.0%,比拟PromptDA 的 65.0% 晋升明显;在 Synth4K-3 上,其 δ0.01 达到 83.8%,同样领先于所有比较办法。在高频细节区域内,这一优势加倍明显,例如在 Synth4K-3 的高频区域中,InfiniDepth-Metric 的 δ0.01 为 37.2%,而 PromptDA 仅为 24.7%,PriorDA 和 Omni-DC 的表示更低。这注解,在细节区域和高精度标准估计义务中,持续深度表示可以或许带来更明显的收益。

浙大年夜彭思达团队 × 幻想最新研究:直面高分辨率深度的细节缺掉

一个很重要的原因在于,现有办法大年夜多仍在固定分辨率下猜测深度,再经由过程插值将成果放大年夜到更高分辨率。如许做固然可以或许获得更大年夜的输出尺寸,但在细节区域,本质上只是放大年夜了原有的猜测误差。

在真实数据集的标准深度评测中,研究人员同样不雅察到一致趋势。在 KITTI 和 ETH3D 上,InfiniDepth-Metric 的 δ0.01 指标分别达到 63.9% 和 96.7%,均优于现有办法;在 DIODE 数据集上,其 δ0.01 达到 98.4%,在比较办法中排名第一。这解释该办法在引入稀少深度束缚后,可以或许在真实场景中实现高精度且稳定的标准深度猜测。

浙大年夜彭思达团队 × 幻想最新研究:直面高分辨率深度的细节缺掉

这种更靠得住的三维几何构造不仅有利于视觉重建和衬着义务,在主动驾驶和机械人体系中同样具有实际意义。更精确的空间几何信息有助于体系对四周情况形成更清楚的空间认知,从而为后续的导航筹划与决定计划供给加倍稳定的感知支撑。

浙大年夜彭思达团队 × 幻想最新研究:直面高分辨率深度的细节缺掉把深度放进三维里再看一次

这些实验成果来源于研究团队环绕“深度表示方法是否限制分辨率扩大性与几何细节恢复才能”这一核心问题所设计的体系实验。

研究人员指出,现有单目深度估计办法广泛在固定像素网格长进行深度猜测,输出分辨率与练习分辨率强相干,高分辨率成果平日依附插值或上采样,从而弗成避免地损掉高频几何信息。为验证这一问题是否源于表示方法本身,研究团队提出将深度建模为持续空间中的映射关系,使模型可以或许在随便率性图像坐标地位直接猜测深度值。

浙大年夜彭思达团队 × 幻想最新研究:直面高分辨率深度的细节缺掉

在数据设计上,为避免真实数据集中深度标注稀少、分辨率有限和噪声较大年夜的问题对实验结论产生干扰,研究人员构建了 Synth4K 数据集,并进一步引入高频细节掩码,经由过程多标准拉普拉斯能量筛选出几何变更最为激烈的区域,从而实现对模型细节恢复才能的定量评估。

浙大年夜彭思达团队 × 幻想最新研究:直面高分辨率深度的细节缺掉

在实验设置上,所有比较办法均应用雷同分辨率的输入图像,并在评测阶段同一对齐标准;对于 4K 输出,基线办法的成果经由过程上采样获得,而 InfiniDepth 直接在 4K 网格坐标地位进行深度猜测,以确保实验比较集中反应深度表示和解码方法的差别。在练习阶段,研究人员并未对整张深度图逐像素监督,而是随机采样大年夜量坐标与对应深度值进行练习,这一策略既相符持续深度建模的设定,也使得高分辨率监督加倍灵活。

浙大年夜彭思达团队 × 幻想最新研究:直面高分辨率深度的细节缺掉

为验证各个模块的供献,研究团队进一步设计了体系的消融实验。当移除持续深度表示、回退到传统离散网格猜测方法时,模型在 Synth4K 和真实数据集上的高精度指标广泛降低 8 到 12个百分点;当去除多标准局部特点查询与融合机制时,模型在细节区域的机能同样出现一致性退化。这些成果从定量角度证实,持续表示和多标准局部查询是 InfiniDepth 机能晋升的关键身分。雷峰网("大众,"号:雷峰网)

浙大年夜彭思达团队 × 幻想最新研究:直面高分辨率深度的细节缺掉

在新视角合成相干实验中,研究人员进一步分析了像素对齐深度在三维反投影过程中造成点云密度不均的问题,并基于持续深度表示所支撑的几何分析才能,根据不合区域对应的外面覆盖情况分派采样密度,从而在三维空间中生成加倍平均的外面点分布。实验成果注解,这一策略在大年夜视角变更前提下可以或许有效削减孔洞和几何断裂。

研究背后的工作者

浙大年夜彭思达团队 × 幻想最新研究:直面高分辨率深度的细节缺掉不合场景下的一致性结论

综合上述实验可以看出,InfiniDepth 的研究意义不仅表如今指标上的晋升,更在于研究团队经由过程多半据集、多指标和多义务的定量实验,清楚地注解高分辨率深度估计中几何细节恢复才能的重要瓶颈来源于深度表示方法本身。在 Synth4K 这一高分辨率基准上,高频细节区域中广泛达到 5 至 10个百分点的机能晋升,直接说清楚明了依附插值的高分辨率猜测在几何建模上的局限性。

同时,真实数据集上的零样本评测成果注解,持续深度表示并未减弱模型的泛化才能,而在引入稀少深度束缚后,其在高精度标准深度估计中的优势进一步放大年夜。结合新视角合成实验可以看到,这种表示方法不仅晋升了二维深度图在细节上的一致性,也为三维点云构建和衬着供给了加倍稳定的几何基本。

浙大年夜彭思达团队 × 幻想最新研究:直面高分辨率深度的细节缺掉

在此基本上,这类持续深度表示所带来的稳定几何构造,使深度信息可以或许更天然地被用于后续的三维建模与情况懂得。在主动驾驶和机械人体系中,这种高分辨率且一致的深度感知,有助于晋升复杂场景下空间建模和导航决定计划的靠得住性。

此外,在单视图新视角合成实验中,研究团队将 InfiniDepth 猜测的深度用于构建三维点云并驱动高斯衬着。实验成果注解,比拟采取像素对齐深度的办法,在大年夜视角变更前提下,基于该办法构建的点云分布加倍平均,生成的新视角图像中几何空洞和断裂明显削减,整体构造加倍完全。这解释持续深度表示可以或许为三维建模供给加倍稳定和一致的几何基本。

总体而言,研究团队经由过程在高分辨率合成数据、真实世界数据以及下流三维义务上的体系实验,器具体数据和指标证清楚明了持续隐式深度表示在分辨率扩大性、几何细节恢复才能以及大年夜视角衬着方面的综合优势,为单目深度估计的后续研究供给了清楚而可验证的偏向。

本论文的通信作者彭思达,现任浙江大年夜学软件学院研究员。他于 2023 年在浙江大年夜学计算机科学与技巧学院获得博士学位,师从周晓巍传授和鲍虎军传授,本科卒业于浙江大年夜学信息工程专业。

此外,他在 GitHub 上分享的小我科研经验与进修材料获得约9.7K 星标存眷,致力于推动空间智能与几何感知范畴的基本研究与应用落地。

彭思达传授的研究兴趣从神经隐式深度估计进一步拓展至动态场景建模、空间智能体练习以及大年夜范围三维重建等偏向,强调剂决具有实际应用价值且尚未充分化决的核心问题,推动新技巧在真实施业场景中的落地与影响。

浙大年夜彭思达团队 × 幻想最新研究:直面高分辨率深度的细节缺掉

参考链接:https://pengsida.net/

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

浙大年夜彭思达团队 × 幻想最新研究:直面高分辨率深度的细节缺掉

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部