在线更新收集权重作为场景的记忆,全部收集就记录了全部场景的记忆,有了记忆可以猜测出每个 chunk 的显性地位的点云,该点云也更具有全局一致性,是以拼接起来后果更好。

在“世界模型”分论坛上,浙江大年夜学研究员彭思达带来了《面向具身智能的通用空间感知技巧》的主题演讲,介绍了其团队近期在付与机械人通用感知才能方面的多项工作。彭思达是浙江大年夜学软件学院“百人筹划”研究员、博士生导师,研究偏向为三维计算机视觉和计算机图形学。

 这些底层空间感知技巧有何感化?起首,它们能为机械人供给关键的决定计划信息。例如,无人机在空间中须要先知道自身地位、与场景目标的距离,才能实现基本避障;进而还需懂得目标物体的活动情况,才能进行追踪。基于从场景中获取的三维空间信息,机械人的行动筹划便能获得有力支撑。 

彭思达提出,其实可将人类视作一种特别形态的机械人——具备完全的身材构造与行动模式。若能创造一种数据采集设备,将人类日常行动完全记录下来,就相当于获取了机械人所需的行动数据,从而可用于练习人形机械人。这个中便涉及相机定位、深度估计与物体活动估计等技巧。

相机定位

然而,该流程今朝面对的挑衅在于图像匹配。团队发明,传统匹配办法在恶劣情况或视角差别较大年夜的情况下后果不佳,会影响后续相机位姿估计的精确性。

针对这一问题,彭思达地点实验室于2021年提出一种新办法:不再依附传统匹配方法,而是直接应用Transformer大年夜模型进行图像匹配。具体而言,将两张图像输入LoFTR模型以提取稠密特点,这些特点之间即使在弱纹理区域也能实现优胜的匹配。

但这个办法的问题是,多模态匹配很难,例如实际情况往往是黑夜日间瓜代、热传感跟可见光同时出现,这种情况下两两无法匹配。所以我们要解决跨模态的问题,

客岁团队针对此问题提出了新的工作叫 MatchAnything,核心思路是用大年夜量来源的数据,和多模态预练习框架去练习 LoFTR 模型,成功实现了实现了红外和可见光、事宜和可见光、CT 和 MR 的匹配。这个中其实是工程数据问题,彭思达团队整合了多种数据来源,一种是常见的多视角图像,一种是大年夜量的单目视频。单目视频要若何匹配?团队应用了成熟的光流算法,将其一个个拼接起来,获得一个长时序的匹配关系。第三种数据来源是经由过程图像变换,例如将单张图片用传统的图像变换给 warp,就形成了一个稠密匹配。

前三种都是在同一个模态下,进一步增光匹配的数据练习来源,还有一种是做跨模态数据生成。团队经由过程对现有两两匹配中的一张图片做跨域生成,比如将其变成热传感图像、黑夜图像、深度图像,发明只做少量的三种模态就能实现随便率性跨模态才能。如斯便可以实现即便卫星图像是夏天的,无人机在冬天工作也能匹配,以前是匹配不上的。

此外,跨模态数据生成还包含可见光跟雷达图像,可见光跟矢量地图,红外跟可见光,匹配的情况增多,逐渐形成一个匹配的模型后,特别是应用于遥感范畴的无人机机能大年夜大年夜加强,同时应用于主动驾驶范畴也出现了不错的后果。

但 MatchAnything 面对一个问题,即没法融入已有的 SfM 算法,因为 MatchAnything 或者 LoFTR 模型的输出匹配因图片对不合而不合,导致无法建立多视图匹配,是以没法直接用在 SfM 算法中。

彭思达表示这是一个大年夜问题,导致 MatchAnything 无法直接用于相机定位,为此他们又提出一个新的解决思路 Detector-free Sf,即先基于 MatchAnything 重建一种粗拙的模型,再做模型优化。

具体做法是给两张图片做无特点检测的图像匹配,因为无法很好地形成多视角匹配,起重要做量化匹配把多张图片的匹配关系连接起来,再去跑传统的 SFM 算法。但图片匹配关系被量化后,精确率降低,所以SFM 跑出来的成果不准。是以须要迭代式去优化。

迭代式优化的具体流程是先优化多视角匹配,再优化三维模型,根据下图所示,优化后就能看到最右边的三维模型有一个更周详的点云以及更精细的三维位姿。

同时,Detector-free SfM 面对的问题跟所有传统办法一样,重建速度太慢了,一个模型迭代式优化可能须要几十个小时甚至一天,以至于对于那些对时光比较敏感的重建义务不太好用。

为懂得决速度的问题,彭思达团队进而进行了一项端到端的重建工作。已有的办法像 VGGT,这是本年 CVPR 的最佳论文,最大年夜的冲破是直接应用一个大年夜型的大年夜模型去回归图片的相机地位和深度,因为是收集直出所以速度很快,比如一个场景传统的相机地位估计办法可能须要十几个小时,VGGT 只须要一两秒,这是异常大年夜的晋升。

相机定位方面,最传统经典的办法是Colmap。该办法从图像中提取特点并进行两两匹配,再经由过程增量式活动恢复构造(SfM)获得相机地位。最终每张图像对应一个相机地位,并合谋生成三维点云,形成经典的三维重建流程。

但 VGGT 最大年夜的问题是没法处理大年夜范围场景,因为它是个大年夜的收集,图片越多收集很轻易就会爆显存。处理上百张图片勉强可以,然则 1000张肯定就不可了。

一个直不雅的解决办法将大年夜场景进行分段猜测。假如没办法一次性处理太多图片,可以把大年夜场景进行分段猜测,分成很多 chunk,然后对每个 chunk 去估计相机地位。但这种情况下,因为每个 chunk 猜测不敷精准,导致 chunk 之间难以拼接,两两连接后果并不好,最后会形成一个累积误差,全部收集会坏掉落。

对此,彭思达团队提出了一个新办法 Scal3R,其相干论文已经被 CVPR 接收。该办法受人类的全局视野启发——人有全局视野的情况下,对局部场景的几何猜测也有更一致的猜测,所以 Scal3R 致力于付与 VGGT 对目标场景的全局视野。

构建全局视野的具体办法是应用收集权重记录每个 chunk 的内容。具体实现的流程是先输入 chunk 的一组图片,直接更新到一个收集权重里就能记录这组 chunk 图片内容。在推理中若何实现呢?一个收集模块直接猜测 KB,再拿这个 KB 去更新一个收集权重,该收集权重就记录了该 chunk 的图片内容。

 团队从生成式模型出发,提出了 Pixel-Perfect-Depth 的解决思路:起首移除VAE,直接在像素空间进行优化,以避免VAE带来的信息损掉,使得像素空间扩散避免了边沿飞点。然而,没有VAE后模型须要更全局的视野,是以他们将说话特点整合到DiT模型中,发明这能明显加强模型深度估计才能。

深度估计

深度估计是通用空间感知的关键构成部分。客岁,彭思达团队在晋升深度估计才能方面取得了三项进展,个中之一是“Pixel-Perfect-Depth”思路。

 具身智能须要深度估计,是因为精确的深度信息能晋升机械人的决定计划机能。但现有办法广泛在物体边沿存在“飞点”问题:判别式模型(如Depth Anything)偏向于猜测“折中值”以最小化损掉,从而导致飞点;生成式模型(如Marigold)虽能从理论上建模多峰深度分布,但因应用VAE进行紧缩,同样会产生飞点。 

Pixel-Perfect-Depth 办法还能拓展晋升视频深度估计才能。相对于单张图片输入,常见的是视频输入,要对视频深度估计,只须要在 Pixel-Perfect-Depth 上做两个简单的改进,起首是提取视频的语义特点,获得特点今后注入到多视角的估计模型里;第二,视频深度估计重要的是保持时序的持续性,经由过程 target tokens叠加reference tokens,晋升时序一致性。

Pixel-Perfect-Depth 固然能做好单张图片和视频深度估计,但做不好带标准的深度估计。而很多场景是带标准的,因为没有标准机械人就不好用。为懂得决该问题,彭思达团队从说话模型的 prompt 技巧汇总获得灵感,试图摸索为深度基本模型设计提示词机制,以晋升其输出绝对深度的精确性。

他们将雷达做诶深度感知的prompt喂给深度估计基本模型,让其产生绝对深度。

该算法 Prompt Depth Anything 不仅可以晋升通用机械人抓取才能,抓取成功率超出Image及LiDAR作为输入;还能应用于主动驾驶重建;做三维扫描、前馈式三维高斯等等。

但 Prompt Depth Anything 仍然存在问题,要获得三维场景的深度估计一般经由过程反投影,但透视投影在相邻视角看着还不错,假如俯视、反投影获得的点云在远处会产生裂缝。

 其次,这些技巧可用于生成练习数据。当前具身智能范畴的一大年夜难题是数据匮乏。以往有人测验测验仿真或遥操获取数据,但遥操数据虽好却难以范围化扩大,而仿真技巧今朝仍与真实世界存在较大年夜差距。

对此彭思达团队提出了一个叫 InfiniDepth 的解决思路,即不只是给每个像素估计深度值,还给每个次像素估计,其论文已经投稿在 CVPR。具体做法是将已有DPT Head改为Implicit Decoder,就能获得一个完全的几何,达到大年夜范围的视角衬着。如许能进步模型精细度,例如能更好办事于机械人去抓取线缆的才能。

物体活动估计

 团队重要聚焦于付与机械人三项基本才能:一是相机定位(Camera Pose Estimation),即让机械人知道本身在空间中的地位;二是深度估计(Depth Estimation),使机械人懂得场景中各物体与自身的距离;三是物体活动估计(Object Motion Estimation),让机械人感知世界的活动状况。 

将人类行动数据转化为有效练习数据,是当前具身智能成长的关键。这须要获取深度信息、相机活动以及人类行动语义轨迹,而语义轨迹的获取又依附于跟踪。彭思达团队客岁的一个工作就跟三维跟踪有关。 

 此前已有办法应用时序匹配进行跟踪,例如Google的CoTracker:先初始化一组二维像素点,再应用Transformer迭代优化这些点的轨迹。但该办法仅在二维层面进行跟踪,轻易因相邻区域的干扰而损掉目标,后果受限。 

 彭思达团队的思路是将二维图像反投影至三维空间,做 3D  tracking。具体做法是:输入图像并反投影至三维,获得三维特点后,在三维空间中初始化一条三维轨迹,再应用Transformer对该轨迹进行优化,从而实现更鲁棒的跟踪后果。该办法被定名为SpatialTracker。「雷峰网("大众,"号:雷峰网)


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

浙江大年夜学研究员彭思达:底层空间感知技巧对练习机械人有何感化?|GAIR 2025

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部