原力灵机的研究团队推出了一种全新的 VLA 框架 ——GeoVLA。该框架在保持现有视觉 - 说话模型(VLM)强大年夜预练习才能的同时,采取了立异的双流架构。

具体来说,GeoVLA 引入了专用的点云嵌入收集(PEN)和空间感知动作专家(3DAE),使机械人具备真正的三维几何感知才能。这一设计不仅在仿真情况中取得了领先的机能,更在真实世界的各类鲁棒性测试中表示出色。

在一系列实验中,GeoVLA 展示出了明显的优势。在 LIBERO 基准测试中,GeoVLA 的成功率高达97.7%,超出了之前的 SOTA 模型。此外,在 ManiSkill2等加倍复杂的物理仿真测试中,GeoVLA 的表示也相当出色,尤其在处理复杂物体和视角变更时,保持了较高的成功率。

GeoVLA 的核心逻辑在于将义务进行解耦:让 VLM 负责 “看懂是什么”,让点云收集负责 “看清在哪里”。这个全新的端到端框架包含了三个关键组件的协同工作,分别是语义懂得流、几何感知流和动作生成流。这种办法使得模型可以或许更精准地进行义务。

此外,GeoVLA 在分布外场景中的鲁棒性,证清楚明了其在应对各类不肯定性和变更前提下的强大年夜适应才能。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部