在机械人研究中,抓取这一看似基本的问题正在成为决定上层智能能走多远的关键变量。今天的大年夜模型已经可以或许懂得说话、分析图像、筹划义务,但在与世界产生真正物理接触的那一刻,智能体系仍然显得愚蠢。
现有抓取研究大年夜多逗留在稳定性层面,只要能夹住、不掉落落,即视为成功。然而在人类的日常活动中,抓取从来不是目标本身,而是功能行动的起点。端起杯子是为了倒水,握住锤柄是为了敲击,按住喷壶的扳机是为了喷洒。也恰是在这一层意义上,功能性抓取比稳定抓取更接近真实世界的智能。
难点在于,功能性抓取并不是简单的几何问题,而涉及对物体构造、用处、操控部位以及抓取方法的综合懂得。尤其在灵活手体系中,上百维的控制空间与复杂的接触动力学叠加,使得传统强化进修办法难以取得有效进展。若何让机械人自立进修到功能相干的抓取地位与合适的抓取姿势,一向缺乏体系而可验证的解决筹划。
在这一背景下,北京大年夜学卢宗青团队在论文《Universal Dexterous Functional Grasping via Demonstration-Editing Reinforcement Learning》中提出了一种名为 DemoFunGrasp 办法,对功能性抓取进行了从新建模。
研究团队将存眷点从纯真是否抓住物体,晋升到若何环绕物体的具体功能进行抓取。他们把功能相干的地位以及抓取时所采取的姿势风格纳入到同一的进修框架之中,使功能目标直接介入到策略优化过程中,并在大年夜范围仿真情况和真实机械人平台上对这一框架进行了体系验证,并取得了在仿真与真实场景中均表示稳定、成功率跨越70% 的功能性抓取后果。

论文地址:https://arxiv.org/pdf/2512.13380v1
从「抓得住」走向「抓得对」
这项研究的实验起首证清楚明了一个核心结论:研究团队所提出的 DemoFunGrasp 办法可以在大年夜量不合外形、不合功能、不合抓取风格的物体上,实现可控的、语义明白的功能性抓取,并且不仅在仿真情况中有效,还可以或许直接迁徙到真实机械人平台上。
论文的第一个重要实验成果,是在大年夜范围仿真情况中取得了较高的抓取成功率。研究者在 IsaacGym 中构建了包含三千多个不合物体的情况,这些物体来源于 DexGraspNet 和 YCB 数据集,外形差别异常明显,包含细长物体、球形物体、带把手的容器、对象类物体等。
在这些场景中,机械人被请求在指定功能前提下完成抓取,例如抓住杯子的把手、抓住喷壶的扳机地位或抓住对象柄部。实验注解,在这种功能束缚前提下,提出的办法仍然可以或许保持较高的抓取成功率,解释所学到的策略不仅存眷稳定性,并且兼顾功能需求。

第二个重要实验成果是功能区域对准精度明显进步。传统抓取办法平日只要抓住即可,而不关怀具体地位。为评价功能性,研究团队还定义了“成功抓取情况下,目标功能点与实际接触点的距离”这一指标。
在具体物体上可以清楚看到这种差别,例如在锤子场景中,基线办法的抓取多集中在锤优等稳定区域,而 DemoFunGrasp 的接触点重要分布在锤柄地位,在喷壶场景中,前者常抓在瓶身外面,后者则更多落在扳机或握持柄部邻近,整体抓取地位明显加倍切近功能区域。
当控制难题被真正降维

第三个重要实验成果是抓取风格的多样性与可控性。研究起首根据人类手部抓取分类体系,定义了一系列具有语义含义的抓取风格,例如捏持、侧持、小直径抓等,并将其输入到策略模型中,作为控制前提。
在抓取风格的多样性与可控性方面,实验起首在同一物体上施加不合的抓取风格前提,例如捏持、侧持、小直径抓等,不雅察由此产生的抓取成果。
2025 年 1 月,他创建北京智在无界科技有限公司(BeingBeyond),提出经由过程标注 1500 万条互联网视频中的人类关节动作数据构建多模态姿势模型。同年 6 月,公司完成由联想之星领投、智谱 Z 基金、燕缘创投和彬复本钱跟投的数切切元天使轮融资,资金重要用于模型迭代与家当化验证。
实验发明,同一物体在不合风格前提下,策略会主动生成截然不合的抓取姿势,而不是简单改变少量关节角或进行微弱扰动,表示出明显的风格差别。进一步地,将大年夜量抓取姿势映射到低维嵌入空间进行可视化分析时可以看到,不合抓取风格在嵌入空间中形成清楚分别的聚类,解释风格旌旗灯号被稳定地编码并感化于控制过程,模型真正学到的是构造化、可控的抓取风格,而非无意义的数值波动。

第四个实验成果表如今真实机械人平台上。实验中研究团队应用真实 7 自由度机械臂加灵活手体系,对日常物体进行功能抓取测试,包含水壶、碗、喷壶、喷鼻蕉、玩具以及各类对象。
在此场景中,机械人只依附摄像头图像,而不再获得仿真中的完美状况信息。研究者没有进行额外的真实世界微调,而是将策略直接安排在实际情况中,仍取得了跨越 70% 的抓取成功率。更重要的是,机械人不仅完成抓取行动,还可以或许履行功能相干的后续动作,例如提起壶柄倒水、抓住喷壶扳机进行喷射等。这解释,策略不只是“抓住就好”,而是抓在真正可以或许应用的地位。

此外,研究还经由过程消融实验证实设计中的关键模块都是须要的。例如,去掉落可供性相干嘉奖项后,成功率反而略有晋升,却明显偏离功能区域,解释假如只寻求稳定,会就义功能精确性;去掉落风格扰念头制后,成功率大年夜幅降低,注解风格调节对策略摸索具有重要意义;去掉落尺寸归一化后,大年夜物体的进修变得极不稳定,证实推敲标准一致性至关重要。这些实验合营证实,论文中提出的具体设计不仅是附加装潢,而是支撑整体机能的关键身分。

特别重要的是,他们还推敲到不合物体尺寸差别明显,假如直接应用欧氏距离作为衡量标准,尺寸大年夜的物领会被不公平地处罚。是以,研究中引入了按物体尺寸进行归一化的距离测量方法,从而包管嘉奖标准一致,这使强化进修加倍稳定。

把「怎么抓」晋升到「为什么而抓」
再次,论文提出的功能点 + 抓取风格表达方法,本身就是一种重要概念建模立异。它把功能抓取从模糊概念转化为可计算、可组合、可前提控制的情势,使得抓取策略可以或许接收来自人类说话、义务筹划器或感知体系的前提输入。这为将来多模态机械人体系与人类天然交互供给了基本。雷峰网("大众,"号:雷峰网)
为了获得上述实验成果,研究团队设计了一条较为清楚的办法路线,这条路线的核心思惟,就是把“功能抓取”从直觉概念变成了建模优胜的问题,然后再应用强化进修和模仿进修进行求解。
起首,研究团队在义务建模上做了异常关键的一步:它没有直接把抓取看作一个简单的“手与物体互相接触”的几何问题,而是明白提出,功能抓取应当由两个互补部分合营定义,即抓取的功能性地位以及抓取的姿势风格。功能地位用三维空间中的可供性点来描述,例如茶壶的把手地位、喷壶的扳机地位或剪刀的握柄地位。
抓取风格则应用类别标签来表示,例如捏持、环握或侧持等。这种分化使得功能抓取问题可以被表达为:在给定物体外形、功能点和风格标签的前提下,计算一个完全的抓握动作。

接下来,研究引入了演示编辑强化进修办法。传统强化进修在 dexterous hand 场景下异常艰苦,因为灵活手具有二十多个甚至更多的自由度,动作空间极高,并且抓取涉及复杂的接触动力学,摸索过程轻易掉败。为此,研究团队不是让策略从零生成整条抓取轨迹,而是先预备一条基本示范轨迹,然后让策略进修如安在这条轨迹邻近进行修改。示范轨迹可以懂得为一种“根本抓取动作骨架”,而策略只做残差式调剂。
具体来说,策略输出包含手段位姿的整体变换,以及手指关节角的小幅变更,这些变更直接感化于演示轨迹,获得新的履行动作。这种方法将本来须要在长时光序列中持续决定计划的问题,转化为一次性的单步决定计划,从而大年夜大年夜降低了搜刮空间和进修难度。

在此基本上,研究人员精心设计了嘉奖函数,使策略不仅寻求抓取成功,还要遵守功能束缚与姿势风格。嘉奖包含四个核心部分:抓取是否最终成功、抓取接触点与功能性可供性点的距离、抓取过程中是否接近功能区域以及最终手部姿势与目标风格的差别。雷峰网

之后,研究过程并未逗留在状况级强化进修上,而是进一步把策略迁徙到视觉输入空间。具体过程是,先应用上述状况策略在仿真情况中大年夜量收集成功的抓取轨迹,包含 RGB 图像、手臂与手部的状况、目标功能点、抓取风格标签以及控制动作。
实验显示,DemoFunGrasp 可以或许明显减小这两者之间的距离,误差在平均程度上大年夜约降低到 3 厘米阁下,而比较办法往往会偏离较远,甚至抓在完全不相符功能请求的地位上。
然后,将这些数据作为监督旌旗灯号,练习一个视觉策略收集,使其直接从原始图像猜测控制旌旗灯号。这一步实际上相当于进行了一次模仿进修或策略蒸馏,它将“幻想信息下学得的策略”转化为“真实感知前提下可履行策略”。练习过程中,作者对光照、材质、相机地位等身分进行了大年夜范围随机化,使视觉策略不依附特定情况特点,从而可以或许在真实世界中运行。

研究团队还将视觉说话模型引入体系中,使机械人可以或许从说话中懂得功能性抓取请求。当用户说“抓住喷壶的扳机”或“拿茶壶的把手”时,视觉说话模型会在图像中定位对应的功能区域,并将其转换为可供性点作为抓取策略输入。如许,体系构建起完全的链条:从说话懂得,到视觉感知,到功能地位推理,再到灵活手抓取控制。
这项研究的意义可以从三个层面懂得:抓取目标的改变、进修办法的冲破以及具身智能体系整体才能的晋升。
起首,它改变了传统机械人抓取的目标。以往大年夜多半机械人抓取研究,只要物体被抬起、不掉落落,就认为义务完成。然而在人类日常生活中,大年夜多半抓取并不只是“抓住”,而是“为了应用”。例如抓杯子是为了倒水,抓剪刀是为了剪器械,抓喷壶是为了喷洒。
这项研究将功能性请求明白引入抓取环节,使机械人抓取从“几何稳定性问题”改变为“与物体功能慎密相干的语义问题”。这标记住机械人操作从纯真的物理行动向语义行动过渡,是迈向真正智能操作的关键一步。
其次,这项工作为 dexterous hand 的强化进修供给了新的解决路径。灵活手具有极高自由度和复杂接触模式,直接在其动作空间长进行强化进修往往极其艰苦,轻易陷入摸索掉败或收敛迟缓的问题。
论文提出的演示编辑式强化进修,经由过程构造演示轨迹作为参考,将多步持续控制转化为单步残差决定计划,大年夜幅降低了进修难度。这种思惟不仅实用于抓取,还可能推广到多种复杂操作义务,例如扭转、插接、开合等,对全部 dexterous manipulation 范畴具有启发意义。
最后,这项研究实现了从说话、视觉到低层控制的完全闭环,机械人不再只是履行刚性预设法度榜样,而是可以或许在懂得义务语义后自立决定若何抓取和应用物体。这种才能是通用家庭机械人、办事机械人以及具身人工智能体系的关键才能之一,是以具有异常重要的理论与应用价值。
让抓取拥有「目标」的研究者
本论文通信作者卢宗青为北京大年夜学计算机学院长聘副传授、国度级青年人才、智源学者。经久担负 NeurIPS、ICML、ICLR 等国际顶级会议的范畴主席,提出 Video Tokenizer 技巧以及 Retriever–Actor–Critic 框架,推动多模态模型与强化进修在机械人范畴的深度结合,其研究成果已在多家头部机械人企业开展场景验证与应用合作。
卢宗青先后在东南大年夜学获得学士和硕士学位,2014 年于新加坡南洋理工大年夜学获得计算机博士学位,随后于 2014 至 2017 年在美国宾州州立大年夜学从事博士后研究。
2022 年,他担负智源研究院多模态交互研究中间负责人,主持国度天然科学基金委原创摸索筹划“通用智能体”项目。2023 年带领团队研发通用智能体 Cradle,相干论文于 2025 年被 ICML 录用。

参考链接:https://z0ngqing.github.io/
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复