假如说以前几年大年夜模型革命解决的是“机械会不会措辞、会不会看图”,那么机械人行业真正的问题是另一层:机械能不克不及在真实世界里把懂得变成行动,并且在经久、反复、带噪声的履行过程中始终稳定可控。

第一道门槛是形态割裂。机械臂、夹爪、灵活手、人形上肢的关节定义与动作空间完全不合,导致数据难以共享,一个模型往往只能绑定一种硬件,换平台就等于重训。

第三道门槛则来自安排体系本身。大年夜量视觉说话动作模型在仿真或离线评估中表示不错,但一上真机就会裸露出控制频率不合步、动作颤抖、误差累积、双臂互相干扰等问题,本质上不是模型不聪慧,而是缺乏面向真实闭环体系的稳定性机制。

第二道门槛是数据成本与覆盖。真实机械人数据昂贵、稀缺、分布窄,既难覆盖长程义务,也难覆盖复杂交互,更难支撑跨形态泛化。

是以,行业在外面上看是在追逐更高的benchmark 成功率,但底层竞争其实正在转向另一种才能:谁能把通用策略练习出来,并把它稳定地安排到真实机械人上,谁就有可能率先跨过从研究走向产品的那道门槛。

在如许的背景下,智在无界开创人卢宗青团队提出论文《Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization》,并给出了一条更接近工程闭环的通用操控路线。

同时 UniHand-2.0 总范围跨越 35,000 hours,包含 120B tokens 与 400M samples,也解释这种人类中间预练习具备足够的数据支撑。

他们并不是纯真依附更大年夜的模型或更多的机械人数据堆叠机能,而是从根问题入手:经由过程以人类为中间的大年夜范围操控数据建立跨形态动作先验,经由过程同一state-action 空间解决不合硬件之间动作说话不一致的障碍,并结合更强的动作生成建模才能与面向真实体系的稳定安排机制,体系性答复通用机械人策略可否在多形态平台上稳定工作并真正实现安排这一核心问题。

卢宗青团队新作:人类先验打底,同一动尴尬刁难齐,通用机械人模型正在落地

通用接近专用

是以,研究团队将实验成果重要分为三类进行出现,分别是真实机械人成果、仿真基准成果和消融实验成果。

在真实机械人实验中,研究人员设计了两种模型设置。一种是Being-H0.5-specialist 专用型,重要用于某一种机械人,进行了更强的对齐与适配,目标是寻求最大年夜机能。另一种是Being-H0.5-generalist 通用型,同一个模型须要适应不合机械人形态,目标是晋升泛化与迁徙才能。

卢宗青团队新作:人类先验打底,同一动尴尬刁难齐,通用机械人模型正在落地

整体实验结论注解,专用型模型的整体表示最好,而通用型模型仅略低,二者在很多义务类别中的差距并不大年夜,尤其是在共享技能强、动作模式类似的义务上表示异常接近。

进一步来看,研究团队按才能需求将真实机械人义务划分为空间类义务Spatial、长程义务Long-horizon、双臂义务Bimanual 和泛化义务Generalization,并发明Being-H0.5 比拟π0.5 的晋升幅度最大年夜涌如今Long-horizon 和Bimanual 两类义务中。

这一点异常关键,因为长程义务往往包含多个步调,渺小的动作误差会赓续累积,极轻易导致后续义务掉败,而双臂义务须要两只手之间保持及时协同,对动作时序与空间耦合请求更高,是以这两类义务最能考验策略是否真正具备可安排的稳定性。

此外,研究过程中还发明,在某些义务例如清桌子这一类容器整顿和收纳交互场景中,通用型模型甚至可能接近或跨越专用型模型的表示。直不雅来看,这类义务须要反复应用抓取、移动、放置等通用子技能,而通用型模型因为在更多机械人和更多义务中进修过类似动作构造,往往表示得更稳定,比拟之下专用型模型固然对单一机械人更强,但也更轻易对某些特定动作习惯产生过拟合。

在关键消融实验中,研究团队重点分析了UniHand-2.0 预练习是否须要。实验结论注解,对于专用型模型来说,即使没有UniHand-2.0 预练习,也可以或许经由过程后续的机械人微调进修到不少才能,但对于通用型模型来说,假如缺乏UniHand-2.0 预练习则会出现明显机能崩塌,在多机械人混淆进修中更轻易表示出才能不足或不稳定。

这解释 UniHand-2.0 的感化并不仅仅是扩大年夜数据范围,而是为练习过程供给了一种跨形态共享的操控先验,使模型可以或许懂得操控动作的合理分布,从而更有效地接收来自不合机械人形态的动作数据。为了支撑这种跨形态操控才能进修,研究团队构建的UniHand-2.0 总范围跨越35,000 hours,包含120B tokens 与400M samples,并融合了人类第一视角手部操作数据16K hours、机械人操控数据14K hours 覆盖 30种机械人形态,以及视觉说话懂得数据约 5K equivalent hours,为模型供给了更丰富的动作先验与语义对齐基本。

卢宗青团队新作:人类先验打底,同一动尴尬刁难齐,通用机械人模型正在落地

在仿真基准实验中,Being-H0.5在 LIBERO benchmark 上取得了异常强的表示,平均成功率达到98.9%,在更艰苦的长程子集LIBERO-Long 上也达到了97.4%,并且仅应用 224×224 的 RGB 图像输入。

推敲到 LIBERO 具有多义务、多场景以及明显的长程操作链特点,如许接近 99% 的成功率注解模型不仅可以或许履行动作,还具备很强的义务稳定性、闭环纠错才能以及对序列动作构造的进修才能。

这项工作的实验成果并不是简单地解释成功率更高,而是环绕一个核心问题展开:一个模型可否同时学会操控不合形态的机械人,甚至包含人手的动作方法,并且在真实机械人上安排时依然保持稳定靠得住。

此外,在RoboCasa 厨房义务中,这一基准包含 24 个义务,更接近真实家庭场景,涉及多对象、多容器以及频繁接触交互过程,Being-H0.5在整体比较中同样领先多个基线办法,包含部分 3D办法,这解释模型不仅在桌面义务上有效,也可以或许在更复杂的家庭操作场景中保持较强机能,并且在RoboCasa benchmark 上给出了53.9% 的成功率表示。

卢宗青团队新作:人类先验打底,同一动尴尬刁难齐,通用机械人模型正在落地

最后,在安排相干实验中,研究团队强调模型的真实可用性不仅取决于练习策略,也依附安排体系的稳定性,是以引入了MPG 和 UAC 两个关键机制。MPG 的感化是克制不合理动作输出,使动作保持在合理分布的流形邻近,UAC的感化是解决感知帧率与控制频率不合步的问题。

消融成果显示,一旦去掉落 MPG 和 UAC,长程义务的机能降低最明显,双臂义务也会明显变差,更轻易出现颤抖、迟疑或修改过度等现象。这一成果解释,安排时的稳定性机制对长程和双臂义务的靠得住履行至关重要,而这也表现了这项工作比拟很多只存眷离线评估或仿真成功率的研究,更看重真实安排体系中时序和稳定性问题的解决。

卢宗青团队新作:人类先验打底,同一动尴尬刁难齐,通用机械人模型正在落地

对齐与生成并重

为了达到以上后果,研究团队重要设计了五个阶段,包含练习数据体系构建、跨形态动尴尬刁难齐、模型练习架构设计、下流评估验证以及消融实验分析。

具身智能的难点从来不在于让机械人做出一次漂亮的demo,而在于让它在换情况、换物体、换硬件、换义务链之后仍然靠得住工作。实际中,机械人策略的通用化被三道构造性门槛紧紧卡住。

卢宗青团队新作:人类先验打底,同一动尴尬刁难齐,通用机械人模型正在落地

起首在数据构建阶段,研究人员搭建了UniHand-2.0 数据集,这套数据并不是传统意义上只收集机械人数据,而是融合了三类来源,包含人类第一视角手部操作数据16K hours、机械人操控数据14K hours 覆盖 30种机械人形态,以及视觉说话懂得数据约 5K equivalent hours。同时,UniHand-2.0的总范围跨越 35,000 hours,包含 120B tokens 与 400M samples,为跨形态操控才能进修供给了更扎实的数据基本。雷峰网("大众,"号:雷峰网)

如许设计的核心念头是缓解真实机械人数据昂贵、稀缺且覆盖范围有限的问题,同时应用人类手部动作数据的丰富性与天然性供给更大年夜范围的操控先验,并经由过程VLM 数据补齐说话懂得与场景语义的才能缺口,从而形成面向操控义务的多模态预练习材料库。

其次在跨形态对齐阶段,这项工作引入Unified State-Action Space 解决不合形态动作空间不一致带来的练习艰苦,例如人手关节空间与机械人关节空间不雷同,不合机械人之间action 维度也存在差别,若直接拼接action 进行练习会导致模型纷乱。

为此,研究人员将不合形态的状况与动作映射到同一state-action 空间,使模型进修通用操控语义而非某一种硬件的关节角度,从而实现跨机械人常识共享与迁徙。

卢宗青团队新作:人类先验打底,同一动尴尬刁难齐,通用机械人模型正在落地

卢宗青团队新作:人类先验打底,同一动尴尬刁难齐,通用机械人模型正在落地

在模型练习架构上,研究团队采取MoT 与 MoF 的组合,使模型同时具备懂得才能与动作生成才能,个中Understanding Expert 负责图像与说话信息的懂得并形成义务意图表示,Action Expert 负责持续动作输出与长序列控制,并经由过程Mixture of Flow MoF 晋升动作生成的表达才能,最终形成Being-H0.5 模型体系。

随后鄙人流评估阶段,研究人员采取真实机械人与仿真基准相结合的方法进行验证,仿真部分在LIBERO 和RoboCasa 上评估以包管可复现性与横向比较性,真实机械人部分则用于考验闭环控制表示以及硬件噪声、时序不合步与误差累积前提下的安排稳定性,并经由过程specialist 与generalist 的比较进一步衡量通用模型带来的机能价值。

最后在消融实验中,研究团队从三方面验证关键设计的有效性,包含去掉落UniHand-2.0 预练习以考验human-centric pretrain 对generalist 的须要性,去掉落MPG 与 UAC 以评估安排稳定性机制是否关键,以及经由过程冻结不合层数摸索全量更新与部分更新在机能与稳定性上的差别,从而更体系地分析模型才能来源与关键模块供献。

卢宗青团队新作:人类先验打底,同一动尴尬刁难齐,通用机械人模型正在落地

从研究走向落地

从实验意义来看,这项工作的成果为通用机械人策略的成长供给了关键证据。起首,它证实跨形态同一动作进修是可行的。传统机械人进修往往一个模型只适配一种硬件,换机械人就要重训,数据也难以共享,导致练习成本高且复用效力低。雷峰网

而工实验成果注解,只要实现 action space 的同一并合营足够强的预练习,多机械人共享同一套策略是可以或许做到的,并且generalist 的机能只比specialist 略低,甚至在不少义务上接近,这直接晋升了机械人基本模型路线的实际可行性。

其次,这项工作强调人类手部视频与动作数据并不是帮助,而是通用策略的底座。消融实验显示,UniHand-2.0的人类中间预练习是generalist 模型保持稳定才能的关键身分,这意味着人类动作数据为策略供给了更合理、更天然的动作先验,从而加强其泛化才能与跨机械人迁徙才能。

第三,工作指出了机械人智能真正难点在于可安排的长程稳定性,而不仅是离线或仿真成功率。很多视觉说话动作模型在仿真中表示不错,但安排到真实机械人时轻易出现颤抖、动作发散、延迟累积掉败,甚至双臂互相干扰。

研究经由过程 MPG 与UAC 的实验成果解释,要让foundation policy 真正可安排,必须显式解决动作分布束缚与异步控制问题,使策略在真实体系中保持稳定靠得住。

最后,研究也供给了一个较清楚的通用模型练习范式,即经由过程大年夜范围人类中间数据建立操控先验,经由过程同一state-action 空间实现跨形态对齐,经由过程更强动作生成建模才能晋升控制表达,并结合稳定安排机制进步真实情况下的履行靠得住性。

整体来看,它不是依附某一个单点技能,而是从数据、对齐、生成到安排稳定性进行了端到端的全链路构建,是以更具备可扩大性,也更接近通用机械人操控智能的成长偏向。

研究背后的科研团队

卢宗青,北京大年夜学计算机学院长聘副传授,国度青年人才,北京智源学者;重要研究强化进修、多模态大年夜模型和具身智能,揭橥范畴顶级论文100余篇,担负ICML、ICLR、NeurIPS等机械进修会议范畴主席;获国度天然科学基金原创摸索项目赞助。

卢宗青团队新作:人类先验打底,同一动尴尬刁难齐,通用机械人模型正在落地

参考链接:https://z0ngqing.github.io/

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

卢宗青团队新作:人类先验打底,同一动尴尬刁难齐,通用机械人模型正在落地

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部