智元具身研究中间提出 SOP(Scalable src="https://images.weserv.nl/?url=https://oscimg.oschina.net/oscnet/up-6916808a90355a9f8445104b69b2c0ca0a7.png" width="500">
在雷同的总练习时光下,更多半量的机械人带来了更高的机能表示。在总练习时光为3小时的限制下,四机进行进修的最终成功率达到了92.5%,比单机赶过12%。多机采集可以有效阻拦模型过拟合到单机的特定特点上。同时,SOP 还将硬件的扩大转化为了进修时长的大年夜幅缩短,四机械人集群比拟单机可以或许将模型达到目标机能的练习速度增至2.4倍。

最后还商量了 SOP 和预练习数据之间的关系。把总量为160小时的多义务预练习数据分为了三组:20小时,80小时和160小时,分别练习一组初始模型后再进行 SOP。发明,预练习的范围决定了基座模型和后练习晋升的轨迹。SOP 能为所有初始模型带来稳定的晋升,且最终机能与VLA预练习质量正相干。
同时,比较80小时和160小时实验后果,也可以明显留意到,在解决特定掉败情况时,在轨策略经验带来了异常明显的边际后果。SOP 在三小时的在轨经验下就获得了约30%的机能晋升,而80小时额外人类专家数据只带来了4%的晋升。这解释在预练习出现边际效应递减的情况下,SOP 可以或许高效冲破VLA机能瓶颈。


发表评论 取消回复