很多人其实已经在不知不觉中接触到了多智能体协作带来的变更。
电商大年夜促时,仓库里往往不是一台机械人在工作,而是一整组机械人同时分拣、运输、避让和交代。主动驾驶真正艰苦的处所,也不只是让一辆车学会开,而是让很多辆车在同一条路上彼此合营。实际中的很多复杂义务,本质上都不是单个智能体可以自力完成的,智能体系也是一样。
但实际世界并不会给这些体系太多试错机会。仓库机械人撞一次货架,工业机械臂装错一次零件,价值都是真实的。也正因为如斯,越来越多研究开端转向离线强化进修,也就是先应用已稀有据练习策略,而不是依附及时试错。
可一旦从单智能体走向多智能体,难度会敏捷上升,因为体系不仅要学会做决定计划,还要在反馈有限的前提下学会协作。
这恰是当前行业里的一个实际瓶颈。很多办法在实验情况里后果不错,但到了离线多智能体场景中,往往很快裸露出问题。
一方面,真实义务里的嘉奖平日异常稀少,模型很难知道本身到底哪一步做对了。另一方面,多智能体协作还会带来义务分派问题,也就是最后成功了,却很难断定到底是哪一个智能体起了关键感化。成果就是,体系明明有大年夜量汗青数据,却依然学不会稳定协作,更谈不上面对新义务时的泛化才能。
为了让成果更靠得住,研究团队在实验设置上也做得比较严谨。活动义务一共练习了 100 万步,测试时还会换 5 个不合目标,并用 5 个随机种子反复验证,也就是不只看一次成果,而是看它在不合前提下是不是都能稳定表示。
在如许的背景下,来自中山大年夜学的郭裕兰团队提出了 MangoBench,并在研究《MangoBench A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning》中,测验测验从新答复一个关键问题,也就是当多个智能体不克不及随便试错时,如何才能真正学会协作。
研究团队没有持续依附传统嘉奖驱动,而是把问题改写成目标驱动,让模型环绕应当达到什么状况去进修,从而为离线多智能体强化进修供给了一条更清楚的研究路径。

从实验意义来看,研究团队最重要的供献,不只是提出了一套新办法,而是更清楚地揭示了 Offline MARL 为什么一向很难真正做好。
论文地址:https://wendyeewang.github.io/MangoBench/
机能分化的关键拐点
在难度适中的导航义务里,不合办法的表示差距已经很明显了。中山大年夜学团队提出的 IHIQL 的成功率能达到 80% 到 95%,解释它大年夜多半时刻都能把义务完成好。比拟之下,ICRL 只有 40% 到 60%,GCMBC 只有 20% 到 40%,而 GCOMIGA 和 GCOMAR 根本接近 0%,几乎等于没学会。
换句话说,同样是面对离线数据,有的办法已经能比较稳定地找到路,有的办法却连根本偏向都抓不住。这解释在嘉奖很少、反馈很弱的情况下,传统的离线多智能体办法其实很轻易掉灵,而分层强化进修办法更轻易学出后果。
当义务再变难一点,这种差距会被进一步放大年夜。所有办法的表示都邑降低,但降低的程度并不一样。IHIQL 固然也会掉落到 30% 到 40%,但至少还保存了一部分完成义务的才能。
ICRL 和 GCMBC 会掉落到 10% 到 20% 阁下,其他方轨则几乎完全不可了。可以把它懂得成,一开端大年夜家都在测验,标题简单的时刻还能看出谁强谁弱,标题一难,很多办法就直接交白卷了,只有少数办法还能持续答题。IHIQL 的优势,正表如今它碰到更复杂的情况时没有一会儿垮掉落。
研究人员还专门看了另一件事,也就是把一个义务交给多个智能体时,具体怎么分工会不会影响成果。比如有的设置是每个智能体负责 4 个部分,有的是每个智能体只负责 2 个部分。
成果发明,不管是 2×4 照样 4×2,IHIQL 在中等难度义务里都能稳定在约 90% 阁下。这个成果可以懂得成,它不是只会适应某一种固定分工,而是更像抓住了义务本身该怎么完成,所以换一种分工方法,它照样能做得不错。
到了机械臂义务,这种差别就更轻易看出来了。在同步协作的抬雕栏义务里,IHIQL 的成功率在 80% 以上,GCMBC 大年夜约 60%,ICRL 大年夜约 50%,模仿进修办法大年夜约 40%。假如把这些办法想成几组不合程度的工人,那么 IHIQL 这一组不只完成义务的概率更高,并且练习时光只有模仿进修办法的约 5%。
这解释它不只是做得更好,并且学得更快,效力也更高。通俗一点说,就是它不只更会干事,并且更快进入状况。

到了更复杂的异步协作义务,情况就不一样了,本来领先的办法不必定还能持续领先。以放置食物这个义务为例,这类义务不是大年夜家一路同时发力,而是要一个智能体先完成前面的动作,另一个再接着往下做,所以更考验先后合营。
在这种情况下,ICRL 的表示最好,成功率大年夜约在 30% 到 40% 之间,明显高于 IHIQL 和 GCMBC,模仿进修办法甚至不到 10%。这解释当义务强调步调之间的连接时,比较进修办法更轻易学到这种次序关系。更重要的是,它不仅做得更好,练习时光还比模仿进修少了约 93%,也就是说,它不只是更会学,并且学得还更快。
多目标和单目标的比较,则说清楚明了另一件很轻易被忽视的事,那就是测试方法本身也会影响我们对模型的断定。假如只用一个目标去测试,同一个义务里,IHIQL 是 78%,GCMBC 是 22%,ICRL 是 37%。但换成多目标评估后,它们分别晋升到 82%、47% 和 56%。

在练习方法的比较里,研究人员发明,并不是拿到更多全局信息,后果就必定更好。分布式办法 IHIQL 在中等义务里成功率大年夜约是 95%,义务范围变大年夜后还有大年夜约 85%,到了超大年夜范围义务也还能保持在 50% 阁下。
比拟之下,集中练习办法 HIQL-CTDE 在中等义务里还有大年夜约 70%,但义务一变复杂,很快就掉落到 44%,再往上甚至只剩下 1%,几乎等于学不动了。
第二个障碍是义务分派问题,也就是在多智能体协作中,很难断定到底是哪一个 agent 对最后的成功起了关键感化。一旦这个供献关系分不清,梯度更新就轻易掉足,最后就会出现协作掉败。研究的价值就在于,它把多智能体离线强化进修最深层的艰苦点明白指出来了。
这个成果可以懂得成,分布式办法更像是把问题拆开来,各个智能体先管好本身那一部分,所以义务变难时还能稳住。集中练习办法看起来控制的信息更多,但也正因为要同时处理太多全局信息,义务一复杂就轻易顾不过来,最后练习变得越来越不稳定。
研究人员在这个基本上又加进了目标和嘉奖,也就是把本来的数据改革成了状况、动作、目标、嘉奖如许的情势。具体来说,他们会从已有轨迹里随机挑出一个状况算作目标,再去断定当前行动有没有朝这个目标接近,然后主动生成对应的嘉奖。
也就是说,在多智能体义务里,信息更多不必定更占优势,关键照样体系能不克不及把复杂问题处理得足够清楚。

钟柠泽,完成此论文时代在中山大年夜学读本科,与郭裕兰传授合作,重要研究偏向为机械人,三维视觉和强化进修。在 CVPR/ICLR/ACM MM 等 CCF A 类会议等揭橥论文,CVPR/NeurIPS/ECCV 审稿人,论文在China3DV/ChinaGraph 大年夜会等展示,如今美国宾夕法尼亚大年夜学 GRASP Lab 读研究生,与 Vijay Kumar 院长合作。
把所有实验成果放在一路看,其实能得出几个很清楚的断定。起首,很多办法之所以一到复杂义务就掉效,最根本的原因不是模型太弱,而是嘉奖旌旗灯号太少。
因为在稀少嘉奖前提下,体系大年夜部分时刻都得不到明白反馈,很难知道本身到底哪一步做对了,所以练习很轻易陷入纷乱。一旦把嘉奖变得更密集,机能就会明显恢复,这解释问题的关键不在模型本身,而在进修旌旗灯号不敷。
其次,今朝表示最稳的照样分层办法。以 IHIQL 为代表的办法之所以更有效,是因为它不是让模型一次性去解决全部复杂义务,而是把大年夜义务拆成多个更小的步调来学。
如许做的好处是,模型更轻易在中心过程里获得反馈,也更不轻易在义务变复杂时一会儿崩掉落。所以从实验成果来看,分层策略更像是一种让体系先学会一步一步完成义务的办法,而不是一上来就请求它控制全部。
最后,这项研究还说清楚明了多智能系一切最难的处所,其实不只是学会做动作,而是学会彼此合营。在简单义务里,多智能体有时还能比单智能体做得更好,因为大年夜家分工之后效力更高。

从嘉奖驱动到目标驱动
在实验设计上,研究团队先做了一件很关键的事,就是把本来的离线数据从新整顿了一遍。原始数据里只有状况和动作,记录的是体系当时看到了什么、做了什么。
如许一来,同一批汗青数据就不再只能拿来学一个义务,而是可以环绕不合目标反复应用,相当于把原稀有据的价值放大年夜了。
如许做的意义在于,它把本来的进修方法换了一种思路。传统强化进修更像是让模型一边做一边等反馈,问题是这种反馈往往很少,很多时刻模型根本不知道本身到底做得对纰谬。
参加目标之后,情况就不一样了。模型不再只是被动等嘉奖,而是会一向环绕一个明白目标去行动,断定本身是不是在一步步接近它。换句话说,本来那种模糊又稀少的反馈,被变成了更直接、更轻易懂得的进修旌旗灯号,所以模型更轻易学出有效策略。
操作义务也一样,练习步数分别是 1.5 万和 3.88 万,测试时还用了 100 个随机种子。如许做的目标很明白,就是尽量避免某一次练习刚巧表示好,确保最后看到的成果是稳定的,而不是有时的。
在义务安排上,研究人员也不是随便选几个场景,而是有意把难度一点点往上加。活动义务从较简单的迷宫开端,逐渐增长到更复杂的迷宫,最后再参加随机传送如许的高难度设置。
这意味着很多办法其实并没有我们本来想的那么差,只是单目标测试把它们的才能看窄了。换句话说,这些办法学到的并不只是某一个固定动作,而是面对不合目标时,仍然可以或许做出调剂的才能,也就是更接近真正的泛化。
操作义务则从须要同时合营的同步义务,成长到须要讲究先后次序的异步义务。如许设计,其实是想更体系地不雅察模型在不合复杂度下的表示,不只是看它能不克不及完成义务,更想看它在义务越来越难时,是否还具备泛化才能、经久筹划才能和协作才能。雷峰网("大众,"号:雷峰网)
换句话说,研究团队想测试的不是模型会不会做一道题,而是标题一旦变难,它还能不克不及持续做下去。

研究人员还专门分析了,为什么 CTDE 这种看上去信息更多的办法,最后反而表示不好。按直觉来说,既然它在练习时能看到更多全局信息,后果似乎应当更好,但问题恰好也出在这里。
因为它看到的器械太多了,全局状况本质上就是把所有智能体的状况都拼在一路,这会让问题一会儿变得异常大年夜、异常复杂,模型须要同时处理的内容也会敏捷增长。
但一旦义务变复杂,须要更精细的协作和连接时,问题就会急速裸露出来。也就是说,真正卡住多智能系一切的,不只是进修才能,而是协同才能,这也是为什么协作会成为全部体系进一步晋升表示的最大年夜瓶颈。
除此之外,CTDE 在练习时和履行时其实并不是完全一致的。练习阶段,模型会应用全局信息来进修;但真正做决定计划时,每个智能体又只能根据本身的局部信息行动。如许一来,就会出现一种情况:练习时学到的器械,到了实际履行时不必定能适应用上,这会让优化过程变得更艰苦。
还有一个更隐蔽的问题在于目标本身。CTDE 一方面要处理整体义务的全局目标,另一方面又要让每个智能体根据本身的局部目标去行动。如许就轻易出现两套目标之间对不上的情况,也就是模型的一部分在学整体偏向,另一部分却在学局部细节,最后很难合营到一路。
研究成果解释,问题的核心并不只是模型才能强不强,而是在练习过程中存在两个更根本的障碍。第一个障碍是进修旌旗灯号太弱,因为 reward 很稀少,模型在大年夜多半时刻得不到明白反馈,Q- function 很难稳定收敛,所以很多办法即使练习良久,后果仍然很差。
研究团队还说清楚明了 goal-conditioned 真正有效的原因。它的感化并不只是给模型多加一个目标输入,而是改变了全部进修方法。本来模型重要依附 reward 来断定行动短长,这种旌旗灯号很少,也不稳定。
参加目标之后,每个 state 都能和某个 goal 接洽起来,进修旌旗灯号就明显变多了,模型也更轻易知道本身应当往什么偏向调剂。
所以,CTDE 的问题并不是信息不敷,而是信息太多、构造太复杂,最后让练习变得不稳定。外面上看,它像是在帮模型看到更完全的全局;但实际上,恰是这种额外的复杂性,让它在义务一变难时更轻易掉效。
从办法到问题本质
如许一来,强化进修就不再只是盲目地追逐嘉奖,而更像是在进修若何从当前地位达到目标地位。这种情势比纯真依附 reward 更稳定,也更轻易练习。
更重要的是,同一个模型可以面对不合目标完成不合义务,这解释模型学到的不是逝世记硬背的固定动作,而是具有必定泛化才能的行动策略。
研究人员进一步说清楚明了为什么分层办法会更有效。原因在于,分层办法同时解决了两个难题。一方面,它经由过程设置中心目标缓解了稀少嘉奖问题,让模型在义务还没有最终完成之前,就已经能获得阶段性的反馈。
另一方面,它把本来很长、很复杂的义务拆成多个更短、更轻易处理的小义务,从而减轻了长时光依附带来的进修难度。换句话说,分层办法之所以有效,本质上是因为它把一个很难直接学会的大年夜问题,拆成了多个更轻易慢慢解决的小问题。雷峰网
这一点对于多智能体义务尤其重要,因为多智能系一切本来就比单智能体更难调和,假如没有这种构造化拆分,练习会加倍不稳定。
这项研究对通俗人的影响也很实际。实际生活中很多场景并不许可体系反复试错,比如主动驾驶、仓储物流、工厂机械臂、病院帮助机械人等。这些系同一旦掉足,价值往往很高,所以很多时刻只能依附已经收集好的汗青数据进行练习,也就是离线进修。
研究团队所做的工作,本质上是在摸索如何让多个智能体在不克不及随便试错的情况下,依然学会稳定协作。这个偏向假如持续成长,将来通俗人可能会直接收益于更安然的主动驾驶体系、更高效的物流配送机械人、更稳定的工业主动化设备,以及更靠得住的医疗和家庭帮助机械人。
MangoBench 背后的科研工作者
汪怡,中山大年夜学在读一年级博士生,重要研究偏向为三维视觉和强化进修,师从郭裕兰传授,于深圳河套学院练习,完成此论文时代在中山大年夜学读本科。在 CVPR 等 CCF A 类会议揭橥多篇论文,介入中国图学学会“发奋图强”博士生 workshop,介入 China3DV 墙报展示,曾获中山大年夜学研究生校长奖学金等。
符智恒,西澳大年夜学博士,喷鼻港理工大年夜学博士后,重要研究偏向为三维重建与生成。揭橥论文共 20 余篇(包含CVPR、ICCV、TIP、ECCV、IJCAI等),英文著作一部 Point Cloud Intelligence 。
王龙光,中山大年夜学博士后,重要研究偏向为底层视觉和三维视觉。以第一作者身份揭橥 CCF A 类论文共 11 篇,谷歌学术总引用数为 7100 余次。入选中国科协青年人才托举工程,持续三年入选全球前 2% 顶尖科学家榜单;主持国度及省部级项目 9 项。
张晔,中山大年夜学副研究员,重要研究偏向为空间智能与三维视觉。揭橥学术论文 30 余篇,主持国度级和省部级项目3项,曾担负首届中国空间智能大年夜会本地主席。
郭裕兰,中山大年夜学传授,重要研究空间智能与三维视觉。主持国度天然科学基金结合重点项目等 10 余项,揭橥学术论文 200 余篇,谷歌学术引用 2 万余次,入选Clarivate全球高被引科学家。担负中国图象图形学学会三维视觉专委会副主任,IEEE TIP 高等范畴编辑(SAE)。曾担负首届中国空间智能大年夜会主席,历届中国三维视觉大年夜会组委会主席。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复