中山大年夜学郭裕兰团队：数据充分却练习掉败，多智能体到底卡在哪丨CVPR 2026

80 阅读 0 评论 0 点赞

很多人其实已经在不知不觉中接触到了多智能体协作带来的变更。

电商大年夜促时，仓库里往往不是一台机械人在工作，而是一整组机械人同时分拣、运输、避让和交代。主动驾驶真正艰苦的处所，也不只是让一辆车学会开，而是让很多辆车在同一条路上彼此合营。实际中的很多复杂义务，本质上都不是单个智能体可以自力完成的，智能体系也是一样。

但实际世界并不会给这些体系太多试错机会。仓库机械人撞一次货架，工业机械臂装错一次零件，价值都是真实的。也正因为如斯，越来越多研究开端转向离线强化进修，也就是先应用已稀有据练习策略，而不是依附及时试错。

可一旦从单智能体走向多智能体，难度会敏捷上升，因为体系不仅要学会做决定计划，还要在反馈有限的前提下学会协作。

这恰是当前行业里的一个实际瓶颈。很多办法在实验情况里后果不错，但到了离线多智能体场景中，往往很快裸露出问题。

一方面，真实义务里的嘉奖平日异常稀少，模型很难知道本身到底哪一步做对了。另一方面，多智能体协作还会带来义务分派问题，也就是最后成功了，却很难断定到底是哪一个智能体起了关键感化。成果就是，体系明明有大年夜量汗青数据，却依然学不会稳定协作，更谈不上面对新义务时的泛化才能。

为了让成果更靠得住，研究团队在实验设置上也做得比较严谨。活动义务一共练习了 100 万步，测试时还会换 5 个不合目标，并用 5 个随机种子反复验证，也就是不只看一次成果，而是看它在不合前提下是不是都能稳定表示。

在如许的背景下，来自中山大年夜学的郭裕兰团队提出了 MangoBench，并在研究《MangoBench A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning》中，测验测验从新答复一个关键问题，也就是当多个智能体不克不及随便试错时，如何才能真正学会协作。

研究团队没有持续依附传统嘉奖驱动，而是把问题改写成目标驱动，让模型环绕应当达到什么状况去进修，从而为离线多智能体强化进修供给了一条更清楚的研究路径。

中山大年夜学郭裕兰团队：数据充分却练习掉败，多智能体到底卡在哪丨CVPR 2026

从实验意义来看，研究团队最重要的供献，不只是提出了一套新办法，而是更清楚地揭示了 Offline MARL 为什么一向很难真正做好。

论文地址：https://wendyeewang.github.io/MangoBench/

机能分化的关键拐点

在难度适中的导航义务里，不合办法的表示差距已经很明显了。中山大年夜学团队提出的 IHIQL 的成功率能达到 80% 到 95%，解释它大年夜多半时刻都能把义务完成好。比拟之下，ICRL 只有 40% 到 60%，GCMBC 只有 20% 到 40%，而 GCOMIGA 和 GCOMAR 根本接近 0%，几乎等于没学会。

换句话说，同样是面对离线数据，有的办法已经能比较稳定地找到路，有的办法却连根本偏向都抓不住。这解释在嘉奖很少、反馈很弱的情况下，传统的离线多智能体办法其实很轻易掉灵，而分层强化进修办法更轻易学出后果。

当义务再变难一点，这种差距会被进一步放大年夜。所有办法的表示都邑降低，但降低的程度并不一样。IHIQL 固然也会掉落到 30% 到 40%，但至少还保存了一部分完成义务的才能。

ICRL 和 GCMBC 会掉落到 10% 到 20% 阁下，其他方轨则几乎完全不可了。可以把它懂得成，一开端大年夜家都在测验，标题简单的时刻还能看出谁强谁弱，标题一难，很多办法就直接交白卷了，只有少数办法还能持续答题。IHIQL 的优势，正表如今它碰到更复杂的情况时没有一会儿垮掉落。

研究人员还专门看了另一件事，也就是把一个义务交给多个智能体时，具体怎么分工会不会影响成果。比如有的设置是每个智能体负责 4 个部分，有的是每个智能体只负责 2 个部分。

成果发明，不管是 2×4 照样 4×2，IHIQL 在中等难度义务里都能稳定在约 90% 阁下。这个成果可以懂得成，它不是只会适应某一种固定分工，而是更像抓住了义务本身该怎么完成，所以换一种分工方法，它照样能做得不错。

到了机械臂义务，这种差别就更轻易看出来了。在同步协作的抬雕栏义务里，IHIQL 的成功率在 80% 以上，GCMBC 大年夜约 60%，ICRL 大年夜约 50%，模仿进修办法大年夜约 40%。假如把这些办法想成几组不合程度的工人，那么 IHIQL 这一组不只完成义务的概率更高，并且练习时光只有模仿进修办法的约 5%。

这解释它不只是做得更好，并且学得更快，效力也更高。通俗一点说，就是它不只更会干事，并且更快进入状况。

中山大年夜学郭裕兰团队：数据充分却练习掉败，多智能体到底卡在哪丨CVPR 2026

到了更复杂的异步协作义务，情况就不一样了，本来领先的办法不必定还能持续领先。以放置食物这个义务为例，这类义务不是大年夜家一路同时发力，而是要一个智能体先完成前面的动作，另一个再接着往下做，所以更考验先后合营。

在这种情况下，ICRL 的表示最好，成功率大年夜约在 30% 到 40% 之间，明显高于 IHIQL 和 GCMBC，模仿进修办法甚至不到 10%。这解释当义务强调步调之间的连接时，比较进修办法更轻易学到这种次序关系。更重要的是，它不仅做得更好，练习时光还比模仿进修少了约 93%，也就是说，它不只是更会学，并且学得还更快。

多目标和单目标的比较，则说清楚明了另一件很轻易被忽视的事，那就是测试方法本身也会影响我们对模型的断定。假如只用一个目标去测试，同一个义务里，IHIQL 是 78%，GCMBC 是 22%，ICRL 是 37%。但换成多目标评估后，它们分别晋升到 82%、47% 和 56%。

中山大年夜学郭裕兰团队：数据充分却练习掉败，多智能体到底卡在哪丨CVPR 2026

在练习方法的比较里，研究人员发明，并不是拿到更多全局信息，后果就必定更好。分布式办法 IHIQL 在中等义务里成功率大年夜约是 95%，义务范围变大年夜后还有大年夜约 85%，到了超大年夜范围义务也还能保持在 50% 阁下。

比拟之下，集中练习办法 HIQL-CTDE 在中等义务里还有大年夜约 70%，但义务一变复杂，很快就掉落到 44%，再往上甚至只剩下 1%，几乎等于学不动了。

第二个障碍是义务分派问题，也就是在多智能体协作中，很难断定到底是哪一个 agent 对最后的成功起了关键感化。一旦这个供献关系分不清，梯度更新就轻易掉足，最后就会出现协作掉败。研究的价值就在于，它把多智能体离线强化进修最深层的艰苦点明白指出来了。

这个成果可以懂得成，分布式办法更像是把问题拆开来，各个智能体先管好本身那一部分，所以义务变难时还能稳住。集中练习办法看起来控制的信息更多，但也正因为要同时处理太多全局信息，义务一复杂就轻易顾不过来，最后练习变得越来越不稳定。

研究人员在这个基本上又加进了目标和嘉奖，也就是把本来的数据改革成了状况、动作、目标、嘉奖如许的情势。具体来说，他们会从已有轨迹里随机挑出一个状况算作目标，再去断定当前行动有没有朝这个目标接近，然后主动生成对应的嘉奖。

也就是说，在多智能体义务里，信息更多不必定更占优势，关键照样体系能不克不及把复杂问题处理得足够清楚。

中山大年夜学郭裕兰团队：数据充分却练习掉败，多智能体到底卡在哪丨CVPR 2026

钟柠泽，完成此论文时代在中山大年夜学读本科，与郭裕兰传授合作，重要研究偏向为机械人，三维视觉和强化进修。在 CVPR/ICLR/ACM MM 等 CCF A 类会议等揭橥论文，CVPR/NeurIPS/ECCV 审稿人，论文在China3DV/ChinaGraph 大年夜会等展示，如今美国宾夕法尼亚大年夜学 GRASP Lab 读研究生，与 Vijay Kumar 院长合作。

把所有实验成果放在一路看，其实能得出几个很清楚的断定。起首，很多办法之所以一到复杂义务就掉效，最根本的原因不是模型太弱，而是嘉奖旌旗灯号太少。

因为在稀少嘉奖前提下，体系大年夜部分时刻都得不到明白反馈，很难知道本身到底哪一步做对了，所以练习很轻易陷入纷乱。一旦把嘉奖变得更密集，机能就会明显恢复，这解释问题的关键不在模型本身，而在进修旌旗灯号不敷。

其次，今朝表示最稳的照样分层办法。以 IHIQL 为代表的办法之所以更有效，是因为它不是让模型一次性去解决全部复杂义务，而是把大年夜义务拆成多个更小的步调来学。

如许做的好处是，模型更轻易在中心过程里获得反馈，也更不轻易在义务变复杂时一会儿崩掉落。所以从实验成果来看，分层策略更像是一种让体系先学会一步一步完成义务的办法，而不是一上来就请求它控制全部。

最后，这项研究还说清楚明了多智能系一切最难的处所，其实不只是学会做动作，而是学会彼此合营。在简单义务里，多智能体有时还能比单智能体做得更好，因为大年夜家分工之后效力更高。

中山大年夜学郭裕兰团队：数据充分却练习掉败，多智能体到底卡在哪丨CVPR 2026

从嘉奖驱动到目标驱动

在实验设计上，研究团队先做了一件很关键的事，就是把本来的离线数据从新整顿了一遍。原始数据里只有状况和动作，记录的是体系当时看到了什么、做了什么。

如许一来，同一批汗青数据就不再只能拿来学一个义务，而是可以环绕不合目标反复应用，相当于把原稀有据的价值放大年夜了。

如许做的意义在于，它把本来的进修方法换了一种思路。传统强化进修更像是让模型一边做一边等反馈，问题是这种反馈往往很少，很多时刻模型根本不知道本身到底做得对纰谬。

参加目标之后，情况就不一样了。模型不再只是被动等嘉奖，而是会一向环绕一个明白目标去行动，断定本身是不是在一步步接近它。换句话说，本来那种模糊又稀少的反馈，被变成了更直接、更轻易懂得的进修旌旗灯号，所以模型更轻易学出有效策略。

操作义务也一样，练习步数分别是 1.5 万和 3.88 万，测试时还用了 100 个随机种子。如许做的目标很明白，就是尽量避免某一次练习刚巧表示好，确保最后看到的成果是稳定的，而不是有时的。

在义务安排上，研究人员也不是随便选几个场景，而是有意把难度一点点往上加。活动义务从较简单的迷宫开端，逐渐增长到更复杂的迷宫，最后再参加随机传送如许的高难度设置。

这意味着很多办法其实并没有我们本来想的那么差，只是单目标测试把它们的才能看窄了。换句话说，这些办法学到的并不只是某一个固定动作，而是面对不合目标时，仍然可以或许做出调剂的才能，也就是更接近真正的泛化。

操作义务则从须要同时合营的同步义务，成长到须要讲究先后次序的异步义务。如许设计，其实是想更体系地不雅察模型在不合复杂度下的表示，不只是看它能不克不及完成义务，更想看它在义务越来越难时，是否还具备泛化才能、经久筹划才能和协作才能。雷峰网("大众,"号：雷峰网)

换句话说，研究团队想测试的不是模型会不会做一道题，而是标题一旦变难，它还能不克不及持续做下去。

中山大年夜学郭裕兰团队：数据充分却练习掉败，多智能体到底卡在哪丨CVPR 2026

研究人员还专门分析了，为什么 CTDE 这种看上去信息更多的办法，最后反而表示不好。按直觉来说，既然它在练习时能看到更多全局信息，后果似乎应当更好，但问题恰好也出在这里。

因为它看到的器械太多了，全局状况本质上就是把所有智能体的状况都拼在一路，这会让问题一会儿变得异常大年夜、异常复杂，模型须要同时处理的内容也会敏捷增长。

但一旦义务变复杂，须要更精细的协作和连接时，问题就会急速裸露出来。也就是说，真正卡住多智能系一切的，不只是进修才能，而是协同才能，这也是为什么协作会成为全部体系进一步晋升表示的最大年夜瓶颈。

除此之外，CTDE 在练习时和履行时其实并不是完全一致的。练习阶段，模型会应用全局信息来进修；但真正做决定计划时，每个智能体又只能根据本身的局部信息行动。如许一来，就会出现一种情况：练习时学到的器械，到了实际履行时不必定能适应用上，这会让优化过程变得更艰苦。

还有一个更隐蔽的问题在于目标本身。CTDE 一方面要处理整体义务的全局目标，另一方面又要让每个智能体根据本身的局部目标去行动。如许就轻易出现两套目标之间对不上的情况，也就是模型的一部分在学整体偏向，另一部分却在学局部细节，最后很难合营到一路。

研究成果解释，问题的核心并不只是模型才能强不强，而是在练习过程中存在两个更根本的障碍。第一个障碍是进修旌旗灯号太弱，因为 reward 很稀少，模型在大年夜多半时刻得不到明白反馈，Q- function 很难稳定收敛，所以很多办法即使练习良久，后果仍然很差。

研究团队还说清楚明了 goal-conditioned 真正有效的原因。它的感化并不只是给模型多加一个目标输入，而是改变了全部进修方法。本来模型重要依附 reward 来断定行动短长，这种旌旗灯号很少，也不稳定。

参加目标之后，每个 state 都能和某个 goal 接洽起来，进修旌旗灯号就明显变多了，模型也更轻易知道本身应当往什么偏向调剂。

所以，CTDE 的问题并不是信息不敷，而是信息太多、构造太复杂，最后让练习变得不稳定。外面上看，它像是在帮模型看到更完全的全局；但实际上，恰是这种额外的复杂性，让它在义务一变难时更轻易掉效。

从办法到问题本质

如许一来，强化进修就不再只是盲目地追逐嘉奖，而更像是在进修若何从当前地位达到目标地位。这种情势比纯真依附 reward 更稳定，也更轻易练习。

更重要的是，同一个模型可以面对不合目标完成不合义务，这解释模型学到的不是逝世记硬背的固定动作，而是具有必定泛化才能的行动策略。

研究人员进一步说清楚明了为什么分层办法会更有效。原因在于，分层办法同时解决了两个难题。一方面，它经由过程设置中心目标缓解了稀少嘉奖问题，让模型在义务还没有最终完成之前，就已经能获得阶段性的反馈。

另一方面，它把本来很长、很复杂的义务拆成多个更短、更轻易处理的小义务，从而减轻了长时光依附带来的进修难度。换句话说，分层办法之所以有效，本质上是因为它把一个很难直接学会的大年夜问题，拆成了多个更轻易慢慢解决的小问题。雷峰网

这一点对于多智能体义务尤其重要，因为多智能系一切本来就比单智能体更难调和，假如没有这种构造化拆分，练习会加倍不稳定。

这项研究对通俗人的影响也很实际。实际生活中很多场景并不许可体系反复试错，比如主动驾驶、仓储物流、工厂机械臂、病院帮助机械人等。这些系同一旦掉足，价值往往很高，所以很多时刻只能依附已经收集好的汗青数据进行练习，也就是离线进修。

研究团队所做的工作，本质上是在摸索如何让多个智能体在不克不及随便试错的情况下，依然学会稳定协作。这个偏向假如持续成长，将来通俗人可能会直接收益于更安然的主动驾驶体系、更高效的物流配送机械人、更稳定的工业主动化设备，以及更靠得住的医疗和家庭帮助机械人。

MangoBench 背后的科研工作者

汪怡，中山大年夜学在读一年级博士生，重要研究偏向为三维视觉和强化进修，师从郭裕兰传授，于深圳河套学院练习，完成此论文时代在中山大年夜学读本科。在 CVPR 等 CCF A 类会议揭橥多篇论文，介入中国图学学会“发奋图强”博士生 workshop，介入 China3DV 墙报展示，曾获中山大年夜学研究生校长奖学金等。

符智恒，西澳大年夜学博士，喷鼻港理工大年夜学博士后，重要研究偏向为三维重建与生成。揭橥论文共 20 余篇（包含CVPR、ICCV、TIP、ECCV、IJCAI等），英文著作一部 Point Cloud Intelligence 。

王龙光，中山大年夜学博士后，重要研究偏向为底层视觉和三维视觉。以第一作者身份揭橥 CCF A 类论文共 11 篇，谷歌学术总引用数为 7100 余次。入选中国科协青年人才托举工程，持续三年入选全球前 2% 顶尖科学家榜单；主持国度及省部级项目 9 项。

张晔，中山大年夜学副研究员，重要研究偏向为空间智能与三维视觉。揭橥学术论文 30 余篇，主持国度级和省部级项目3项，曾担负首届中国空间智能大年夜会本地主席。

郭裕兰，中山大年夜学传授，重要研究空间智能与三维视觉。主持国度天然科学基金结合重点项目等 10 余项，揭橥学术论文 200 余篇，谷歌学术引用 2 万余次，入选Clarivate全球高被引科学家。担负中国图象图形学学会三维视觉专委会副主任，IEEE TIP 高等范畴编辑（SAE）。曾担负首届中国空间智能大年夜会主席，历届中国三维视觉大年夜会组委会主席。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

本文分类：互联网
本文标签：中山大学 MangoBench CVPR
浏览次数：80 次浏览
发布日期：2026-04-22 16:21:26
本文链接：https://www.fqpy.com/internet/13033

上一篇 > 上交大年夜 x vivo 团队：一个简单修改，让 diffusion 周全晋升丨CVPR 2026
下一篇 > 闲鱼给的屈从性测试，鱼小铺卖家不买账

中山大年夜学郭裕兰团队：数据充分却练习掉败，多智能体到底卡在哪丨CVPR 2026

机能分化的关键拐点

从嘉奖驱动到目标驱动

从办法到问题本质

MangoBench 背后的科研工作者

评论列表共有 0 条评论

发表评论取消回复

中山大年夜学郭裕兰团队：数据充分却练习掉败，多智能体到底卡在哪丨CVPR 2026

机能分化的关键拐点

从嘉奖驱动到目标驱动

从办法到问题本质

MangoBench 背后的科研工作者

中山大年夜学郭裕兰团队：数据充分却练习掉败，多智能体到底卡在哪丨CVPR 2026

上交大年夜 x vivo 团队：一个简单修改，让 diffusion 周全晋升丨CVPR 2026

东南大年夜学耿新团队：模型不是不会做，而是被「挤掉落了才能」丨CVPR 2026

西湖大年夜学张驰团队：不重训，也能让视频生成更长更稳丨CVPR 2026

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复