浙江大年夜学控制学院长聘副传授、博士生导师高飞,就是这个范畴的一位异常优良的年青学者。

高飞的主研偏向包含空中机械人、自立导航、集群协同、具身智能,提出了国际首个非构造化场景下的自立飞翔集群体系,揭橥多篇Science Robotics、TRO等顶级期刊、学术会群情文,并创建了微分智飞。

高飞是国度优青基金获得者,获IEEE TRO、IROS等多项最佳论文提名,入选2023-2024全球前2%顶尖科学家、2025《麻省理工科技评论》“35岁以下科技立异35人”(MIT TR35)亚太区榜单等。

在方才停止的 GAIR 2025,高飞传授在雷峰网举办的GAIR大年夜会现场,做了主题为《智能飞翔机械人研究进展及家当应用》的分享,他的演讲风格极具画面感:他用《普罗米修斯》的无人机编队镜头引出“分布式集群”最终形态,又用《流浪地球》的纷乱场景比较强调“去中间化”的重要性。

以下是具体内容,雷峰网做了不改变原意的编辑和整顿。


01


为什么要做“智能飞翔机械人”?因为我们认为,通用飞翔智能已经到了爆发的前夕。我小时刻第一个妄图是开飞机,后来固然没当成飞翔员,但一向没放弃用其余方法飞上天。如今,我们想用 AI 打造聪慧、安然、能自立决定计划的飞翔平台,让它们在各类复杂情况中完成义务。


大年夜家最熟悉的飞翔平台是旋翼无人机。2015 年以前,无人机更像是高等遥控玩具,重要依附人工操控。2015 年之后,机械人学开端给无人机赋能,逐渐出现了跟踪避障、自立导航、集群导航等技巧。下一个里程碑,我们认为就是“具身智能”。

谜底是没法采集数据,因为你弗成能去雇这么多穿越机的飞手做高精度的飞翔控制,帮你去采集数据。在实践中不具备可行性:第一个是飞手专业技能的习得须要必定的门槛,第二个飞翔数据采集过程易产生设备损毁或人员安然变乱,导致采集成本与风险弗成控。

具身智能强调的是一个有实体的智能体,经由过程 AI 持续进修和信息迭代,实现对情况的懂得、义务的履行,以及跨场景的泛化和通用才能。对应到地面的人形机械人,我们也欲望有一个通用的飞翔载体,能在天上完成各类义务。

我博士入学时,师长教师给我播放了片子《普罗米修斯》的片段:一个小型智能飞翔器在复杂情况中自立穿梭。师长教师说,有一天我们要做出如许的无人机,这是我们团队的愿景。

在群体层面,我们欲望打造分布式、去中间化的无人机集群——核心是让集群可以或许灵活、自适应地完成大年夜范围义务。这一架构设计的须要性,也在片子《流浪地球》里印证:片中拔掉落中间控制器后,几千架无人机集体坠落——这就是中间化架构的缺点。我们要做的是无需中间节点也能协同功课的分布式体系。它是很小的一个智能飞翔载体,可以在复杂的情况下知道本身该往哪里去,该怎么飞,该怎么感知情况。同样的,在群体上我们想要它具备范围化、分布式化和高灵活的特点,可以做大年夜范围的义务,可以干很多很多的工作。


02

飞翔机械人的愿景和无人机技巧演进

天空端具身智能的四大年夜挑衅



具体来说,飞翔天空端的具身智能和地面端的比拟有哪些独特的挑衅?

起首是数据很少,前面的嘉宾也一向在评论辩论数据,大年夜家有没有想过无人机该怎么采集数据?

第二是场景复杂:无人机被造出来必定是在天上飞,在室内、室外各类各样的处所飞,所以它的场景跨度大年夜、情况差别明显。所以从我们设计它的算法的时刻,无论是端到端架构照样模块化的感知筹划,均需具备跨场景泛化才能,其核心是实现情况语义的抽象建模:即从差别化明显的场景中,提炼通用化的情况表征规律,这个工作会很难。

第三是易受干扰和零容错,我们知道无人机的飞翔须要和空气高频的交互,是以它很轻易受到气流的扰动,体系需具备极强的动态抗扰才能;更关键的是,无人机在飞翔过程中零容错,一旦产生了任何的剐蹭,会直接 坠毁;它没有像地面机械人一样可停驻待机,想清楚了再动作的机会。

我是高飞,来自浙江大年夜学,也是微分智飞的开创人。今天想和大年夜家分享我们对智能飞翔机械人这个赛道的懂得,以及我们团队正在做的工作。

最后是算力很弱、传感器很弱,它很轻易受到各类扰动,也不克不及支撑异常大年夜的模型在端上的及时运行。

以上这些挑衅,也是我们正在霸占的难关,我想当我们霸占了今后,它也会成为独特的技巧护城河。


03

我们团队在做什么?全部业界进展什么样?

我会把我们的工作分为情况感知、小脑本体归控、大年夜脑端侧决定计划、群体协同智能和飞翔操作一体化这几个方面。

在归控方面,我们要跨过传统飞控的高 latency(高延迟)瓶颈,打破其对推力输出与底层姿势控制的平均化、低上限束缚,最终实现端到端纵贯电机的高动态极限飞控。

当然,我们的练习会大年夜量应用仿真合成数据,即便情况在变更,它也可以很好的从里面穿越,因为它的模型是在端侧高频运行的,所以它赓续的微调,而不是在飞之前提前看清楚情况,筹划好一条航迹,然后一次性的飞以前。我们的无人机也可以 穿越持续多个的狭小情况,这些完全都是自立的。

在感知层面,我们要兼具高动态感知和复杂语义信息的融合,从而为“端侧大年夜脑”供给支撑,使其具备对复杂长程义务的自立生成才能,以及在未知场景中实现泛化懂得与决定计划的端侧智能。

在集群方面,我们寻求分布式的群体协同,大年夜家还记不记得我上一页 PPT 里面片子《流浪地球》的片段,下一时刻产生了什么呢?他们把中间控制器给拔了,所以天上的几千架无人机全部掉落下来了,那就是不敷去中间化,不敷分布式导致的。

最后是飞翔操作,我们欲望不仅可以做飞来飞去的眼睛,也可所以飞来飞去的手。

所有做的这些目标都是为了 answer back(回应) 黄仁勋的这句话:“只有三种机械人可以大年夜范围的量产,人形机械人、无人机和汽车。”


04

展开聊聊五维技巧体系:从“小脑”到“群脑”

接下来就是具体的技巧分享。

第一个是小脑技能,我们正在出力打造敏捷、轻量、多义务的本体运控小脑。

这里重点介绍的就是我们比来在做的 sim to real (仿真到实际)端到端强化进修技巧。我们的无人机可以经由过程搭载单颗机载摄像头,在没有额外的传感器,没有深度旌旗灯号输入的前提下,直接将视觉图像映射成为控制指令,这个模型可以在端侧跑到跨越100Hz的运行频率,确保无人机经由过程及时微调自身的姿势去动态适应情况,这些都是真实的场景,不是仿真。

像如许的飞翔才能,我们的体系甚至可以超出人类高程度飞手程度。面对狭小的不规矩裂缝,只要经由少量的 fine tune (微调)也可以很好地适配,这里是一个在白光情况下一镜到底的拍摄,可以看到全程无人机稳定穿越、应对自如。这一系列优化的核心目标,是确保技巧完全知足实际飞翔场景的落地需求,实现全场景靠得住适配。

当然,我们后面会展示一些一脑多形的应用,可以用在地面上或者其他场景,但个中我们最看重的照样飞翔,所以我们从day 1开端就要解决数据少以及算力低的问题。这里,我们做了一个长链路动作的人机对抗项目,我们还设计了特技飞翔,让这个无人机自立持续穿越 6 个框,在每一次穿框的最高点都要头朝下地倒转穿以前,所以它并不是平飞的画圈,而是倒过来穿以前。如许的飞翔动作是很难的。

我们请了一个高程度的飞手做比较,左边是算法主动,右边是飞手飞的。可以看到两边轨迹的质量有异常大年夜的差别。并且,飞手在飞翔之前其实已经练习了三个小时,并不是把他拉到一个从来没见过的情况就来做对抗,我们也充分地包管此次对抗的公平性。

我们如今最小的端到端收集可以跑在一个异常小的飞机上,它的总重量只有 50 克,可以用极低成本的传感器和算力芯片支撑本身端到端的导航避障,。

为了支撑小脑(控制层)和大年夜脑(决定计划层)的数据采集和模式练习,我们打造了一个高效靠得住的主动化数据采集体系和数据合成管线。这里就是一个像素级的数字孪生仿真体系,左边是仿真体系里衬着的图像,右边是真实的实拍画面,可以看到几乎可以达到以假乱真的后果。我们的端侧感知也可以捕获快速活动的物体,在极端的情况下可达到 1000 FPS。借助这些优良的规控和感知才能,就可以实现动态情况下的自立功课闭环,比如说动态的车载起降等。

大年夜脑层面,是我们团队比来重点存眷和投入的偏向。

我们认为具身智能的本质是通用和泛化。所以跨本体和跨场景必定是我们的 ultimate solution(最终解决筹划),或者说是本质的寻求。


在全部具身行业内,短期内我们可能会为了落地做一些特定场景的 overfitting(过拟合),但经久核心目标照样要实现跨越本体和场景的通用才能,比如说这里看到,我们自立研发的路径筹划的大年夜脑,不仅可以支撑各类各样的旋翼无人机,用在固定翼上也完全没有问题,当然还须要做少量的适配工作。这项工何为至可以拓展到地面的轮足机械人等不合载体上。可以看到,我们给该机械人供给走迷宫的路径筹划技巧支撑。单次筹划的时光在 10 毫秒以内,并且完全经由过程神经收集来直出,输入的是地图,输出的是最优路径。

因为我们的妄图就是做出普罗米修斯那种冲破智能飞翔机械人:一方面把无人机越做越小,另一方面也在赓续的挑衅极端场景下的技巧极限——在复杂的、没有旌旗灯号(包含卫星旌旗灯号和人的通信遥控旌旗灯号)的情况下,实现极致的自立决定计划和自立导航。这里的核心是“智能”: 你只须要给它一个义务,它便能自力筹划路径、避障穿行,稳稳抵达目标地。

以前两年,具身智能的火热源于一个合营等待:大年夜说话模型的出色才能有目共睹,若将其接入机械人,有望付与机械人更聪慧的大年夜脑,从而为行业打开新空间。 然而热烈两年后,具身智能仍没有标准谜底,却出现了很多细分范畴,智能飞翔机械人就是个中一个重要分支。

这是我们团队比来的视觉说话三维重建基本模型,我们的飞翔机械人可以经由过程说话文字去下达指令,端侧和边沿侧都安排着多模态大年夜模型和基本模型,它可以对情况有很好的认知,并且边重建边脑补获得上帝视角来帮助全局筹划。

我们会告诉它“你去做外立面的测绘,飞到建筑物内部做摸索,去看一下房顶,看一下房门......”它可以把说话里承载的模糊的逻辑信息和它视觉采集到的图像进行高效对齐,懂得你在说什么,完成从 懂得、推理到决定计划的闭环。

此外,自立决定计划是说,它并没有不知道要去哪,它要本身根据本身的义务自立生成 next best target (下一最优目标点)——这是一个复杂的决定计划义务,对模型的泛化才能请求异常高。不然很难实现碰到一个陌生情况就可以完成这个义务,这里的所有场景对于这个无人机来说都是第一次见。完成了义务后它会主动返航,把里面的信息带回来。

第四部分是集群,我们其其实单体以外一向强调分布式集群。集群不仅要寻求范围化安排才能,更重要的是具备极致的灵活性与动态自适应性。从 设计之初,我们便将 “分布式协同” 作为集群技巧的底层架构核心,确保体系从根源上适配多场景动态需求。

我定下的目标就是要做一个完全分布式的架构,因为如许是最灵活的,分布式的架构才能包管任何个别在参加或者退出时,不会影响其他个别的义务履行。就像人一样,每小我都是在自力感知情况,自力地用本身的大年夜脑做决定计划。然则当我们构成一个群体的时刻,我们有合营的上层目标,只要没有人使坏心往一处使,就能很好的把这个工作完成。

这也是一个一镜到底的 demo,10架无人机构成的集群从一侧进入这个树林,再从另一侧飞出来——全过程也是没有人干涉的,且是陌生的情况,我们应用的传感器也只有机上的 Stereo camera( 双目视觉)、 MEMS 惯导以无源式 UWB 收发装配(没有安排基站,经由过程无人机间点对点测距实现协同定位),无任何额外帮助设备。只用了这三种传感器,所有的计算都是在端侧完成。我们如今最大年夜范围去支撑的分布式的集群可以做到 1, 000 架以上,这里是本年事首年代揭橥的一篇 TRO,在论文里面我们出现了1, 000 个无人机的分布式集群避障。

当然这是一个仿真实验,我们如今还没有实力去做千机的真实实验,可能将来会实现。可以看到在飞翔中,每个个别都须要感知障碍物和四周其他个别的活动,经由过程分布式协同决定计划实现自立导航与及时避障。在地图的中间区域,大年夜家会集合在一路,这是一个冲突高发区域,他们会正好躲开彼此碰撞。这项工作今朝是学界推敲了无人机高阶动力学的、及时的、分布式的最大年夜范围无人机活动筹划算法框架。

我们异常强调群体的协同性和个别主不雅能动性的结合,比如这个实验中我们让 16 个无人机保持某种队形。假如你紧紧保持这个队形,前面有障碍物,是不是会撞上去?所以每个个别都须要及时的灵活决定计划“我如今是不是应当绕行,什么时刻再回归我的部队去 reform(调剂)成我预先指定的队形?”同样的,这些情况都是未知且没有 GPS的。

接着说我们做的应用,比如说多机协同三维重建,这里三架无人机在大年夜范围情况下做协同测绘,它们可以更好地做义务调剂,比如说你去测绘这里,我去测绘这里,最后在一个商定的处所做地图的快速拼接。我们也可以做多机调运,今朝我们已经开端了这方面的贸易化。这里是我们的实验演示 demo,上面的三个发光的是无人机,下面那个红色的是一个载荷。

这里的实验对于及时筹划是很难的,因为我们要及时地做力的分派;要包管这几根绳索不会缠在一路;以及没有任何一个无人机在偷懒。这项工作方才被 TRO conditional 接收,应当很快就会上线。同样我们要包管这个队形的协同避障,可以看到在一个狭小区域下,他们会主动地改变本身的队形,从里面穿以前,所有的筹划都是可以及时运行的,所以你可以在飞翔过程中给它下达新的指令,它们就管帐划出新的航路达到目标点。

比如说在一些工业场景的应用里面,我们下达“请你飞到四层楼去摸索一下这栋建筑”的义务,飞翔机械人就会本身飞到第四层楼,沿着楼梯找上去,然后两边摸索完,最后因为它没有其余路可以下来,所以会沿着路径再返回,把情况内的关键信息带回来。在义务的全过程中都是没有 GPS、没有工资操作的。在更复杂的情况下,我们甚至可以在矿山内部应用,这是一个异常恶劣、复杂并且事先未知的情况。那为什么要做这个呢?

这里面的一个核心供献点是我们构建了精细化的动力学模型——考量绳索朝向、拉力大年夜小、力矩大年夜小等关键变量,不仅可以包管飞翔的稳定安然,甚至会推敲下方载荷的姿势,如许的话假如里面是液体它也不会倾覆掉落。这里是个更大年夜范围的一个 5 机的协同搬运,我们确信没有一个个别在个中是偷懒的。传统协同搬运中轻易出现无人机在飞,但它的绳索是完全不受力的。

最后是飞翔操作,我的幻想是不仅要做一个灵活的飞翔的眼睛,还要做飞翔手,这个是我们这项技巧的 demo。

我们把大年夜模型安排在边沿侧,如许就可以和人做各类各样的交互,它可以懂得你的意图,经由过程说话、文字甚至动作,来懂得你要干什么,帮你拿饮料、拿可乐等等。我们可以看到它是怎么工作的:它其实就是一个手型的无人机,一个欠驱念头械手的构型,它可以经由过程单电机的神驱装配让本身本体产生形变,具备人手的指尖捏取或者掌心抓握的两种不合的动作模态,因为人的手有很强的包裹性,所以可以抓各类不合的器械。当然这个器械做不了地面操作类机械人的精细操作,因为它自由度很低,只有中心、前后和扭转的形变这几个自由度,然则它可以很好地做到“抓了就跑”这个动作。

比如在户外我们就可以用它做一些物品的快速送达,我们正在研发这个样机,欲望在有朝一日我可以坐在办公室里用它去帮我下楼取咖啡。

这里其实很多处所都很难,然则可能大年夜家感知不到,比如说可以看到它在抓一个器械之前和抓器械之后飞得都很稳,其实这个异常艰苦,做过无人机的同窗可能知道,别说抓器械了,只要产生了形变,无人机的迁移转变惯量、质量、各类物理参数都邑变更,保持安稳飞翔就会很难,更何况它的载荷还在产生很大年夜的波动。此外,我们也可以把它当做人手的空间延长,借助 第一人称视角眼镜和单手遥控,给它下达简略单纯的指令。我们会做端侧的帮助驾驶去修改控制指令,最后赞助完成义务,把器械抓下来。

以上就是我们的技巧进展,我们正在把飞翔具身的三脑:大年夜脑、小脑和群脑,做多个偏向的技巧落地,包含泛测绘-巡检,去代替身工进入复杂恶劣的场景采集信息;去做特种安防,供给自立功课支撑;去做车用级的飞翔 agent,知足移动平台协同需求;此外也可以做通用开放的二次开辟平台。

以上就是我今天申报的内容,感谢大年夜家(雷峰网("大众,"号:雷峰网)


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

微分智飞高飞:我们正处于通用飞翔智能爆发前夕丨GAIR 2025

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部