在 12 月 13 日举办的第八届GAIR全球人工智能与机械人大年夜会“数据&一脑多形”分论坛上,一场有关“一脑多形”的圆桌论坛,将全部会场氛围推向高潮,在英诺天使基金 ED 王建明的主持下,浙江大年夜学控制学院副传授,微分智飞开创人高飞,宁波东方理工大年夜学助理传授金鑫,上海人工智能实验室青年科学家王靖博三位嘉宾环绕着具身智能、空间智能、世界模型等话题进行了热烈评论辩论。
经由过程主持人特有的投资人式、抽丝剥茧的提问,环绕着几位学者的研究和创业偏向,我们可以懂得到当下最火热的世界模型、空间智能在具身智能范畴的研究进展和细节,从而得以穿透本钱覆盖活着界模型、空间智能的迷雾,看到具身智能当下碰到的挑衅与机会。
具身智能技巧路线仍未收敛
王建明:三位学者研究的偏向都异常不一样,开场先问一个共性的问题热热场,大年夜家怎么看以前两年具身智能的成长?
高飞:如今还没到技巧路线收敛的时刻,还属于摸索阶段,这是功德,有发散才有机会。这波具身智能的高潮,大年夜家本质等待的照样 AI 结合本体能带来的智能性的飞跃。我认为从发散摸索到技巧路线收敛、到最后落地阶段,大年夜家照样要记住本身做具身智能的初心是什么。假如不是为了通用泛化智能,最后这个范畴又收敛回工业主动化了,可能就没有太大年夜的意义了。
金鑫:我也异常赞成高师长教师的看法,我感到这两年留给高校的机会相对家当界来讲比较少,欲望将来更多把具身智能的核心问题交给高校去冲破,比如交互、人机协同、多智能体、世界模型等等抽象出的关键问题,家当去做更落地的工作。欲望将来两年能看到高校跟企业更好地合作、均衡。
王靖博:比拟较在纯数字世界中做一些例如scaling up 的工作,我更存眷具身智能软硬件的 code design,比如人形机械人十年前的波士顿动力 Atlas 就展示出了很好的活动才能,但它并没有从实验室的产品进入家当界,当有了较好的软硬件的 code design,可能会加快全部范畴的过程。
王建明:高飞师长教师的演讲方才展示了特别多的才能,例如单个机械人的自立路径的筹划决定计划、集群、飞翔操作,demo 演示都异常惊艳,这些才能背后是若何做到的?跟您过往研究是否有协同?
高飞:很难有一句话来解释白怎么做到的,不合的 demo 肯定有不合的技巧路线,我之所以比较善于做一些比较 fancy 的 demo,可能是因为我比较善于在保持着必定发散思维的情况下,还有比较好的履行力,最后能把设法主意落实。在具体技巧路线里,我的优势可能是:在无人机范畴,我可能是比较懂 AI 的;在 AI 范畴,我可能是比较懂无人机的。
王建明:解决空间智能问题是缺数据吗?
单体机械人的研究思路是经由过程放大年夜其极限情况下的小脑才能,如今比较合适收敛的技巧路线越来越往端到端的偏向倾斜。经由过程端到端可以降低全部体系的 compound error(复合误差)和降低延迟。具体用什么解法,就要 case by case,做 robotics 的好处就是这是很尊敬客不雅事实、面向对象的一个学科,什么好用我们用什么。
决定计划这块,如今业界的共鸣可能要经由过程放大年夜 VLM的才能,而对于群体机械人而言,打造一种柔性的、弹性的、分布式的、灵活的群体架构才是一切的基本。
王建明:我比较好奇无人机的端到端是什么端到端?我的简单粗化懂得大年夜家说的端到端是一个黑箱操作,是data driven的工作。
高飞:我认为端到端和 data driven 是两个概念,举个例子,无人机的端到端是图像输入,电机控制,那是不是必定要用到机械进修、黑箱、RL,其实不必定。20年前大年夜家研究无人机,就可能会在地上贴一个小球,无人机的摄像头看到这个小球,经由过程把小球的像素点控制在像平面中心,让无人机可以保持悬停。这是不是端到端?是,因为它用 PID把一端输入的信息——图像空间中的点误差,映射到另一端输出的控制指令。
端到端是一种范式,强化进修是一种解法,黑箱是一种模式,三者是不一样的概念,不该该被直接画上等号。
王建明:所以高师长教师的端到端也用到各类解法?
高飞:各类各样的解法,以解决问题为独一目标。
王建明:也有涉及到强化进修?
高飞:如今用大年夜量的强化进修。
王建明:无人机的高速穿越我印象里有强调强化进修,高师长教师的工作中照样有一些 rule base 的器械存在?
高飞:我们不叫rule base,我们叫 model base 或者叫 principle base,我们很少去写规矩。大年夜家经常会批驳 rule base,然则假如只写了一个规矩要怎么解释你的算法可以在不合的处所避障。所以它必定不是一套规矩,而是一种体系化的模式。
世界模型解决了主动驾驶的哪些问题?
王建明:金师长教师刚分享了很多世界模型在主动驾驶范畴的冲破,金师长教师的研究偏向主如果世界模型空间智能。比来一段时光世界模型的概念很火,那么主动驾驶的具体什么问题用世界模型来解决了?
王建明:视频生成是一种世界模型,假如带上机械人的3D空间,再加上很多动作维度,这个状况表征可所以多种多样的,那么在主动驾驶范畴的表征是什么?是一个共鸣吗?
金鑫:如今第一梯队像特斯拉的筹划根本都在用世界模型,之前他们收集到的数据已经把数据飞轮转起来了,这么多半据上已经积聚了大年夜量的corner case,那么他们下一步可能就要经由过程世界模型模仿的方法再去生成更多海量数据,例如覆盖掉落之前在国内采集的数据以及之前构造不到的处所。
再一个,跟本来经由过程离线数据练习比拟,经由过程世界模型方法可以做闭环测试。闭环测试是指上线一个模型后,活着界模型里面跑,跑完后能输出action获得将来的状况,再根据将来的状况测试下一步该怎么做,就能把全部decision making 链路放到 world model 里面去做闭环的测试跟优化。这是跟本来技巧筹划最大年夜的不合。
如今世界模型在主动驾驶范畴为什么这么火,重要照样因为主动驾驶的场景生成照样比较简单,不像机械人。而主动驾驶范畴很早就有世界模型的概念,只是叫法不一样叫闭环仿真器,用来做主动驾驶安然测试。是生成式 AI 才能的晋升才使得如今世界模型生成的数据已经到了真假难辨的地步,为此供给大年夜量异常有价值的练习样本。
金鑫:机械人范畴世界模型路线毕竟对纰谬还存在争议。对于世界模型的定义大年夜家也有不合的看法,例如李飞飞跟 LeCun 就存在差别。李飞飞更侧重于"pixel-wise"(像素级)重建,LeCun 认为不须要重建成人人可见可视的video,直接“ latent-based”表达出来对应的机械人的 latent state 就可以了,它也是一种世界模型,只要可以或许给定前序的action,可以或许猜测出后续的action,或者state状况应当怎么变更,本体下个阶段会出现什么情况,只要能把这个阶段抽象地表达出来,都算世界模型。
所以今朝世界模型的定义还没有定式,我认为在主动驾驶跟机械人两个义务之间,对于世界模型的请求跟技巧范式也都有差别。最初世界模型那篇 paper 提出的概念也很抽象,只要有能猜测将来的才能并且有记忆,都可以被称为世界模型。
王建明:我不雅察到创业公司层面,如今做世界模型创业的很多公司开创人都有主动驾驶背景,我想懂得下主动驾驶的状况表征到底是个什么?
每家主机厂都在做本身的筹划,因为对安然性的请求以及门路场景的复杂度不合,侧重也都不一样,例如特斯拉就是纯视觉筹划,华为有激光雷达帮助。
机械人也类似,如今很多人形机械人做的工作,其实工厂里一个工业流水化设备也能做,可能成本更低,但机械人给人的等待不是一个流水化设备,而是机械人成功了今后什么工作都能做,我认为天空端、地上、水下都有类似的逻辑。
王建明:世界模型解决具身智能相干问题,会不会距离太远?
金鑫:前两天 LeCun 颁布了多模态 V-JEPA,他一向传播鼓吹本身的 latent space 就是世界模型的筹划之一。假如要把世界模型打造出来,offline 先做好,再去驱动具身,这个今朝似乎没有比较明白走通的技巧筹划,但像LeCun V-JEPA 直接经由过程 representation learning 方法先学到对应的猜测才能,再去追问帮助,其实已经有不少工作,比如 VLA。
然则要说它走通了吗,把世界模型跟具身结合起来的筹划已经有人在售卖了,但要说真正达到刚高师长教师说的那种通用智能似乎又没有,还须要时光验证。
王建明:如今一种说法是把世界模型跟 VLA 对立起来,你刚提到其实这两种可以结合。
金鑫:我们昨天上线了一篇研究《Integrating World Models into Vision Language Action and Navigation: A Comprehensive Survey》就是将两者结合起来。若何做我们梳理了两种方法,一种是先创建世界模型,再做 policy learning,要么同时做,不分先后。
王建明:两者结合解决的是不合层次的问题?
金鑫:解决的照样老问题,即本来 offline 数据集没办法经由过程 imitation learning 模仿进修拥有长程思维和将来猜测的才能。
高飞:相当于 MPC 中的 P(猜测)。很多人认为 MPC 中的模型就是机械人,可以把其他所有状况都放到 model 里,也会往前猜测。
王建明:我可以懂得MPC 可能是用一个方程来 predict,而世界模型其实是用一个生成式办法来 predict?
高飞:我认为 MPC 里面的 M 怎么来,其实是工程师跟科学家去做了抽象,而世界模型这种数据驱动就是用 AI 本身去摸索。本质上假如我们用更多 AI,今后就可以不须要那么多科学家去抽象了。
金鑫:比如说一个长程义务,我要想象出来后面怎么做,就相当于把它抽象成一个一个 long horizon 问题,如今最难解决的就是长程义务,有了世界模型之后,长程义务的懂得、猜测才能就能很好地付与后续的 different policy 去进修。
什么是无人机的空间智能?
王建明:王博士您重要做全身控制(Whole-Body Control, WBC),把视觉引入到 Whole-Body Control,在这个偏向,您认为大年夜概到什么时光点可能会实现一个看上去还不错的通用控制器。
王靖博:假如说在仿真器里不做一些力矩的限制,要实现一个还不错的控制器不难,但会有精度的均衡,可能不太会像真的机械臂一样指哪打哪。
王建明:高师长教师您刚给我们展示了多机的集群,包含多无人机的协同,这是否有点像集群进修?
假如在真实世界里,要实现这件事一方面是算法的问题,一方面也看硬件,在上海 AI LAB 有异常多不合型号的人形机械人,雷同的算法跑出来很多不合的结论,我认为硬件才能的上限决定了什么时刻能取得不错的成就。
高飞:集群进修具体的定义我不太熟,然则我们会采取集中进修、分布计算的模式,进修、练习的时刻在一路,work 的时刻各做各的,然则大年夜家都有一个合营的目标。
王建明:三位嘉宾合营商量的另一个合营点可能还有空间智能,包含无人机的空间感知、VLR(Vision-Language Reconstruction)。空间智能的定义也很大年夜,怎么懂得无人机范畴的空间智能呢?
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
高飞:我认为空间智能的定义不是特别清楚。感知是 robotics 异常重要的一块,上一代 robotics 成长快的一个根源在于 SLAM(即时定位与地图构建)技巧,如今很多做 SLAM 技巧都转行做空间智能了。不是换了个概念,而是很多技巧持续复用,可能如今用的更多的是 learning based 办法像 VGGT或者其他 grounding model,但大年夜家的目标可能类似,都为了获得机械人对空间几何、 texture,以及各类信息的一种抽象和表征。
本来一些 SLAM 做不了的工作,可能须要 AI 技巧进一步建模,之落后一步去做 learning,所以才有空间智能的概念。
金鑫:可能主流的照样视频生成。因为牵扯到安然性问题,假如连视频模态 RGB 的 video 都给不出来,若何信赖生出来的数据是有效的?主动驾驶重要照样视频的 ADAS,同时雷达、点云这些传统的数据也要有,所以这是我为什么要做 UniScene,因为生成的模态越多,信息量越大年夜,我认为 multi model 的前景可能更好。
王靖博:我感到大年夜家对 Semantic(语义)的存眷变多了,Semantic不仅包含物体的类别,用处,交互的方法,还包含物体中 Semantic 的可能性变多了。
王建明:空间物体的关系,语义信息等等都还处于比较早期的状况。
金鑫:比如从第一排左边开端数第四个瓶子,类似于这种比较复杂的空间关系的描述对于机械人来讲就比较艰苦,尤其是对于做机械人大年夜脑的公司来说很难实现。这种空间才能即所谓的空间智能对人来讲很简单,然则机械人还不成熟。
金鑫:就像刚王师长教师说的,以前大年夜家对这种 semantic 没那么敏感,也不会有这方面响应的解法跟数据。
高飞:我懂得可能就像金师长教师说的,大年夜脑公司面对的问题是因为大年夜模型的数据来源于说话模态,本身其空间关系就很弱,所以大年夜模型在空间关系上就会出现幻觉。然则传统的 SLAM 在这块很强,所以要构建专门的数据集把这些信息对齐。
金鑫:仿真跟生成要分得这么开吗,可能仿真的就是本来 CAD 搓出来的 asset,就像群核智能,他们如今手里面有很多资产,也是他们本身最大年夜的护城河,然则如今生成出来的内容可能也不见得会比那种手搓出来的要差。我认为重要照样看你什么样的数据有效,或者说哪些是针对你要解决的那个义务有价值,这部分数据该怎么去表达?是用 video 吗?照样用其他的 modality,或者直接不消表达,直接就是一个抽象的 latent 就足够了,照样 case by case。
王建明:如今具身智能很多基座,VLM 中的“Vision”根本上是 2D 的,多模态本身在 3D 模态还比较欠缺,所以如今反倒是那些做 SLAM 的公司会强调把 3D 模态补足,然后最终在看若何解决空间智能的问题。
金鑫:是的,所以我们做 driver VLA 就加了 visual COT 的思路,也是同样的事理,给了 depth 等更多信息。
具身智能创业,奔赴星辰大年夜海照样踏扎实实?
高飞:我认为拉长时光跨度,我们会在生活中看到各类各样的无人机,这是我一向以来的妄图。然则这个时光可能比较远,二十年后我们往向窗外,假如没有各类无人机在做高空功课,例如送货送人,那肯定是我们这帮学者、创业者和从业者的掉败。
我认为很多时刻我们的技巧已经 almost there了,再努尽力就能冲破,但要让它 work, 这一步总要有人去做,这个中有很多工作可以做,具体的落地过程肯定很苦楚,我们正经历这种苦楚。
王建明:无人机已经经历过一波应用潮,以大年夜疆为主的硬件公司的迭代,到如今这个阶段更多要用无人机来解决一些实际问题,而不仅仅把它算作一个设备。
高飞:可能好落地的应用已经做完了,但好做的工作其其实全部空中功课的生态里不到 1%,比如如今大年夜家熟知的航拍、农业植保机,更多的就不必定说得出来了。然则我们行业里仍有各类工作可以做,例如产生了火警去高空灭火、高空清洗幕墙、无人机送货、载人不雅光,这些大年夜家讲了良久,但还没有实现。
王建明:为什么还一向没实现?问题是什么?
高飞:在我看来肯定有很多卡点,最大年夜的一个问题就是不敷智能。或者说某个行业的无人机须要 rule- based,要写很多规矩,就须要很多科学家、工程师夜以继日地用人力去抽象,这件事就很难,也很难算过来账。假如花了那么大年夜价值开辟物流无人机,最后还不如外卖小哥送得便宜,那么意义就不大年夜。然则AI 的成长让我们看到了欲望。
王建明:所以照样 learning base 的控制范式的改变,也可以增长无人机的应用处景。
高飞:这个阶段用 AI 结合大年夜模型,不仅控制、更多是决定计划,而决定计划是最难的问题,我认为我们可能看到了具备通用泛化解决问题才能的基座模型的欲望。
王建明:金师长教师您怎么对待全部具身智能的落地应用?
金鑫:我本身也在宁波做一些家当化的工作,刚高师长教师讲到不欲望再回到工业主动化的阶段。但如今反倒是工业主动化的需求异常焦急,他们欲望把机械人尽快用起来,这就是个中一个很大年夜的 gap。高校师长教师创业,技巧人员创业,尤其是这种新兴技巧创业,他们脑海中的设法主意跟实际世界成长存在差距,你想做的是个飞机,可能工厂须要的就是一个自行车。
王建明:王博士,你重要做双足人形的控制,如今这块的硬件已经比拟较较成熟了,那么离最终的应用落地您怎么看?
王靖博:本年机械人范畴让大年夜家看到了一些跟进步操作才能无关的工作,例如巡检、跳舞等等,大年夜家貌似用一米四以下的机械人就能看起来不错了,但最终目标照样要让机械人去干活,在能干活这件事上,硬件的迭代我认为还不太清楚,无论是人形机械人的负载才能、在高负载下的均衡性、活动的稳定性,还有灵活手的筹划,其实还有异常多的挑衅。所以我认为这个工作还有很远的路要走。
王建明:在中国创业面对一个很大年夜的问题就是最终要去解决一个宏大年夜的问题,但又不得不面对短期贸易化的抵触。比拟较美国创业公司,前段时光我看到 Scale AI 最新一轮的估值是 140 亿美金,换成人平易近币就是近千亿的估值。那我们回头看国内的创业公司,不管是从融资范围照样估值范围上来说,你们认为最终通用机械人在中美两国的估值体系下会是什么样?一个像 Scale AI 可能就融了三轮罢了,估值已经到 140 亿美金,投资人也没等待它能解决什么实际具体问题,另一方面中国创业公司在几亿人平易近币估值下,又要去奔赴星辰大年夜海又要踏扎实实贸易化,作为创业者的高师长教师您怎么看?
高飞:起首这个估值我肯定看不懂,只能说我无法懂得。那从创业者亲自领会,我既然在中国就走好中国路径。我认为接下来是关键的一代,每一代人都有每一代人的任务,最后谁能把工作做成最重要,而不是看谁估值更高。
金鑫:我也特别赞成高师长教师方才的话。估值背后隐蔽的器械太多,同时本钱的力量太大年夜了。可能背后的本钱并不信赖这件事必定能做成,只是说要把场子热起来。我认为从中国角度来讲,从 DeepSeek 之后,中国的投资人对技巧的耐烦多了一些,大年夜家能看到这代年青人照样能做出来器械。
王靖博:全部行业或者说科研是一场马拉松,会有一轮又一轮的海潮,如今可能为了炒热度,但下一轮真的海潮来了之后,大年夜家关怀、评论辩论的问题也不一样了。对一家公司的评估表现着估值上可能会有新的改不雅。
不雅众提问环节:合成照样真机数据更有效,照样要看义务,不是真机数据就必定最合理。
不雅众提问:既然大年夜家谈到今朝的技巧路线还没有收敛,为什么还有这么多学者下场创业,他们创业的念头是什么?是因为学术界的资本不敷来做这件事,照样纯粹想蹭这波本钱的红利?
高飞:对于我来说,肯定不是为了蹭本钱红利,没什么好蹭的。假如你创过业,就会知道这里面要承担若干压力,有若干苦楚要经历。那为什么还要创业呢,我认为恰好要在技巧没有收敛的时刻创业,不然等收敛了,机会生怕就不再属于你了。对于我而言, 5 年前我肯定不会创业的,因为没有足够的变量可以赞助我把这件工作做成,而如今有这个机会,那就 have a try,and try my best,就是如许。
不雅众提问:有关机械人数据的问题,如今机械人数据数量相对较少,现有三种办法,一种办法是真机采集,但真机比较昂贵,并且机械人本领会迭代,假如想要经由过程真机回流数据的话,其实迭代了之后再应用也是个问题。第二种方法是经由过程仿真,但仿真存在 simulation gap,不过仿真会相对便宜。第三种方法是我比来据说是有效视频生成模型来生成加倍大年夜量的数据,就能弥补个中的误差,然则这种方法会比较耗算力。想问一下你们认为今后的数据获取的偏向会是哪一种?或者是如何去结合?
金鑫:这个其实评论辩论过很多次,数据金字塔,最底下的就是互联网数据或者 video 的数据,这个量也最大年夜,获取的成本也最低。然则可能只能支撑做一些 pretraining,就比如一些 foundation model,用这部分的 video 让它去学是没问题的。再往上就是合成数据合成出来的高质量数据,real 跟 SIM 之间的 gap 比较小,可以或许支撑做更多的义务,进步泛化性。最上面是真机的数据,遥操的数据。
但合成数据也分各类合成数据,分无效的一些合成数据,有价值的一些合成数据,对于物理真实更重要的一些合成数据,下面又细分了很多。对于 video 也是一样,对 video 到底是用人的 human video 去训它,照样说机械人的一些 video 去训它,照样说其他加倍 in general 的 video 去训它?这个也不太一样。所以我认为今朝还在摸索哪部分数据更有效的阶段。我听过一个比例是721,就是 70% 的 Web data video data, 20% 的 synthetic data,然后 10% 的真机数据,然则 who knows?
不雅众提问:如今直接用文生视频、图生视频这种视频生成模型直接生成机械人的数据,类似度其实可以或许达到 88%,然则会比较耗卡、耗算力,这种方法你们怎么看?银河通用他们是 99% 都用合成数据,就完全占合成数据那一派,所以想看一下你们的看法。
王建明:那 predict 的下一个状况是什么样的?
金鑫:耗卡这件事,有钱就可以做,重要照样看能不克不及生成有效的数据。但必定要合成出来的 video 才有后果吗,也不必定。如今的 latent space 的生成也是一种生成筹划,又回到方才那个老问题,就是 word model for VLA 或者 word model for embody 那个 word model 输出来的器械必定是要 video 吗?也不必定。
不雅众提问:视频生成模型直接生成机械人的数据,会比仿真的更接近真实。
王靖博:我比较赞成金师长教师的表达。哪部分数据最有效照样要看义务,不是真机数据就必定最合理。像我做足式控制,个中最根本的 locomotion,我可能都没有 positive examples,我是在一个纯仿真情况里,没有任何的实调数据一样可以把这件事做成,因为我的义务不须要那么多 contact reach 的器械。我只要能学到从各类各样摔倒的情况里面怎么让机械人恢复稳定就好,其实是纯依附义务的一种情势。所以我认为评论辩论这个事之前,其实更重要的是看你须要做什么义务,然后找那个义务最 scaling up 的一种方法去获得数据。「雷峰网("大众,"号:雷峰网)」
王建明:接下来我们聊聊三位师长教师在落地上的等待吧,比如像高师长教师做无人机应用,您感到在这个偏向,将来我们实际生活中能看到什么类型的应用?

发表评论 取消回复