12月12日,第八届GAIR全球人工智能与机械人大年夜会在深圳正式启幕。
本次大年夜会为期两天,由GAIR研究院与雷峰网结合主办,高文院士任指导委员会主席,杨强院士与朱晓蕊传授任大年夜会主席。
作为不雅测AI技巧演进与生态变迁的重要窗口,GAIR大年夜会自2016年创办以来以来,始终与全球AI成长的脉搏同频共振,见证了技巧海潮从实验室涌向家当深海。2025年,是大年夜模型从“技巧破壁”迈向“价值深耕”的关键节点,值此之际GAIR如期而至,联袂智者触摸AI最前沿脉动,洞见家当深层逻辑。
大年夜会上,深圳市海外高层次人才、南边科技大年夜学计算机科学与工程系长聘副传授张进亲临现场,为参会者带来了一场出色纷呈的演讲分享。
演讲一开端,张进传授就向“时空AI”、“具身智能”等当下火热概念率先抛出了自身看法:无论是具身智能照样聪明健康,都须要对物理世界进行感知懂得,并在虚拟世界和物理世界之间建立沟通。是以传统AI和新型传感本质上是从不合的角度和路径走到同一个点,最终实现“殊途同归”。
基于这一点,张进传授认为传统AI从说话、文字、视觉等模态出发,生成世界模型摸索空间智能。而传感器、智能物联网相干范畴的学者们一向以来在做的,同样是为了精确感知物理世界。只不过感知方法从旌旗灯号处理迭代到机械进修、深度进修,再到如今经由过程大年夜模型实现面向空间智能的多模态感知。
关于面向空间智能的新型模态感知,张进传授和她的团队有一些新设法主意:
1、当下的多模态感知大年夜部分集中在语音、文字、图像、视频等情势,存在功耗成本高、隐私性差等问题,我们欲望引入更多的新型模态感知如声波感知、毫米波雷达感知。
2、声波感知成本低、计算量低,能经由过程对多个设备对之间的声波感知,断定它的偏向和距离,将来这项技巧有望作为供给连接和偏向感知的基本举措措施。
3、声波感知在医疗健康范畴大年夜有可为,在将来也许应用小小一副耳机就能实现心跳、血压、肺功能健康全链路监测。但若何实现跨模态检测、清除个别差别性影响,仍是一项巨大年夜挑衅。
4、如今我们对毫米波雷达的存眷点由检测精确率转向可托感知,正在思虑要若何将视觉的数据合成毫米波数据。
5、接下来我们的重要工作偏向有个:持续做用于物理信息帮助的新型模态懂得模型、让传统模态与更新型的模态融合懂得,用大年夜模型主动生成代码来检测物理世界的感知旌旗灯号。
6、在将来,面向空间智能、物理世界的多模态感知需求会极其大年夜,须要更多像声波感知、毫米波雷达一样的新型感知模态在不合场景并发挥独特优势。
7、当下新型模态的数据量照样很少,所以将来的研究偏向将会合中于数据懂得、数据生成等方面。若何生成、若何防御、若何更轻量化的跑在端侧等等,这些问题亟需进一步研究。
以下是张进传授演讲的出色内容,雷峰网作了不改变原意的整顿与编辑:
声波感知也好,毫米波也罢,都是为了感知物理世界获取空间智能,所以今天我要讲的是面向空间智能的新型模态感知。
众所周知,上个月李飞飞院士方才提出空间智能是AI的下一个前沿。深圳的反响异常敏捷,在上个月底宣布的《深圳市“人工智能+”(收罗看法稿)》傍边就把空间智能模型写进去了。

实际上无论是如今的具身智能、无人机、聪明健康,都是用来熟悉和懂得物理世界的,只不过大年夜家是从不合的渠道、不合的偏向走到了合营的点上,所以我管它叫殊途同归。
为什么说是殊途同归?
传统AI从说话、文字、视觉等模态出发,生成世界模型,摸索空间智能。但回过火看,二十年前我们在无线通信和无线收集的研究中,就已经开端做无线传感器收集了:把所有的传感器放到山里、放到河里、甚至空中去进行监测。
那么要如安在呼吸体系疾病上赞助他做治疗呢?大夫告诉我们,肺部练习是一个很常用的办法,可以天天做几十次的腹式呼吸练习。
再往前追溯十年,数字孪生、城市建筑、交通等等都是为了精确的感知物理世界。包含如今我们应用WiFi、手机旌旗灯号做感知,从有线成长到无线,这些都是我们在试图感知物理世界的方法。
那么我们是若何做到殊途同归的呢?
最初我们是用旌旗灯号处理来完成这件工作,后来我们可以用机械进修、深度进修来懂得物理信息,如今我们可以用大年夜模型懂得传统传感器的旌旗灯号,从而获得更多的信息,也为我们带来面向空间智能的多模态感知。
但说实话,如今所谓的多模态感知,都照样集中在语音、文字、图像、视频,真正新型的并不多。像激光雷达、点云、深度摄像头、红外,稍微有一点与传统的结合。我们欲望可以或许引入更多的模态,比如声波感知、毫米波雷达感知。
声波感知有哪些最新摸索?
毫米波雷达感知今朝已经有一些应用了,但声波感知的应用今朝较少。更重要的是,为了更好地舆解这些新型模态,我们须要用更新的收集更好地舆解它,所以这也是我们全部正在团队做的工作,就是欲望用这些最新的模型技巧,来懂得一些新型的传感器数据。
为什么须要这些新型的传感器数据?这个工作异常好懂得。已有的视觉传感器复杂度高、依附光照,还有隐私问题。假如要在小机械人上加一个摄像头,甚至加一个处理视觉数据的芯片,它的功耗和成本都是不容小觑的。那么能不克不及用更便宜、更好的方法来做感知呢?

基于此,我们比来几年都在研究声波感知。我们所有的设备,例如手机、智能眼镜、耳机、智能音箱等,全都带有扬声器和麦克风。无须要借助额外设备,只要让它们用扬声器、麦克风发出一小我听不到的声音,将这个声音打在情况中再返回来,就可以或许像蝙蝠一样感知到周边的状况。这种感知办法成本低、计算量低,异常合适机械人应用。
具体来看它有哪些应用呢?例如华为汽车,它在车内的定位已经试图在做这件事了。以及在笔记本电脑上,已经可以用手来翻页了,这个动作并不是靠摄像头来完成,而是经由过程声波完成的。还有很多应用,包含智能眼镜和耳机等设备上的应用。

最早的时刻我们还没有效声波模型,只是懂得旌旗灯号,用两个很小、距离很近的两个扬声器,发一些特别的扭转声场的旌旗灯号,就可以做到很精准的厘米级的地位感知,这是须要依附设备的,在设备和设备之间做定位的时刻这一点就异常重要。
除了2D的感知,我们还可以做3D的活动追踪。其实两个设备之间去做声波感知,并非一件轻易的事,多设备之间的声波感知就更为复杂了。在这个过程中要面对很多的冲突,要怎么去解决这些冲突呢?近几年我们在跟光荣、华为等智能设备厂商合作解决这个问题,经由过程多个设备对之间的感知,断定它的偏向和距离。将来,这项技巧有望放到华为OpenHarmony体系中,作为供给连接以及偏向感知的基本举措措施。
除此之外,我们还在智能交互方面做了很大年夜一部分工作。我们花了很多的精力做智能眼镜的交互,欲望可以或许用声波感知人眼高低阁下的神情。比如只须要眨个眼、挤个眉,就可以控制眼镜的操作。本质其实也是speaker发生发火声音,打到麦克风上从而做交互,实现无需抬手仅用眼球就可以控制智能眼镜。

紧接着,我们还做了不少的器械。假如你如今的智能眼镜前面有十几个图标,在点击图标的时刻你须要用手滑动它,看到须要点的地位。是以,我们做了一个面部的传感器,它只须要发出一个稍微高一点的次声波,就可以异常便捷地进行感知,包含触摸、滑动等等。将来,这种传感器假如可以集成在眼镜上,外不雅上可以做到根本隐形。
除了在智能眼镜上做交互之外,我们还发清楚明了很多痛点。例如如今几乎人手一个蓝牙耳机,然则今朝对耳机做交互重要照样靠摸,摸它的柄高低不合的地位。尤其是很好的耳机,轻轻一摸声音的增减幅度就很大年夜,如今我们欲望不触摸它,就可以让耳机实现感知。
我们起首做的是,让舌头顶上颚的不合地位,来告诉耳机如今欲望它进行什么样的操作,这个构思我们最早是从助听器上获得的。助听器具备一个很重要的特点,就是须要区分声音的偏向,不但要选择声音的强弱,并且还要选择声音的偏向,并且应用者一般不欲望别人知道他戴着这个器械。
是以,我们受了助听器的启发,在蓝牙耳机上安装了隔空隐蔽式传感器,用舌头就可以控制耳机。它的道理其实很简单,因为耳道、上颚和口腔是连通的,耳道发一个声音,打到口腔内再返归去,舌头不合的地位会使信道产生明显的变更。经由过程感知信道的变更,就可以实现隔空隐蔽,这也是本年人机交互顶会上的一份工作。

除了用舌头来控制耳机之外,接下来我们还做了隔白手势控制耳机。这个部分其实有异常多的挑衅,包含如何设置这个手势?如何防止四周情况的干扰?选用什么样的旌旗灯号?看起来是蛮小的体系,但这里面的技巧挑衅照样很多的。在交互上,我们前前后后也做了不少的工作。有一些花费电子类厂商对我们正在做的这些研究很感兴趣,所以我们如今也在做进一步的落地工作。
另一方面,我们想稍微聊一下声波感知在健康方面的应用。实际上用声波感知做健康的监测,这项研究我们已经做了十多年。在此之前,我们已经做了快20年长途健康监测。
我们如今想做的工作是,用声波感知最根本的呼吸、心跳。打个比方,就是把手机放在桌子前面,就可以看你的呼吸、心跳,这部分如今已经做得异常成熟了。 而我们如今做的工作是,拿耳机不雅测你的肺功能。
在中国,有异常多的慢阻肺人群,以及哮喘病人须要按期到病院做肺功能的监测,有时刻他不想去,就没办法知道本身病情的成长。假如我们在家里戴着耳机,就可以得出跟病院几十万的监测设备类似的肺功能曲线成果,这对用户来说将是一件异常利好的工作。

为此,我们做了两方面的工作:第一份工作,用耳机作肺功能监测,然则还须要吹一个很长的管子。第二份工作即本年的研究,如今用耳机做肺功能检测已经不须要管子了,经由过程正常措辞就可以断定肺功能的情况。
在做完这件工作之后,大夫告诉我们光知道他们的情况是没用的,对医学来说,技巧手段不但要监测出状况,最重要的就是要形成闭环,还须要返回来赞助他们进行康复或治疗。
除此之外,我们还做了隔空的手势辨认。比如华为的智能眼镜,在旁边有一个触控板,只要触碰着就可以感到到眼镜在动造成不适感。那么能不克不及隔空控制它呢?这个技巧挑衅照样蛮高的。
然则病人一回家就发明,固然一开端做的是腹式呼吸,但做了不到2个就又变成胸式呼吸了。所以我们想到可以用声学摄像机或毫米波雷达来赞助他们做呼吸方法、呼吸深度的评估,从而替代大夫和护士,赞助他们去做呼吸练习的指导。今朝,我们正在跟广东省人平易近病院进行相干合作。
除此之外,我们还用声波做了房颤监测体系,只要放到手上就可以做监测,应用办法上比拟较较轻易。想象一下,将来只要戴着耳机就可以知道你的呼吸、心跳、压力状况,发出呼吸练习的提示,还可以顺带放一些音乐缓解你的压力。这个方面貌前我们正在做,后续还有很多须要进一步完美的处所。

除了声波感知,我们做了一些关于柔性传感器的工作。因为我们的研究重要存眷医疗健康范畴,所以我们测验测验过把柔性传感器放在耳朵里做血压监测,放在手段长进行血压的监测等等。这一方面我们要解决的核心问题是,本来大年夜多半的数据都是基于光电传感器和PPG的,假如切换到柔性传感器它的数据量是远远不足的。
这部分的难点重要有两个,一方面要实现跨模态监测,这一点尤为重要。另一方面,在正常人身上做监测是很轻易的,然则在病人身上做检测就相对艰苦。将来我们还须要收集更多病人的数据来做相干工作,仍然有很长的一段路要走。
数据匮乏是毫米波雷达感知的关键挑衅
其实毫米波雷达我们其实做了已经快10年了,之前也做了很多毫米波雷达的SLAM,比如针对材质进行辨认,是玻璃、石头照样沙发?比来我们的存眷点反而不是它的检测精确率了,而是毫米波雷达的可托感知。之前我们测验测验过用毫米波雷达监测人的活动,可以做到把人的Skeleton画出来、追踪出来。
在这个工作中要解决的核心问题是,毫米波雷达的数据很少。但视觉的数据很多的,所以我们在思虑要若何将视觉的数据合成毫米波数据从而进行分析以及后续的进修和练习。在做的过程中我们发明,视觉上的欺骗可能会影响毫米波雷达的断定,所以只能辨认照样远远不敷的。
举一个交通相干的例子,假如你前面有一辆车,然则旁边车辆开门造成一个视觉上的遮挡,这时它就会生成一个旌旗灯号让你误认为前面没有车,就很轻易撞上去。还有一种可能,就是你前面本来没有车,然则它生成一个旌旗灯号让你误认为前面有车,这个时刻刹车就会导致后车追尾,这些情况都是有可能产生的。

今朝,我们有两种技巧:一种是被动感知的技巧,手在滑动产生了微弱的声音,让麦克风听到。另一种是主动感知的技巧,speaker要发一小我听不到的声音,弹回来然后感知它,无论若何都是隔白手势的感知。
而我们须要做的,就是懂得新型的感知模态,设计新型感知模型,从而更好地应用这些新型感知模态的信息,更周全的感知这个物理世界。所以将来的研究偏向将会合中于数据懂得、数据生成等方面,当下新型模态的数据量照样很少,若何生成、若何防御、若何更轻量化的跑在端侧等等,这些问题亟需我们进一步研究。
最后一部分,我想分享一下关于毫米波雷达的感知。
那要怎么样防御这种生成式欺骗呢?后续我们侧重做了一些工作。举个例子,我们可以设置毫米波雷达发射出来的旌旗灯号,让它形成几个不合的通路,使得我们在一个通路下看到的活动速度距离是A,别的一个通路下看到的活动速度距离是B。如许我们就可以区分真实旌旗灯号和欺骗旌旗灯号。
如本大年夜家进到一个陌生的房间里,会很关怀房子里有没有摄像头在进行偷拍。也许在将来,假如房间里有入侵的毫米波雷达,不须要偷拍就可以感知到房间里的状况,那我们要若何探测、发明、并将它清理出房间呢?这个相干研究也是我们后续要做的。

最后,我们来总结一下声波毫米波雷达的成长过程。
在初期,我重要做旌旗灯号相干研究。这也与我的专业背景有关,我的本科硕士都是电子信息专业,博士时代跨专业到计算机,于是开端做深度进修研究。我们最早用的是一些旌旗灯号处理的手段。跟着深度进修的成长,我们早期的旌旗灯号处理手段已经远远不敷用了,须要在懂得物理旌旗灯号的基本上,设计针对物理旌旗灯号的模型。
举个简单例子,毫米波雷达的旌旗灯号是有稀少性的,会有天线之间角度的接洽关系性,这种接洽关系性就不克不及再直接套用传统的视觉收集。我们须要懂得它的物理意义,然后在此基本上设计合理的模型。是以,所以我们慢慢从物理意义做到有物理意义模型。
新型模态感知会走向何方?
在将来,我们的重要工作偏向会合中在以下三个方面:
起首,持续做用于物理信息帮助的新型模态懂得模型。举个例子,如今已经做出了很多毫米波雷达模型,但大年夜都是基于生成点云然后在点云上做懂得的。但实际上生成点云这件事本身就已经消费了很多信息,假如可以直接在原有的信息上做懂得,用物理意义结合深度模型来做模型设计,后果将会更好,这也是我们如今的工作偏向。
其次,若何让传统模态与更新型的模态融合懂得。
最后,近两年大年夜模型异常火热,并且对各行各业造成了翻天覆地的变更。我们所做的智能感知范畴的物联网相干研究,天然也深受大年夜模型的影响。所以我们也在积极拥抱大年夜模型并做了一些新的工作,比如用大年夜模型主动生成代码来检测物理世界的感知旌旗灯号,然后直接给出成果。
将来,还会有异常多基于大年夜模型的感知模型生成方面的工作。如今这方面的工作才方才开端,我信赖将来五到十年就会异常繁华的成长。
总结一下,面向空间智能、物理世界的多模态感知需求是极其大年夜的。传统的感知模式只有寥寥几类,而将来我们须要更多的新型感知模式。并且在不合范畴须要不合的感知模式,声波感知、毫米波感知、柔性传感等新型模态,会实用于不合物体的感知并发挥独特优势。
我的分享就到这里,感谢。
以下是雷峰网与张进传授采访对谈的出色内容,雷峰网作了不改变原意的整顿与编辑:
雷峰网:您最初的研究范畴电子通信与如今跨度很大年夜,是基于什么样的契机开端做感知研究?
张进:本硕时代我在清华读的都是电子通信专业,后往来交往了喷鼻港科技大年夜学读博改学计算机专业,结合过往的学科背景,博士时代我开端研究认知无线电。博士卒业后我开端跟病院合作,将无线旌旗灯号技巧应用在聪明医疗中,也是在这时代发清楚明了旌旗灯号也能感知健康状况。人口老龄化赓续加快成长的背景,让我意识到聪明健康范畴的感知需求将会异常大年夜。
但学界研究和业界需求变革始终是相辅相成的,所以在2014年前后我选择回到学术界,持续深耕健康检测感知技巧。研究过程中我开端存眷到毫米波雷达在医疗健康范畴的实用性,从2014年至今我一向在南边科技大年夜学做毫米波雷达相干的应用研究,并在2018年开端同时做声波感知的应用研究。是以,我经常告诉我的学生,在找工作时不克不及只看公司需求的产品跟本身的研究内容是否对号入座,要用体系性思维去拆分需求找到解决问题的冲破点,这也是一个成功的博士应当具备的才能。
王进:传统的AI是经由过程视觉、听觉、文本等内容来读守信息熟悉世界,对于物理世界中的距离这种概念它是无法懂得的。所以要真想让空间智能真正的懂得物理世界,须要经由过程物理传感来进行空间感知,是以我认为新型模态感知技巧中的声波感知、毫米波雷达等物理传感,在推动空间智能的成长中是必弗成少的。
雷峰网:声波感知、毫米波雷达这种新型感知技巧,会对通俗大年夜众产生什么重要影响?
张进:真正的好技巧是“无形”和“无感”的。打个比方,日常平凡我们把蓝牙耳机从充电仓里掏出来戴在耳朵上,就能急速主动连接办机。但假如戴上耳机之后还须要在手机上点一下才能开端用,那么用户的体验感就会大年夜打扣头。所以我们这种新型感知技巧的核心目标,就是赞助设备懂得四周的情况,并具备智能感知四周情况的才能,从而加倍便捷的进行人机交互。
举个例子,如今我们跟一些AI智能设备互动时,还须要拍个照片或说句话才能让设备懂得我们的目标并履行。在将来,有了更多模态的智能感知技巧之后,也许我们无需做任何事,设备就能主动懂得四周情况并履行我们的目标。
雷峰网("大众,"号:雷峰网):新型模态感知技巧在推动空间智能成长中起什么感化?将来的感知世界会是什么样?
正如刚才所说的,真正的好技巧是“无形”和“无感”的,在感知这件工作上也是一样的。新型感知技巧是一个异常复杂的范畴,它会针对不合的场景需乞降设备限制供给不合的技巧支撑,声波感知也好、毫米波雷达也好,一般来说不会有一种感知技巧打通一切场景的情况。将来也许会是一样或者几样感知技巧结合起来,在特定场景中知足产品的智能化需求。

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复