13 日,第八届 GAIR 全球人工智能与机械人大年夜会世界模型分论坛美满成功。
今朝,世界模型的研究尚处于起步阶段,共鸣尚未形成,有关该范畴的研究形成了无数支流,而这股潮流中,今天参预的几位嘉宾,用他们的聪明和力量给世界模型范畴研究带来了不合的启发。
浙江大年夜学研究员彭思达:面向具身智能的通用空间感知技巧
这场的演讲嘉宾是活着界模型范畴,研究不合偏向的五位青年学者,他们带来了五场环绕世界模型的出色演讲,话题聚焦通用感知、三维技巧、物理模型、世界模型、数字人重建。经由过程他们的演讲、我们得以窥见当下环绕着世界模型的研究是多么广泛与丰富。
在“世界模型”分论坛上,首位演讲者是浙江大年夜学研究员彭思达。他是浙江大年夜学软件学院“百人筹划”研究员、博士生导师,研究偏向为三维计算机视觉和计算机图形学。此次他带来的主题演讲是《面向具身智能的通用空间感知技巧》,介绍了其团队近期在付与机械人通用感知才能方面的多项工作。
团队重要聚焦于付与机械人三项基本才能:一是相机定位(Camera Pose Estimation),即让机械人知道本身在空间中的地位;二是深度估计(Depth Estimation),使机械人懂得场景中各物体与自身的距离;三是物体活动估计(Object Motion Estimation),让机械人感知世界的活动状况。
这些底层空间感知技巧有何感化?起首,它们能为机械人供给关键的决定计划信息。例如,无人机在空间中须要先知道自身地位、与场景目标的距离,才能实现基本避障;进而还需懂得目标物体的活动情况,才能进行追踪。基于从场景中获取的三维空间信息,机械人的行动筹划便能获得有力支撑。
其次,这些技巧可用于生成练习数据。当前具身智能范畴的一大年夜难题是数据匮乏。以往有人测验测验仿真或遥操获取数据,但遥操数据虽好却难以范围化扩大,而仿真技巧今朝仍与真实世界存在较大年夜差距。
彭思达提出,其实可将人类视作一种特别形态的机械人——具备完全的身材构造与行动模式。若能创造一种数据采集设备,将人类日常行动完全记录下来,就相当于获取了机械人所需的行动数据,从而可用于练习人形机械人。这个中便涉及相机定位、深度估计与物体活动估计等技巧。
相机定位方面,最传统经典的办法是Colmap。该办法从图像中提取特点并进行两两匹配,再经由过程增量式活动恢复构造(SfM)获得相机地位。最终每张图像对应一个相机地位,并合谋生成三维点云,形成经典的三维重建流程。
然而,该流程今朝面对的挑衅在于图像匹配。团队发明,传统匹配办法在恶劣情况或视角差别较大年夜的情况下后果不佳,会影响后续相机位姿估计的精确性。
针对这一问题,彭思达地点实验室于2021年提出一种新办法:不再依附传统匹配方法,而是直接应用Transformer大年夜模型进行图像匹配。具体而言,将两张图像输入LoFTR模型以提取稠密特点,这些特点之间即使在弱纹理区域也能实现优胜的匹配。
深度估计是通用空间感知的关键构成部分。客岁,彭思达团队在晋升深度估计才能方面取得了三项进展,个中之一是“Pixel-Perfect-Depth”思路。
具身智能须要深度估计,是因为精确的深度信息能晋升机械人的决定计划机能。但现有办法广泛在物体边沿存在“飞点”问题:判别式模型(如Depth Anything)偏向于猜测“折中值”以最小化损掉,从而导致飞点;生成式模型(如Marigold)虽能从理论上建模多峰深度分布,但因应用VAE进行紧缩,同样会产生飞点。
团队从生成式模型出发,提出了 Pixel-Perfect-Depth 的解决思路:起首移除VAE,直接在像素空间进行优化,以避免VAE带来的信息损掉。然而,没有VAE后模型须要更全局的视野,是以他们将说话特点整合到DiT模型中,发明这能明显加强模型对图像的整体懂得才能。
将人类行动数据转化为有效练习数据,是当前具身智能成长的关键。这须要获取深度信息、相机活动以及人类行动语义轨迹,而语义轨迹的获取又依附于三维跟踪。
此前已有办法应用时序匹配进行跟踪,例如Google的CoTracker:先初始化一组二维像素点,再应用Transformer迭代优化这些点的轨迹。但该办法仅在二维层面进行跟踪,轻易因相邻区域的干扰而损掉目标,后果受限。
彭思达团队的思路是将二维图像反投影至三维空间,做 3D tracking。具体做法是:输入图像并反投影至三维,获得三维特点后,在三维空间中初始化一条三维轨迹,再应用Transformer对该轨迹进行优化,从而实现更鲁棒的跟踪后果。该办法被定名为SpatialTracker。
腾讯ARC Lab高等研究员胡文博:Towards 3D-aware Video World Models
接下来,腾讯 ARC Lab 高等研究员胡文博带来了《迈向三维感知的视频世界模型》(Towards 3D-aware Video World Models )的演讲主题。
胡文博表示,2024岁首年代 Sora 震动面世,固然 3D 一致性不错,但对于做三维重建的工作者来说,视频细节里的垂直性和平整性还有空间。
同时他意识到,Video diffusion 有潜力作为世界模型的一种表示,但视频繁处于 2D 空间,而我们的世界是 3D 的,是以若何实现 3D 感知的视频世界模型,异常值得摸索。
据介绍,Human3R在同时实现场景重建和人体状况猜测、追踪的基本上,可以做到及时 15 FPS,8GB 显存占用。这意味着仅需一张商用 GPU,即可实现 SOTA 级机能。
基于如许的不雅测,胡文博想要实现以 3D-aware 出发的 video world models。
胡文博和团队决定在重建和生成两方面发力,重建方面,他展示了包含 2024 年开端陆续做的 video depth (DepthCrafter),从视频中估计点云以开展 4D 重建义务(GeometryCrafter),以及从单目视频中重建 motion 的“Holi4D”等工作。
现场,胡文博并未过多展开从开放世界 2D 不雅测重建 3D 信息内容,而是把分享重点放在了以下部分。
胡文博先分享了静态场景摸索义务 ViewCrafter,借助重建才能生成 3D 点云,以其为前提控制 video diffusion。胡文博表示,这部分的摸索生成的图像可更新点云实现更远摸索,是早期世界模型的 memory 机制。
这些把 3D 信息用于视频扩散,单图摸索及点云更新应用,让现场不雅众们异常感兴趣。
接下来,胡文博还展示了另一部分重要的 work:TrajectoryCrafter。
这是胡文博在 ICCV 25 的 Oral 工作,其核心是让用户经由过程单目视频实现对背后 4D 世界的摸索,延续 3D-aware 思路,将重建的 3D 信息和原始视频注入扩散过程,现场展示了指定相机 pose 的动态视频、枪弹时光特效和复现 Dolly Zoom 特效,还原度异常高。
不仅如斯,胡还展示了 VerseCrafter 模型实现场景交互,在单图输入重建几何基本上,标注可移动物体数据标注流程,可以实现固定相机、只动物体、相机物体同动等交互成果,如今展示了生成的异常逼真的不雅测成果。
最后,还展示了多个玩家或 agent 进行联机摸索场景的 demo。
胡文博的分享,展示了对世界模型交互方法的新思虑,更是让大年夜家的世界模型应用处景有了更充分的想象空间。
西湖大年夜学助理传授修宇亮:数字人重建,慢慢都邑变成基本模型的微调义务
在演讲中,王广润博士起首说清楚明了物理空间智能的概念。10 年前,端到端是一个异常火的词,他认为,如今的物理空间智能也面对着“感知-筹划-履行”端到端的实现,这就须要异常多的数据去练习,但高质量数据匮乏,难以进修到对齐物理世界的靠得住履行策略。
环绕数字人建模,西湖大年夜学助理传授,远兮实验室负责人修宇亮做了主题演讲《走出蜡像馆,交互新世界:开辟三维数字人研究新边境》,分享了其关于高精度数字人重建的三项最新进展。
因为兼具相机位姿变更和人物动作变更的特点,以日常图像作为三维重建义务素材时,经久以来面对着脏数据的困扰。传统解决筹划为对图像进行文本编码、文字生成 3D 模型两步走。价值是效力,DreamBooth 和 SDS(Score Distillation Sampling)漫长的优化流程,导致单个数字人建模义务须要 3 至 4 个小时。
远兮实验室的最新成果 UP2You,将上述时光从 4 小时紧缩到了 1.5 分钟。其核心思惟是将脏数据直接转化成对后续重建友爱的多视角正交图片,在此基本上套用已有的多视角重建算法,实现提效。
相较于传兼顾划,UP2You 最大年夜的优势是,其重建质量可以随输入图片数量的增长而稳定变好,理论上可以恢复出更好的几何构造和纹理。由此日常图像作为脏数据的弊病得以被规避,数据量的优势同时被放大年夜。“多多益善”,修宇亮传授总结,“无论图片有多脏,这个筹划只要包管图片源源赓续。”
修宇亮传授分享的第二项工作名为 ETCH,旨在根据高精度穿衣人体模型,获得解剖学上精确的内部人体构造。因为此前的测验测验将最外层服装视为人体皮肤,导致建模成果广泛偏胖。而 ETCH 经由过程向量,定义了衣服和皮肤之间的厚度关系,从而建模了更精确的内部人体构造。
在本年的 ICCV 上,ETCH 获评 Highlight Paper。值得留意的是,ETCH 筹划起首将穿衣人体模型采样为点云,每个点指向内部人体的一个向量。尽管衣服存在非刚体形变,但修宇亮表示,在此类义务中,不完美的扭转等变性仍可以大年夜量削减练习所需数据。这也是ETCH工作的立异点之一,它或为首个经由过程向量定义衣服和人体之间关系的测验测验。
最后一项工作名为 Human3R,旨在实现人物及场景的及时动态出现。“你很难只从动作就看懂人在做什么”,修宇亮传授解释,“但假如把场景也给到你,语义就相对清楚。”
为了实现这一点,Human3R 保存了 CUT3R 的 3D 重建 backbone,以保存其对场景的几何重建才能,同时新增了一条分支,用于从场景中显式提取人体点云,并进一步估计该点云所对应的人体姿势。同时,Human3R 还借鉴了 VPT(Visual-Prompt Tuning)策略,以实现高效微调。
瞻望将来,修宇亮传授最后分享了自身对于数字人技巧的不雅察。更强大年夜的通用 3D 重建模型正在让越来越多半字人重建义务水到渠成,人体姿势重建,只须要在具有场景感知才能的视觉基本模型长进行微调。“数字人的重建义务,慢慢都邑变成基本模型的微调义务。”修宇亮传授指出。
中山大年夜学计算机学院青年研究员,拓元聪明首席科学家王广润博士:立异基本模型,强化物理世界建模
随后登场的是,中山大年夜学计算机学院青年研究员、拓元聪明首席科学家王广润博士。他带来了《立异基本模型,强化物理世界建模》的主题演讲,王广润博士经久专注于新一代 AI 架构、大年夜物理模型与世界模型等偏向。
于是,王广润博士的团队就在推理计算上提出了全局迭代生成,比拟于次序生成,全局迭代生成有三种优势:全局性、渐进精化;快速性以及便于多模态同一。
王广润博士还分享了三种传统办法,都存在着诸多不足。他们提出了一种全新的模型——原位 Tweedie 离散扩散模型,这个模型可以在>("大众,"号:雷峰网)」
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复