试想一下,当机械人伸手去拿桌上的杯子,刚把杯子抬起来,又停住了,随后把它放回原位,然后再次伸手去拿。同一个动作,它反复了一遍,像是忘记了本身方才已经做过什么。类似的情况在真实情况中并不少见:按钮明明已经按下,却还在反复按,明明抽屉已经关好,却还在持续推。
这些掉败并不是因为它“看不清”,而是因为它缺乏一套可以或许模仿时空演变的“世界模型”。当前的视觉说话行动模型固然可以或许懂得图像与指令,但在持续义务中仍然只能依附当前不雅测做决定计划,一旦义务变成长步调流程,例如拿起物体、移动、放置再到封闭装配,就轻易出现动作反复和决定计划中断的问题,其根来源基本因在于缺乏对时光的懂得才能。
这一问题正在成为具身智能成长的关键瓶颈。现有办法大年夜多基于“看到什么就做什么”的即时反响机制,在短义务中表示优胜,但在长序列义务中轻易出现动作不连贯和决定计划漂移。若何让模型不仅能感知当前状况,还能记住以前并预判将来,成为新的核心挑衅。
在如许的背景下,西湖大年夜学王东林团队提出了论文 《HiF-VLA:Hindsight, Insight and Foresight for Vision-Language-Action Models》。研究中,HiF-VLA 不再简单依附汗青图像或将来画面猜测,而是以“活动”作为时光信息的核心表达,使模型可以或许同时建模以前的变更、当前状况以及将来趋势,从而实现更稳定的持续决定计划。
这项研究的意义,不仅在于机能上的晋升,更在于提出了一种新的范式,即让机械人从“被动反响”走向“边思虑边行动”。在具身智能慢慢走向真实世界的过程中,这种对时光的懂得才能,正在成为决定体系是否真正可用的关键身分。

论文地址:https://arxiv.org/pdf/2512.09928
机械人不再「 忘动作」
在长序列义务 LIBERO-Long 上,这项研究重要测试机械人是否可以或许持续完成多个动作,例如拿取物体、放置以及封闭装配等。研究成果注解,HiF-VLA 在单视角前提下的成功率达到 94.4%,在多视角前提下达到 96.4%。
作为比较,当前较强的办法 OpenVLA-OFT 在单视角下为 91.0%,多视角为 94.0%。由此可以看出,这个办法在单视角下晋升了 3.4 个百分点,在多视角下晋升了 2.4 个百分点。
进一步来看,在 10 个具体义务中,有多个义务的成功率达到 100%,而最低的义务也达到了 76%,解释整体机能稳定,并非依附个别义务拉高平均程度。一个重要现象是,这个办法在单视角前提下的表示已经接近甚至达到其他办法在多视角前提下的程度,这意味着其机能晋升重要来源于时光建模才能,而不是依附更多视觉信息或摄像头数量。

在 CALVIN 跨情况泛化义务中,研究在 A、B、C 三个情况中练习模型,并在未见过的 D 情况中进行测试。评价指标是持续成功完成义务的数量,也就是在不中断的情况下可以或许持续完成若干个步调。成果显示,这个办法在单视角下达到 4.08,在多视角下达到 4.35,而 OpenVLA-OFT 约为 4.10,Seer 约为 4.28,RoboVLMs 约为 4.25。
可以看到,这个办法在多视角前提下取得了最高的 4.35,比拟基线晋升约 0.25 个义务。这个晋升具有重要意义,因为这个指标一旦中心某一步掉败后续义务将不再计入,是以数值越高解释模型在长时光持续决定计划中的稳定性越强,也表现了更好的经久筹划才能。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

比拟之下,这个办法在只参加将来推理时,成功率为 92.2%,延迟为 82.7 毫秒,几乎没有额外开销;只参加汗青信息时,成功率同样为 92.2%,延迟为 117.7 毫秒;同时参加两者后,成功率达到 93.2%,延迟为 121.6 毫秒。整体来看,这个办法在晋升成功率的同时,计算成本远低于堆叠汗青帧的办法,解释应用活动信息比直接应用图像汗青加倍高效。

在时序长度扩大才能方面,研究慢慢增长汗青长度,从 4 到 8,再到 16 和 32。成果注解,当长度为 8 时机能最佳,单视角为 94.4%,多视角为 96.4%,持续增长长度反而会导致机能降低,其原因在于信息过多带来的冗余干扰。在延迟方面,传统办法的计算成本会跟着汗青长度线性增长,当长度为 8 时延迟增长约 4.5 倍,而这个办法的延迟根本保持稳定,仅有稍微增长,解释其在时光维度上具有更好的扩大性。
在真实机械人实验中,研究设置了多个长序列义务来验证实际后果。在按次序按按钮义务中,基线办法的成功率为 17.4%,而这个办法晋升到 34.2%,接近翻倍。在覆盖与堆叠义务中,基线为 33.3%,这个办法达到 57.9%,晋升了 24.6 个百分点。
在放置义务中,基线约为 62.5%,这个办法约为 65%,晋升较小但表示加倍稳定。研究人员分析认为,基线办法难以断定按钮是否已经被按下,因为状况变更较为细微,而这个办法可以或许应用时光变更信息来辨认状况改变,是以在复杂义务中表示更好。这进一步解释,引入时光信息可以或许明显晋升机械人在长序列义务中的决定计划才能。

时光建模办法的体系性比较
在实验过程中,研究起首在数据与义务设计长进行了体系安排。在模仿情况中,采取了 LIBERO 数据集中的 10 个长序列义务,以及 CALVIN 数据集中的跨情况泛化义务。在真实机械人实验中,每个义务收集了 100 条示范数据,并在测试阶段对每个义务履行 20 次,以评估模型的稳定性和泛化才能。
在输入信息设计方面,模型同时接收三类信息,包含当前画面作为对当前状况的感知信息,汗青活动作为对以前动态变更的表达,以及说话指令用于供给义务目标,从而使模型可以或许在时光维度和语义层面进行结合决定计划。
在比较实验设计中,研究团队设置了多种不合办法进行体系比较。第一种办法仅应用当前不雅测信息进行决定计划,不包含任何时光信息。第二种办法经由过程堆叠汗青图像来引入时光信息,但这种方法存在信息冗余严重以及计算成本较高的问题。第三种办法经由过程猜测将来图像作为子目标来引导决定计划,但这种方法轻易产生误差,并且稳定性较差。比拟之下,所提出的办法采取活动信息替代图像来表示时光变更,从而削减冗余信息并进步建模效力。



在消融实验中,研究进一步分析了不合设计选择对机能的影响。起首在汗青长度方面进行实验,成果注解最优长度为 8,当长度过短时无法供给足够的信息,而长度过长则会引入冗余并影响模型断定。雷峰网
其次在汗青信息的应用方法上,研究比较了两种策略,一种是将汗青信息直接输入视觉说话模型,此时成功率为 92.8%,另一种是将汗青信息注入到决定计划模块中,此时成功率晋升到 94.4%。这一成果解释,将汗青信息直接参加视觉说话模型会影响其原有的视觉与说话懂得过程,而在决定计划阶段引入汗青信息可以或许更有效地发挥其感化。

从「看到就做」到「边想边做」
这项研究起首解决了一个核心问题,即传统模型在决定计划过程中往往只依附当前不雅测而忽视时光信息,从而导致动作不连贯以及在长序列义务中轻易掉败。研究人员指出,问题的根本不在于视觉才能不足,而在于缺乏对时光的建模才能。
基于这一熟悉,研究提出了一个重要发明,即活动信息比图像更合实用于表示时光变更,这是因为图像中包含大年夜量静态信息,而活动信息只保存了真正产生变更的部分,是以加倍高效且更具表达力。
这一发明对机械人研究带来了直接影响,使本来从感知到动作的单向过程改变为同时推敲以前、如今与将来的决定计划过程,即从简单的感知到动作改变为基于以前、当前状况以及将来猜测合营驱动的行动决定计划。
在工程价值方面,实验成果注解这个办法不仅在机能上取得了明显晋升,例如成功率最高达到 96.4%,同时在计算效力上也具有优势,避免了传统办法中可能出现的三倍计算开销问题。
此外,这个办法在不合情况下表示出更强的泛化才能,并且在真实机械人实验中同样有效,解释其具有较强的实际应用潜力。雷峰网("大众,"号:雷峰网)
进一步来看,这项研究还推动了一种新的智能范式,从“看到就做”的视觉说话行动模型到“边想边做”的世界行动模型, HiF-VLA 改变的不仅是模型的构造设计,更是在从新定义机械人应当具备的才能界线。
以前的体系更像是被动反响的履行者,只对当前输入做出即时回应;而在这种新的范式下,机械人开端具备持续决定计划的才能,可以或许在行动中记住方才产生了什么,断定当前处于什么阶段,并预判接下来应当做什么。
这种变更的意义在于,机械人不再只是完成单步动作,而是可以或许懂得一整段过程,并在过程中赓续调剂本身的行动。这也意味着,具身智能的成长正在从“感知驱动的反响体系”,走向“时光驱动的推理体系”。
在效力与计算成本方面,研究进一步分析了机能晋升是否以计算开销为价值。成果显示,当引入基于图像的将来子目标猜测时,成功率为 91.8%,但延迟增长到 115.9 毫秒,比基线慢 1.59 倍。当采取汗青帧堆叠时,成功率反而降低到 90.4%,延迟上升到 229.5 毫秒,是基线的 3.15 倍,说来岁夜量图像信息不仅带来高计算成本,还会干扰模型断定。
当模型真正具备这种才能时,机械人才能在复杂、动态的真实情况中稳定工作,而不仅仅是在受控场景中完成预设义务。
HiF-VLA 背后的科研力量
论文的通信作者王东林,现任西湖大年夜学人工智能系副主任,是机械智能实验室(MiLAB)的开创人和负责人,同时也是西湖机械人科技(杭州)有限公司的开创人。
他本科和硕士卒业于西安交通大年夜学电子信息工程专业,随后在加拿大年夜卡尔加里大年夜学获得电子与计算机工程博士学位,并在加拿大年夜从事博士后研究工作。
之后他在美国纽约理工学院任教并晋升为副传授,2017 年回国参加西湖大年夜学,成为工学院首批全职教师之一,并创建了机械智能实验室。同时,他还担负国度科技立异 2030 重大年夜项目首席科学家,并入选国度人社部高层次人才筹划,在国度级科研项目中承担重要角色。
在研究偏向上,他经久致力于机械人进修与智能决定计划范畴,重点存眷强化进修、元进修以及机械人行动智能,目标是让机械人具备自立进修、快速适应新情况并完成复杂义务的才能。其研究不仅存眷感知层面的懂得,更强调从感知到决定计划再到行动的完全闭环,尤其是在长序列义务和真实情况中的稳定履行才能。
在学术成果方面,他已揭橥一百余篇论文,活泼于机械人进修和强化进修等前沿范畴,并介入国际学术社区扶植。他的团队是国内最早专注于机械人进修的团队之一,提出国际第一个四足机械人VLA大年夜模型、人形机械人VLA大年夜模型、嘉奖无关人类反馈强化进修。他近期合作的AAAI 2026 论文斩获最佳论文奖,同时带领研发的通用行动专家大年夜模型 GAE 也达到人形机械人活动的国际领先水准。

参考地址:https://milab.westlake.edu.cn/
另一位通信作者黄思腾,现任阿里巴巴达摩院算法专家,博士卒业于浙江大年夜学与西湖大年夜学结合培养项目,在机械智能实验室完成博士研究,并由王东林传授指导。
在此之前,他于武汉大年夜学计算机科学专业获得本科学位。在博士时代,他还在阿里巴巴通义实验室与达摩院进行经久研究练习,随落后入达摩院从事算法研究工作,整体经历贯穿学术研究与工业界实践。
在研究偏向上,他重要聚焦于具身智能、多模态大年夜模型以及高效人工智能,核心存眷若何让模型同时懂得图像、视频、说话以及物理世界中的动态信息,并在真实情况中进行感知、推理与生成。他的研究不仅涉及多模态懂得与生成,还强调模型在数据、计算和存储等方面的效力优化,致力于构建可以或许在实际世界中高效运行的同一智能体系。
在学术成果方面,他已在相干范畴揭橥三十余篇论文,涵盖计算机视觉、多模态进修与机械人偏向,并活泼于顶级国际会议和期刊。同时,他介入多个具身智能与多模态模型偏向的研究工作,包含视觉说话行动模型及同一世界模型等,代表性工作涉及 HiF-VLA、RynnVLA 系列以及 WorldVLA 等框架,推动了机械人在长序列义务与真实情况中的才能晋升。

参考地址:https://kyonhuang.top/

发表评论 取消回复