1 月 29 日,继持续宣布空间感知与VLA基座模型后,蚂蚁灵波科技再次刷新行业预期,开源宣布世界模型 LingBot-World。该模型在视频质量、动态程度、长时一致性、交互才能等关键指标上均媲美 Google Genie 3,旨在为具身智能、主动驾驶及游戏开辟供给高保真、高动态、可及时操控的“数字练习训练场”。
(图说:LingBot-World在实用处景、生成时长、动态程度、分辨率等方面均处于业界顶尖程度)
针对视频生成中最常见的“长时漂移”问题(生成时光一长就可能出现物体变形、细节塌陷、主体消掉或场景构造崩坏等现象),LingBot-World 经由过程多阶段练习以及并行化加快,实现了近 10 分钟的持续稳定无损生成,为长序列、多步调的复杂义务练习供给支撑。
交互机能上,LingBot-World 可实现约 16 FPS 的生成吞吐,并将端到端交互延迟控制在 1 秒以内。用户可经由过程键盘或鼠标及时控制角色与相机视角,画面随指令即时反馈。此外,用户可经由过程文本触发情况变更与世界事宜,例如调剂气象、改变画面风格或生成特定事宜,并在保持场景几何干系相对一致的前提下完成变更。
(图说:一致性压力测试,镜头最长移开60秒后返回,目标物体仍存在且构造一致)
(图说:高动态情况下,镜头长时光移开后返回,车辆形态外不雅仍保持一致)
(图说:镜头长时光移开后返回,房屋仍存在且构造一致)
模型具备 Zero-shot 泛化才能,仅需输入一张真实照片(如城市街景)或游戏截图,即可生成可交互的视频流,无需针对单一场景进行额外练习或数据采集,从而降低在不合场景中的安排与应用成本。
为解决世界模型练习中高质量交互数据匮乏的问题,LingBot-World 采取了混淆采集策略:一方面经由过程清洗大年夜范围的收集视频以覆盖多样化的场景,另一方面结合游戏采集与虚幻引擎(UE)合成管线,从衬着层直接提取无 UI 干扰的纯净画面,并同步记录操作指令与相机位姿,为模型进修“动作若何改变情况”供给精确对齐的练习旌旗灯号。
具身智能的范围化落地面对一个核心挑衅——复杂长程义务的真机练习数据极端稀缺。LingBot-World 凭借长时序一致性(也即记忆才能)、及时交互响应,以及对"动作-情况变更"因果关系的懂得,可以或许在数字世界中"想象"物理世界,为智能体的场景懂得和长程义务履行供给了一个低成本、高保真的试错空间。同时,LingBot-World 支撑场景多样化生成(如光照、摆放地位变更等),也有助于晋升具身智能算法在真实场景中的泛化才能。
跟着“灵波”系列持续宣布三款具身范畴大年夜模型,蚂蚁的AGI计谋实现了从数字世界到物理感知的关键延长。这标记住其“基本模型-通用应用-实体交互”的全栈路径已然清楚。蚂蚁正经由过程InclusionAI 社区将模型全部开源,和行业共建,摸索AGI的界线。一个旨在深度融合开源开放并办事于真实场景的AGI生态,正加快成型。
今朝,LingBot-World 模型权重及推理代码已面向社区开放。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复