对标 Genie 3，蚂蚁灵波开源世界模型 LingBot-World，10分钟长视频无损生成

296 阅读 0 评论 0 点赞

1 月 29 日，继持续宣布空间感知与VLA基座模型后，蚂蚁灵波科技再次刷新行业预期，开源宣布世界模型 LingBot-World。该模型在视频质量、动态程度、长时一致性、交互才能等关键指标上均媲美 Google Genie 3，旨在为具身智能、主动驾驶及游戏开辟供给高保真、高动态、可及时操控的“数字练习训练场”。

对标 Genie 3，蚂蚁灵波开源世界模型 LingBot-World，10分钟长视频无损生成（图说：LingBot-World在实用处景、生成时长、动态程度、分辨率等方面均处于业界顶尖程度）

针对视频生成中最常见的“长时漂移”问题（生成时光一长就可能出现物体变形、细节塌陷、主体消掉或场景构造崩坏等现象），LingBot-World 经由过程多阶段练习以及并行化加快，实现了近 10 分钟的持续稳定无损生成，为长序列、多步调的复杂义务练习供给支撑。

交互机能上，LingBot-World 可实现约 16 FPS 的生成吞吐，并将端到端交互延迟控制在 1 秒以内。用户可经由过程键盘或鼠标及时控制角色与相机视角，画面随指令即时反馈。此外，用户可经由过程文本触发情况变更与世界事宜，例如调剂气象、改变画面风格或生成特定事宜，并在保持场景几何干系相对一致的前提下完成变更。

对标 Genie 3，蚂蚁灵波开源世界模型 LingBot-World，10分钟长视频无损生成（图说：一致性压力测试，镜头最长移开60秒后返回，目标物体仍存在且构造一致）

对标 Genie 3，蚂蚁灵波开源世界模型 LingBot-World，10分钟长视频无损生成（图说：高动态情况下，镜头长时光移开后返回，车辆形态外不雅仍保持一致）

对标 Genie 3，蚂蚁灵波开源世界模型 LingBot-World，10分钟长视频无损生成（图说：镜头长时光移开后返回，房屋仍存在且构造一致）

模型具备 Zero-shot 泛化才能，仅需输入一张真实照片（如城市街景）或游戏截图，即可生成可交互的视频流，无需针对单一场景进行额外练习或数据采集，从而降低在不合场景中的安排与应用成本。

为解决世界模型练习中高质量交互数据匮乏的问题，LingBot-World 采取了混淆采集策略：一方面经由过程清洗大年夜范围的收集视频以覆盖多样化的场景，另一方面结合游戏采集与虚幻引擎（UE）合成管线，从衬着层直接提取无 UI 干扰的纯净画面，并同步记录操作指令与相机位姿，为模型进修“动作若何改变情况”供给精确对齐的练习旌旗灯号。

具身智能的范围化落地面对一个核心挑衅——复杂长程义务的真机练习数据极端稀缺。LingBot-World 凭借长时序一致性（也即记忆才能）、及时交互响应，以及对"动作-情况变更"因果关系的懂得，可以或许在数字世界中"想象"物理世界，为智能体的场景懂得和长程义务履行供给了一个低成本、高保真的试错空间。同时，LingBot-World 支撑场景多样化生成（如光照、摆放地位变更等），也有助于晋升具身智能算法在真实场景中的泛化才能。

跟着“灵波”系列持续宣布三款具身范畴大年夜模型，蚂蚁的AGI计谋实现了从数字世界到物理感知的关键延长。这标记住其“基本模型-通用应用-实体交互”的全栈路径已然清楚。蚂蚁正经由过程InclusionAI 社区将模型全部开源，和行业共建，摸索AGI的界线。一个旨在深度融合开源开放并办事于真实场景的AGI生态，正加快成型。

今朝，LingBot-World 模型权重及推理代码已面向社区开放。

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

本文分类：互联网
本文标签：AI 蚂蚁开源
浏览次数：296 次浏览
发布日期：2026-01-30 10:28:57
本文链接：https://www.fqpy.com/index.php/internet/8249

对标 Genie 3，蚂蚁灵波开源世界模型 LingBot-World，10分钟长视频无损生成

评论列表共有 0 条评论

发表评论取消回复

对标 Genie 3，蚂蚁灵波开源世界模型 LingBot-World，10分钟长视频无损生成

对标 Genie 3，蚂蚁灵波开源世界模型 LingBot-World，10分钟长视频无损生成

蚂蚁灵波开源具身大年夜模型LingBot-VLA，跨本体跨义务泛化才能立异高

上交大年夜 SciMaster 团队新作：一个「AI 物理博士」的出生

2025 年 ACM Fellow 名单颁布：郑宇、梅涛、金海、陈宝权等 19 名华人学者入榜

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复