第一视角效力跨越真机，深度机灵宣布全球首个以人类进修范式构建的具身基座模型

257 阅读 0 评论 0 点赞

2026年，具身智能的泡沫与烈火同时燃烧。

宇树科技递交招股书，估值冲击百亿；Figure AI、Physical Intelligence等美国公司融资额屡立异高，将行业热度推向顶点。国内创业公司紧急跟进——堆数据、抢场景、拼本体，十万小时真机数据成为新的军备比赛标的。

但喧哗之下，一个难堪的共鸣正在形成：没有人知道精确的技巧路线毕竟是什么。遥操作、仿真合成、互联网视频、人类第一视角……数据类型的选择尚未收敛；行星减速、谐波力控、电驱液压……本体构造的争辩也还没落地。行业在"大年夜力出事业"的崇奉下疾走，却鲜有人追问：这些海量数据，毕竟在教机械人什么？

比来，AI科技评论不雅察到，越来越多具身智能公司开端摸索一条新的数据路径："人类第一视角数据"。

2026年以来，小米、蚂蚁、章鱼动力等公司在纷纷组建新团队跟进这一路线。个中，以微软亚洲研究院前首席研究员陈凯的不雅点，激发了行业的热烈评论辩论。

3月27号，作为深度机灵的开创人，陈凯在中关村论坛上代表深度机灵，宣布了首个具身智能基座模型PhysBrain 1.0，并颁布了他们的研究成果。

这个模型仅应用1000小时人类第一视角数据、零真机数据，在多个国际威望榜单上超出了用数万小时真机数据的竞争敌手，在多个国际 Benchmark 上取得 SOTA，比 Physical Intelligence 和英伟达等头部巨擘表示更好。

某种程度上，一场具身智能范畴关于"物理常识"的革命，正在悄然开启。

模型缺乏物理常识，是具身范畴的巨大年夜痛点

"今朝不管是VLM（视觉说话模型）照样世界模型，始终会卡在一个点上：它们缺乏物理常识。"深度机灵开创人陈凯在中关村论坛上直接指出了这一行业痛点。

这个断定直指当前具身智能的核心困境。和很多学者碰到的情况一样，陈凯提到 VLM 模型不睬解空间、时序，"桌子上面放了几个杯子，它数不清有几个"；视频生成模型"视觉上足以乱真，但活动的真实性和物理真实性比较差"。这些看似基本的才能缺掉，让机械人在面对真实世界的复杂性时屡屡碰鼻。

问题的根源在于数据与进修的错位。当前行业主流的做法——遥操作采集真机数据、仿真合成虚拟数据、或是模仿人类手部轨迹，本质上都是在教机械人"模仿动作"，而非"懂得世界"。

2026年，"物理常识"革命仍处于早期，尽管深度机灵的1000小时数据"出现"了纠错、变通、跨本体等才能，但陈凯承认这仍是"有时的智能出现"。2026岁尾是否会出现"后果出人意表好的具身智能大年夜模型"？两三年可否重现ChatGPT时刻？

"如今异常多的做法——背动作、背轨迹——其实是手把手地教猴子干活。"陈凯用了一个形象的比方，"而我们正在测验测验的是：请菩提祖师把猴子变成孙悟空，让它先懂得世界，再去进修技能。"

"所有的这些点都归结到一个：要先去懂得这个世界，然后再到这个世界里面去行动。"陈凯总结道。

这种"懂得优先"的办法论，正在获得越来越多证据的支撑。深度机灵近期宣布的PhysBrain 1.0模型正式针对如许的思路，做出的阶段性成果。

这一成果挑衅了一个行业默认假设：更多的数据，是否必定带来更好的智能？

Physical Intelligence开创人将这种才能称为"智能的暗物质"（Physical common sense is the dark matter of intelligence）。DeepMind的哈萨比斯则认为，原生多模态模型对物理世界的更好懂得，可成为机械人的大年夜脑。（雷峰网("大众,"号：雷峰网)）

人类第一视角：被从新发明的数据富矿

"人类第一视角数据，因为它是人看以前的第一视角的世界，收集的是真什物理世界的数据，天然就蕴含着各类各样的物理常识。"陈凯解释道本身为什么要押注这一路线。

无独有偶，这种数据类型的价值，在2024-2025年间逐渐被从新发明。2025年5月，特斯拉宣布放弃遥操作，转向人类第一视角；6月，Figure AI宣布"扔积木"的拟人行动Demo；10月，Generalist AI验证Scaling Law；12月，Physical Intelligence确认人类数据价值；2026年2-3月，英伟达揭橥论文交叉验证。

行业共鸣敏捷形成：人类第一视角数据不是遥操作的替代品，而是通往"物理常识"的关键路径。

但不合依然存在。英伟达的论文仍专注手部轨迹预练习，而深度机灵选择"直接上来就要加强VLM本身——让它根据人看到的这个世界去懂得世界"。陈凯认为，这种差别让深度机灵"在全部流程上应当比英伟达略有领先"。

更深层的差别在于数据的"多样性"。遥操作数据记录机械人视角，义务和场景由人工设计；UMI（通用操作接口）数据须要人手持夹爪，"很难想象工厂主请求员工不克不及用手干活"。

而人类第一视角数据捕获的是真实生活，"哪怕你是静静地发呆，你看到外面毂击肩摩，这些数据对我们都有价值"。

这种多样性带来的不仅是数据量的节俭，更是进修质量的跃迁。

从"轨迹拟合"到"物理常识"：办法论的范式转移

"智能出现"现象为这场革命供给了最直不雅的证据。

深度机灵的测试中，练习数据满是"夹起胡萝卜放盘子里"，但机械臂碰着胡萝卜没夹到时，竟"自发选择推"——推一次没推动去，换角度加大年夜力度再推，最后才改变策略夹起来。另一个案例中，机械爪夹方块太靠后掉落落，它主动回来捡，第一次没捡起，第二次"做了一个异常稍微的扭转"成功夹起。

"这种灵活性，甚至你都没有办法预编程把它搞出来。"陈凯描述这一现象时强调，"千小时人类数据加强物理常识，自发地把人类灵活变通的才能迁徙到了机械人身上。"

这种"出现"才能揭示了一个深层规律：当模型具备足够的物理常识，它不再依附精确的轨迹模仿，而是可以或许像人类一样"懂得情境、灵活应对"。这恰是"物理常识"革命的核心，从"教动作"到"教懂得"的范式转移。

"物理常识"革命的另一个重要成果，是"跨本体才能"的出现。

传统办法须要"把不合形态的机械人的数据做结合练习"才能实现技能迁徙。但深度机灵不雅察到："有了一个懂得物理常识的大年夜脑，天然而然知道适配什么样的身材。"

这一发明颠覆了"一个机械人一套数据"的行业惯例。用LoRA预练习action expert，再用Franka机械臂微调，数据需求大年夜幅降低——"不合形态机械人背后的物理规律一模一样"。

"跨本体是物理智能加强天然而然会出现的成果，并不是克意地把多种机械人数据放在一路练习出来的成果。"陈凯解释道。

这意味着，物理常识具有跨平台、跨形态的通用性。一旦模型控制了"物体受力会移动""抓取须要摩擦力"等基本规律，它就能将这些常识迁徙到新的硬件平台上，而无需从头进修。

这种通用性，恰是通往"具身通用智能"的关键阶梯。

"人类进修路线"正在国内悄然崛起

在全球具身智能比赛中，中国与美国出现出不合的侧重。

以前，中国和美国在具身智能范畴内，其实是各有侧重，中国聚焦本体，美国事聚焦在大年夜脑上。比较典范的是宇树科技等公司在硬件迭代上取得明显成就，但"具身大年夜脑上的团队其实并没有那么多"。

这一格局正在改变。2025-2026年间，国内开端出现专注"大年夜脑"的团队。深度机灵的崛起，以及小米、蚂蚁、章鱼动力等公司在2026岁首年代纷纷组建新团队跟进"人类进修路线"，标记住行业重心的转移。

跨本体才能：物理常识的迁徙效应

从某种角度上，国内今朝的路径和认知上和世界一流科学家差别不大年夜，但须要更多的投入。个中，数据成本优势尤为明显，美国标注第一视角27万小时花上亿美刀，中国切切小时人力汗青数据本年全部行业就会达到。

更深层的挑衅在于行业生态。

"物理常识"的提取、标注、应用，须要全新的模型架构和练习办法，与当前主流的VLA、π0架构并不兼容。这意味着，拥抱"物理常识"革命，可能须要放弃既有的技巧积聚和基本举措措施。

但回报同样诱人。一旦机械人具备真正的"物理常识"，它将不再是"教什么会什么"的专用对象，而是"懂得情境、灵活应对"的通用助手。这将彻底改变制造业、办事业、危险功课等无数范畴的临盆力争景。

在这方面的认知上，陈凯提到"这可能是人工智能的最后一个机会，也是最大年夜的一次。"，这或许是对这场革命押注的决心。（雷峰网）

当行业仍在"大年夜力出事业"的崇奉下堆砌数据时，一条"懂得优先"的新路径已经浮现。它不是对数据量的否定，而是对进修质的重构——从"模仿动作"到"懂得世界"，从"教猴子"到"变孙悟空"。

这场"物理常识"革命可否成功，将决定具身智能的下一个十年。而2026年，恰是关键的转折之年。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

本文分类：互联网
本文标签：人类第一视角物理ai 智能涌现
浏览次数：257 次浏览
发布日期：2026-04-13 09:19:37
本文链接：https://www.fqpy.com/internet/12544

第一视角效力跨越真机，深度机灵宣布全球首个以人类进修范式构建的具身基座模型

评论列表共有 0 条评论

发表评论取消回复

第一视角效力跨越真机，深度机灵宣布全球首个以人类进修范式构建的具身基座模型

驶入物理AI元年：头部玩家集体跃迁，易航智能交出双线落地答卷

激光雷达也有了彩色视觉，禾赛要做物理AI时代“卖铲人”

物理AI时代，为什么须要一颗“舱驾融合”芯片？

第一视角效力跨越真机，深度机灵宣布全球首个以人类进修范式构建的具身基座模型

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复