2026年,具身智能的泡沫与烈火同时燃烧。

宇树科技递交招股书,估值冲击百亿;Figure AI、Physical Intelligence等美国公司融资额屡立异高,将行业热度推向顶点。国内创业公司紧急跟进——堆数据、抢场景、拼本体,十万小时真机数据成为新的军备比赛标的。

但喧哗之下,一个难堪的共鸣正在形成:没有人知道精确的技巧路线毕竟是什么。遥操作、仿真合成、互联网视频、人类第一视角……数据类型的选择尚未收敛;行星减速、谐波力控、电驱液压……本体构造的争辩也还没落地。行业在"大年夜力出事业"的崇奉下疾走,却鲜有人追问:这些海量数据,毕竟在教机械人什么?

比来,AI科技评论不雅察到,越来越多具身智能公司开端摸索一条新的数据路径:"人类第一视角数据"。

2026年以来,小米、蚂蚁、章鱼动力等公司在纷纷组建新团队跟进这一路线。个中,以微软亚洲研究院前首席研究员陈凯的不雅点,激发了行业的热烈评论辩论。

3月27号,作为深度机灵的开创人,陈凯在中关村论坛上代表深度机灵,宣布了首个具身智能基座模型PhysBrain 1.0,并颁布了他们的研究成果。

这个模型仅应用1000小时人类第一视角数据、零真机数据,在多个国际威望榜单上超出了用数万小时真机数据的竞争敌手,在多个国际 Benchmark 上取得 SOTA,比 Physical Intelligence 和英伟达等头部巨擘表示更好。

某种程度上,一场具身智能范畴关于"物理常识"的革命,正在悄然开启。

模型缺乏物理常识,是具身范畴的巨大年夜痛点

"今朝不管是VLM(视觉说话模型)照样世界模型,始终会卡在一个点上:它们缺乏物理常识。"深度机灵开创人陈凯在中关村论坛上直接指出了这一行业痛点。

这个断定直指当前具身智能的核心困境。和很多学者碰到的情况一样,陈凯提到 VLM 模型不睬解空间、时序,"桌子上面放了几个杯子,它数不清有几个";视频生成模型"视觉上足以乱真,但活动的真实性和物理真实性比较差"。这些看似基本的才能缺掉,让机械人在面对真实世界的复杂性时屡屡碰鼻。

问题的根源在于数据与进修的错位。当前行业主流的做法——遥操作采集真机数据、仿真合成虚拟数据、或是模仿人类手部轨迹,本质上都是在教机械人"模仿动作",而非"懂得世界"。

2026年,"物理常识"革命仍处于早期,尽管深度机灵的1000小时数据"出现"了纠错、变通、跨本体等才能,但陈凯承认这仍是"有时的智能出现"。2026岁尾是否会出现"后果出人意表好的具身智能大年夜模型"?两三年可否重现ChatGPT时刻?

"如今异常多的做法——背动作、背轨迹——其实是手把手地教猴子干活。"陈凯用了一个形象的比方,"而我们正在测验测验的是:请菩提祖师把猴子变成孙悟空,让它先懂得世界,再去进修技能。"

"所有的这些点都归结到一个:要先去懂得这个世界,然后再到这个世界里面去行动。"陈凯总结道。

这种"懂得优先"的办法论,正在获得越来越多证据的支撑。深度机灵近期宣布的PhysBrain 1.0模型正式针对如许的思路,做出的阶段性成果。

这一成果挑衅了一个行业默认假设:更多的数据,是否必定带来更好的智能?

Physical Intelligence开创人将这种才能称为"智能的暗物质"(Physical common sense is the dark matter of intelligence)。DeepMind的哈萨比斯则认为,原生多模态模型对物理世界的更好懂得,可成为机械人的大年夜脑。(雷峰网("大众,"号:雷峰网)

人类第一视角:被从新发明的数据富矿

"人类第一视角数据,因为它是人看以前的第一视角的世界,收集的是真什物理世界的数据,天然就蕴含着各类各样的物理常识。"陈凯解释道本身为什么要押注这一路线。

无独有偶,这种数据类型的价值,在2024-2025年间逐渐被从新发明。2025年5月,特斯拉宣布放弃遥操作,转向人类第一视角;6月,Figure AI宣布"扔积木"的拟人行动Demo;10月,Generalist AI验证Scaling Law;12月,Physical Intelligence确认人类数据价值;2026年2-3月,英伟达揭橥论文交叉验证。

行业共鸣敏捷形成:人类第一视角数据不是遥操作的替代品,而是通往"物理常识"的关键路径。

但不合依然存在。英伟达的论文仍专注手部轨迹预练习,而深度机灵选择"直接上来就要加强VLM本身——让它根据人看到的这个世界去懂得世界"。陈凯认为,这种差别让深度机灵"在全部流程上应当比英伟达略有领先"。

更深层的差别在于数据的"多样性"。遥操作数据记录机械人视角,义务和场景由人工设计;UMI(通用操作接口)数据须要人手持夹爪,"很难想象工厂主请求员工不克不及用手干活"。

而人类第一视角数据捕获的是真实生活,"哪怕你是静静地发呆,你看到外面毂击肩摩,这些数据对我们都有价值"。

这种多样性带来的不仅是数据量的节俭,更是进修质量的跃迁。

从"轨迹拟合"到"物理常识":办法论的范式转移

"智能出现"现象为这场革命供给了最直不雅的证据。

深度机灵的测试中,练习数据满是"夹起胡萝卜放盘子里",但机械臂碰着胡萝卜没夹到时,竟"自发选择推"——推一次没推动去,换角度加大年夜力度再推,最后才改变策略夹起来。另一个案例中,机械爪夹方块太靠后掉落落,它主动回来捡,第一次没捡起,第二次"做了一个异常稍微的扭转"成功夹起。

"这种灵活性,甚至你都没有办法预编程把它搞出来。"陈凯描述这一现象时强调,"千小时人类数据加强物理常识,自发地把人类灵活变通的才能迁徙到了机械人身上。"

这种"出现"才能揭示了一个深层规律:当模型具备足够的物理常识,它不再依附精确的轨迹模仿,而是可以或许像人类一样"懂得情境、灵活应对"。这恰是"物理常识"革命的核心,从"教动作"到"教懂得"的范式转移。

"物理常识"革命的另一个重要成果,是"跨本体才能"的出现。

传统办法须要"把不合形态的机械人的数据做结合练习"才能实现技能迁徙。但深度机灵不雅察到:"有了一个懂得物理常识的大年夜脑,天然而然知道适配什么样的身材。"

这一发明颠覆了"一个机械人一套数据"的行业惯例。用LoRA预练习action expert,再用Franka机械臂微调,数据需求大年夜幅降低——"不合形态机械人背后的物理规律一模一样"。

"跨本体是物理智能加强天然而然会出现的成果,并不是克意地把多种机械人数据放在一路练习出来的成果。"陈凯解释道。

这意味着,物理常识具有跨平台、跨形态的通用性。一旦模型控制了"物体受力会移动""抓取须要摩擦力"等基本规律,它就能将这些常识迁徙到新的硬件平台上,而无需从头进修。

这种通用性,恰是通往"具身通用智能"的关键阶梯。

"人类进修路线"正在国内悄然崛起

在全球具身智能比赛中,中国与美国出现出不合的侧重。

以前,中国和美国在具身智能范畴内,其实是各有侧重,中国聚焦本体,美国事聚焦在大年夜脑上。比较典范的是宇树科技等公司在硬件迭代上取得明显成就,但"具身大年夜脑上的团队其实并没有那么多"。

这一格局正在改变。2025-2026年间,国内开端出现专注"大年夜脑"的团队。深度机灵的崛起,以及小米、蚂蚁、章鱼动力等公司在2026岁首年代纷纷组建新团队跟进"人类进修路线",标记住行业重心的转移。

跨本体才能:物理常识的迁徙效应

从某种角度上,国内今朝的路径和认知上和世界一流科学家差别不大年夜,但须要更多的投入。个中,数据成本优势尤为明显,美国标注第一视角27万小时花上亿美刀,中国切切小时人力汗青数据本年全部行业就会达到。

更深层的挑衅在于行业生态。

"物理常识"的提取、标注、应用,须要全新的模型架构和练习办法,与当前主流的VLA、π0架构并不兼容。这意味着,拥抱"物理常识"革命,可能须要放弃既有的技巧积聚和基本举措措施。

但回报同样诱人。一旦机械人具备真正的"物理常识",它将不再是"教什么会什么"的专用对象,而是"懂得情境、灵活应对"的通用助手。这将彻底改变制造业、办事业、危险功课等无数范畴的临盆力争景。

在这方面的认知上,陈凯提到"这可能是人工智能的最后一个机会,也是最大年夜的一次。",这或许是对这场革命押注的决心。(雷峰网)

当行业仍在"大年夜力出事业"的崇奉下堆砌数据时,一条"懂得优先"的新路径已经浮现。它不是对数据量的否定,而是对进修质的重构——从"模仿动作"到"懂得世界",从"教猴子"到"变孙悟空"。

这场"物理常识"革命可否成功,将决定具身智能的下一个十年。而2026年,恰是关键的转折之年。


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

第一视角效力跨越真机,深度机灵宣布全球首个以人类进修范式构建的具身基座模型

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部