中山大年夜学梁小丹团队论文:让视频生成从「看起来真实」到「物理上精确」丨CVPR 2026

想象如许一些常见却又奥妙的场景:一勺蜂蜜迟缓倒入热茶,本应拉出细长持续的丝状流动,但很多生成视频却会忽然断裂甚至凭空消掉;一块冰在室温下逐渐熔化,真实过程应当是边沿先软化、体积变更、最终消失,而生成成果却经常直接从完全变成消掉;一个玻璃球落入水中,本应经历接触水面、减速下沉、逐渐稳定的过程,但模型却可能只给出一个成果画面。

这些现象并不罕有,也恰是当前视频生成技巧最轻易让人出戏的处所。画面看起来像,但过程纰谬,缺乏因果关系,也缺乏真实世界中那种持续演变的逻辑。

跟着视频生成模型的成长,从 OpenAI Sora 到 Kling 等体系赓续刷新视觉质量的上限,行业已经根本解决了清楚度和风格的问题,却逐渐裸露出更深层的瓶颈,即模型缺乏对物理规律的懂得才能。

在如许的背景下,来自四川大年夜学的雷印杰团队提出了一项新的研究工作《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》。这项研究不再直接从文本生成视频,而是测验测验让模型先懂得物理过程本身,将复杂现象拆分为一系列具有因果关系的事宜,并结合物理规律进行束缚,再慢慢生成视频内容。

经由过程这种方法,目标不再只是让画面看起来真实,而是让变更过程本身也相符实际世界的运行逻辑,从而在更深层次上晋升视频生成的可托度和一致性。

中山大年夜学梁小丹团队论文:让视频生成从「看起来真实」到「物理上精确」丨CVPR 2026

论文地址:https://arxiv.org/pdf/2603.09094

加倍相符「真实世界」的方法

在实验成果方面,研究团队起首在 PhyGenBench 数据集长进行了体系评估。这个数据集包含 160 条物理描述,覆盖力学、光学、热学和材料四类典范物理场景。

整体机能上,研究办法取得了 0.66 的得分,而此前最优办法 PhysHPO 为 0.61,实现了 0.05 的绝对晋升,对应约 8.19% 的相对晋升。同时,与基本视频生成模型比拟优势加倍明显,例如 Kling 为 0.49,Gen-3 为 0.51,CogVideoX 为 0.45,而研究办法达到 0.66,相当于晋升约 0.15 到 0.21,整体相对晋升跨越 30%,解释机能晋升幅度异常明显。

在分范畴成果上,研究办法在四个偏向分别取得了不合成就。力学偏向为 0.67,比拟此前约 0.55 晋升了 0.12;光学偏向为 0.72,比拟 0.68 晋升了 0.04,热学偏向为 0.65,比拟 0.58 晋升了 0.07;材料偏向为 0.60,固然低于最高值 0.65,但仍保持接近程度。从整体来看,在四个物理范畴中有三个取得第一,综合表示最强。

中山大年夜学梁小丹团队论文:让视频生成从「看起来真实」到「物理上精确」丨CVPR 2026

中山大年夜学梁小丹团队论文:让视频生成从「看起来真实」到「物理上精确」丨CVPR 2026

进一步的细粒度分析中,研究团队将才能拆分为物理现象辨认才能和物理次序精确性两个指标。在力学场景中,研究办法的物理现象辨认为 0.79,物理次序为 0.79,而比较办法 DiffPhy 分别为 0.73 和 0.53,次序精确性从 0.53 晋升到 0.79,晋升幅度达到 0.26。

在光学场景中,研究办法分别为 0.84 和 0.85,比较办法为 0.83 和 0.66,次序晋升为 0.19。在热学场景中,研究办法为 0.78 和 0.69,比较办法为 0.70 和 0.58,次序晋升为 0.11。可以看出,最明显的晋升集中在物理过程次序这一指标上,解释模型在时光次序和因果逻辑方面的才能获得明显加强。

在 VideoPhy 数据集上,研究办法同样表示出优胜的泛化才能。这个数据集包含 688 条更切近真实应用的提示,涵盖固体与固体、固体与液体以及液体与液体之间的复杂交互。评价指标为同时知足语义一致性和物理合理性的比例,即语义精确且物理精确。

研究办法取得 49.3% 的成果,而此前最优办法约为 45.9%,晋升 3.4%。与基本模型比拟,CogVideoX 为 39.6%,研究办法晋升了 9.7%。在不合交互类型中,晋升最明显的是流体相干场景,例如液体流动、蜂蜜倒入等持续变更过程,整体晋升跨越 10%,解释在处理持续物理动态方面具有明显优势。

中山大年夜学梁小丹团队论文:让视频生成从「看起来真实」到「物理上精确」丨CVPR 2026

为了进一步验证办法的有效性,研究团队进行了消融实验。在去掉落物理公式模块后,机能从 0.66 降低到 0.62,降低 0.04,约 6%。去掉落事宜分化模块后,成果降至 0.59,降低 0.07,约 11%。去掉落文本渐进生成模块后,成果为 0.64,降低 0.02,约 3%。而去掉落关键帧生成模块后,机能降至 0.55,降低 0.11,约 17%,是影响最大年夜的部分。这解释事宜链构造和关键帧机制在全部办法中起到最核心感化。

此外,研究团队还分析了事宜数量对机能的影响。当事宜数量为 1 到 3 时,因为信息不足,机能降低;当事宜数量为 4 时,机能达到最佳;当增长到 5 到 6 时,因为误差在关键帧和推理过程中慢慢累积,机能反而降低。这解释事宜数量存在一个最优范围,过少无法表达完全过程,过多会引入不稳定性。

中山大年夜学梁小丹团队论文:让视频生成从「看起来真实」到「物理上精确」丨CVPR 2026

从一句话,到一全部物理过程

为了获得知足的实验成果,研究团队起首进行了同一的实验设置。视频生成模型采取 CogVideoX-5B,生成视频的分辨率为 1360×768,每个视频包含 161 帧。在说话推理部分,应用的模型为 GPT-OSS-20B,在图像编辑阶段应用 Qwen-Image 模型,用于生成关键帧并引导后续视频生成过程。

在具体流程上,全部过程按照多个步调慢慢进行。起首输入文本描述,例如“蜂蜜倒入杯中”。随后模型对文本进行懂得,主动辨认个中涉及的物理规律,例如断定属于流体力学范畴,并辨认出包含体积变更和持续流动等特点。在完成物理规律辨认之后,体系会从常识库中检索与这一过程相对应的物理公式,用于后续推理和束缚。

在此基本上,研究团队构建事宜链构造,即经由过程 PECR 模块将完全物理过程拆分为多个持续事宜。例如将“蜂蜜倒入杯中”这一过程分化为开端倒入、接触杯子、液体逐渐聚积以及液面上升等阶段。雷峰网

每一个事宜不仅包含对应的语义描述,还包含物理参数信息,例如高度和体积变更,同时还包含场景关系信息,例如不合物体之间的高低关系。经由过程这种方法,将本来持续的物理过程转化为离散的事宜序列,从而为后续建模供给清楚的构造。

中山大年夜学梁小丹团队论文:让视频生成从「看起来真实」到「物理上精确」丨CVPR 2026

接下来进入语义提示生成阶段。模型会为每一个事宜生成对应的描述语句,然后再将这些描述整合为一个完全的句子,平日采取“起首、然后、最后”等表达情势,从而形成具有因果逻辑的整体语义提示,包管事宜之间的次序关系清楚一致。

随落后行视觉提示生成,即关键帧生成阶段。针对每一个事宜生成一张对应图像,并经由过程图像编辑方法慢慢对画面进行修改,同时控制变更幅度,例如液体高度的增长量。这种方法可以或许避免完全随机生成,使视觉变更加倍稳定且相符物理过程。

在关键帧生成完成之后,体系会在相邻关键帧之间插入中心帧,经由过程插值方法构建持续过渡,再将这些信息输入扩散模型,最毕生成完全视频。

现有办法更多依附数据驱动的模式匹配,本质上是在生成看起来合理的成果,而不是在模仿真实产生的过程,这也导致在流体、热变更以及多物体交互等场景中表示明显不足。

中山大年夜学梁小丹团队论文:让视频生成从「看起来真实」到「物理上精确」丨CVPR 2026

在比较实验部分,研究团队采取同一设置进行评估,包含应用雷同的文本输入、雷同的数据集以及雷同的评价指标。在此基本上,将研究办法与不合类型模型进行比较,包含通俗视频生成模型如 Kling 和 Gen-3,以及物理加强模型如 DiffPhy 和 PhysHPO,从而包管实验成果具有公平性和可比性。

中山大年夜学梁小丹团队论文:让视频生成从「看起来真实」到「物理上精确」丨CVPR 2026

从生成画面,到模仿实际

这项研究的意义,其实可以从一个很直不雅的变更来懂得。以往的视频生成更像是在“拼画面”,模型只须要让成果看起来像真实世界即可,但一旦细心不雅察过程,就会发明很多不合理之处。例如液体不会持续流动,物体活动缺乏前后关系,甚至出现违背常识的变更。这些问题本质上源于模型缺乏因果关系、时光逻辑以及对物理规律的懂得,使得视频固然“像”,却不“真”。

研究团队在此基本上带来的改变,是把视频生成从简单的画面合成,改变为对过程本身的建模。本来是从文本直接生成一段图像序列,如今变成先构建一条具有因果关系的事宜链,再基于这条事宜链生成视频。

在小我经历方面,雷印杰具有体系的学术培养背景,分别于 2006 年、2009 年和 2013 年在西南交通大年夜学、四川大年夜学和澳大年夜利亚西澳大年夜学获得本科、硕士和博士学位。

如许的变更意味着模型不再只是输出成果,而是开端“经历过程”,在构造上天然引入时光次序和前后逻辑,使视频更接近实际世界的演变方法。雷峰网("大众,"号:雷峰网)

这种才能晋升的关键在于三个方面的结合。起首是物理束缚才能,经由过程引入物理公式,让生成过程不再随便变更,而是受到实际规律的限制。其次是因果构造建模才能,经由过程事宜链明白每一步应当若何产生,包管次序精确。最后是视觉锚点才能,经由过程关键帧束缚中心过程,使画面变更加倍持续和稳定。这三者合营感化,使模型从“生成看起来合理的成果”,迈向“模仿真实产生的过程”。

当然,这一变更对通俗人的影响其实异常直接。将来在短视频创作中,用户只须要输入一个简单描述,就可以生成更真实、更连贯的动态内容,不再出现违和感;在教导场景中,可以用视频直不雅展示复杂的物理过程,例如液体流动、光线传播或物体活动,让抽象概念变得可视化;在游戏和虚拟世界中,情况中的变更也会加倍相符实际规律,进步沉浸感;甚至在主动驾驶和机械人练习中,这种更真实的模仿才能也有助于模型更好地舆解实际情况。

从更长远的角度来看,这项研究把视频生成从视觉义务晋升为物理过程建模问题,为构建更接近真实世界的智能体系供给了基本。

不过研究团队也指出,今朝办法在面对多个物理规律同时感化的复杂场景时仍然存在艰苦,例如牛顿摆与水爆炸同时产生的情况,模型轻易掉效。这也解释在组合物理推理方面仍有明显晋升空间,也为后续研究指清楚明了偏向。

推动生成走向「因果」的他们

这篇论文的通信作者雷印杰,现为四川大年夜学传授、博士生导师,同时入选国度级青年人才项目,经久从事人工智能相干研究工作。

2013 年 12 月进入四川大年夜学电子信息学院,从事教授教化与科研工作,随后在 2017 年 9 月起担负四川大年夜学电子信息学院副院长。在此过程中,还入选四川省特聘专家、四川省学术和技巧带头人后备人选,并获得四川出色青年科学基金支撑。

在研究偏向上,雷印杰重要聚焦人工智能范畴相干问题。科研工作方面,他经久主持和介入国度级科研项目及企业合作项目,研究内容涵盖人工智能、计算机视觉以及多模态懂得等偏向,在学术研究与工程应用之间形成了较好的结合。

中山大年夜学梁小丹团队论文:让视频生成从「看起来真实」到「物理上精确」丨CVPR 2026

参考链接:https://eie.scu.edu.cn/info/1044/13503.htm

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

中山大年夜学梁小丹团队论文:让视频生成从「看起来真实」到「物理上精确」丨CVPR 2026

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部