在视觉生成范畴,从图像生成到视频生成,研究的核心问题正逐渐从“可否生成内容”转向“可否生成可控且构造精确的内容”。

尤其是在人物动画生成义务中,研究人员不仅欲望模型可以或许生成具有真实感的画面,还欲望生成过程可以或许受到精确控制,例如经由过程输入人物图像与动作姿势序列,使模型主动生成持续的人物动画。在这一偏向上,姿势驱动的人物图像动画已经取得了明显进展。然而,这些办法大年夜多集中于单人物场景,当生成对象扩大到多人物时,问题的复杂度会明显增长。

而在在多人物动画生成过程中,模型不仅须要保持每小我物外不雅的稳定性,还必须在动态过程中精确建立人物与动作之间的对应关系,并处理人物之间的空间交互。假如模型无法持续区分不合人物,生成成果就轻易出现身份混淆、动作错位或空间关系不合理等问题。是以,如安在复杂互动过程中保持人物身份一致,并同时建模多人物之间的空间关系,已经成为多人物视频生成研究中的关键挑衅。

在如许的研究背景下,来自中国科学院计算技巧研究所与上海交通大年夜学等机构的研究团队提出了一种新的多人物动画生成框架,并揭橥了题为《MultiAnimate: Pose-Guided Image Animation Made Extensible》的研究工作。这项研究经由过程引入人物身份标识机制以及基于人物掩码的空间关系建模办法,使生成模型可以或许在多人物互动过程中持续区分不合个别,并保持人物外不雅与动作的一致性。

值得留意的是,这个办法在练习阶段只应用双人数据,却可以或许在推理阶段扩大到三人甚至更多人物的动画生成义务,为多人物视频生成供给了一种具有优胜扩大性的解决思路。

计算所 x 上交大年夜论文:只用双人数据,也能生成多人动画丨CVPR 2026

从双人到多人:模型生成才能的验证

从实验的整体来看,MultiAnimate 在多人物动画生成义务中明显优于现有办法,并且具有很强的扩大才能和泛化才能。

研究人员起首在 Swing Dance 数据集上测试模型机能。这个数据集包含大年夜量双人跳舞视频,人物之间的互动异常复杂,例如扭转、交换地位以及身材接触等。实验成果显示,MultiAnimate 生成的视频在视觉上加倍真实,人物动作与输入姿势加倍一致,视频帧之间的持续性更好,同时人物身份保持加倍稳定。

比拟之下,其他办法在复杂交互场景中轻易出现多种问题。例如,当两小我扭转或接近时,模型轻易出现身份纷乱的现象,人物外不雅可能被混淆,甚至出现衣服忽然交换的情况。当两小我互相遮挡时,一些模型会产生遮挡缺点,导致身材部位生成不精确,例如手臂地位异常。雷峰网("大众,"号:雷峰网)

计算所 x 上交大年夜论文:只用双人数据,也能生成多人动画丨CVPR 2026

此外,在复杂动作过程中,一些办法还会导致背景质量降低,出现背景模糊或者颤抖的现象。而 MultiAnimate 在全部视频生成过程中可以或许保持每小我的外不雅一致,动作次序合理,人物之间的空间关系稳定,这解释该办法在懂得多人物空间关系方面具有更强的才能。

研究团队还在 Gen-dataset 上对模型进行了测试。这个数据集由视频生成模型主动生成,包含两人或三人场景,并且具有不合背景情况和不合动作组合。实验成果注解,即使模型没有专门在该数据集长进行练习,仍然可以或许生成质量较高的视频。

具体表示为动作控制精确,人物外不雅保持一致,并且视频在时光维度上具有优胜的持续性。不过研究人员也发明,因为场景加倍复杂,在某些视觉感知指标上优势略小,这解释模型在加倍复杂情况中的表示仍然存在进一步晋升的空间。

计算所 x 上交大年夜论文:只用双人数据,也能生成多人动画丨CVPR 2026

研究偏向方面,安竹林的研究重要集中在神经收集加快和计算机视觉两个范畴。他的研究存眷若何提精深度进修模型的效力,以及若何将深度进修技巧应用到视觉懂得和视觉生成义务中,例如图像辨认、视频分析以及视觉模型优化等问题。

在泛化才能测试中,研究团队应用来自社交媒体的视频作为测试数据,这些视频包含三人跳舞、四人跳舞以及最多七人同时介入的跳舞场景。这些数据完全没有介入模型练习。

实验成果发明,即使模型只应用两小我的视频进行练习,仍然可以或许生成三人动画以及更多人物介入的互动动画,并且可以精确区分不合人物,保持每小我物的身份一致,同时可以或许精确生成多人物之间的空间关系。这解释模型具有很强的扩大才能,也意味着练习人数与最毕生成人数并不完全一致,模型可以或许推广到加倍复杂的多人物场景。

计算所 x 上交大年夜论文:只用双人数据,也能生成多人动画丨CVPR 2026

还有一些办法规如 UniAnimate-DiT 和 VACE 在简单动作阶段表示较好,但在复杂的人物互动之后仍然轻易出现身份交换以及遮挡缺点等问题。比拟之下,MultiAnimate 在全部视频生成过程中都可以或许保持人物身份稳定,动作生成合理,并且人物之间的空间关系精确,是以在视觉后果上明显优于其他办法。

MultiAnimate 的构建与验证路径

计算所 x 上交大年夜论文:只用双人数据,也能生成多人动画丨CVPR 2026

为了获得上述实验成果,研究人员先是于数据预备阶段,在实验中应用了三类数据。第一类是 Swing Dance 数据集,这是一个双人跳舞视频数据集,总时长约为 30 小时,包含 680 对舞者。雷峰网

数据中存在大年夜量扭迁移转变作、人物互动动作以及频繁的人物遮挡现象,是以异常合实用于练习模型懂得多人物之间的空间关系。在练习过程中,模型经由过程这些视频进修两小我若何进行互动,如安在动作过程中保持人物身份一致,以及在人物互相遮挡时若何精确处理空间关系。

第二类数据是 Gen-dataset 数据集,研究团队应用视频生成模型 Wan2.2 主动生成了 2079 个视频,每个视频长度约为 5 秒。这些视频包含两人或三人的场景,并具有不合的背景情况和不合的动作组合。应用这一数据集的目标重要有两个,一是增长练习场景的多样性,二是进步模型的泛化才能。

第三类数据来自社交媒体平台 TikTok 的跳舞视频,这些视频中平日包含三到七小我同时跳舞,动作复杂且场景多样。这部分数据只用于测试模型机能,并不介入练习,重要用于验证模型是否可以或许推广到更多人物的场景。

计算所 x 上交大年夜论文:只用双人数据,也能生成多人动画丨CVPR 2026

在模型练习之前,研究人员还对视频数据进行了预处理。预处理重要包含两个步调。第一步是姿势提取,研究人员应用人体姿势检测模型提取人物的骨架信息,这些骨架信息可以表示人物的手臂地位、腿部地位以及整体身材姿势。

经由过程这些骨架序列,模型可以或许根据姿势信息驱动人物动作生成。第二步是人物掩码提取,研究人员应用视频瓜分办法生成每小我物的追踪掩码。掩码可以或许表示在每一帧图像中哪些像素属于人物 A,哪些像素属于人物 B,从而使模型可以或许区分不合的人物。

计算所 x 上交大年夜论文:只用双人数据,也能生成多人动画丨CVPR 2026

模型练习过程分为两个阶段。在第一阶段练习中,研究人员应用 Swing Dance 数据集对模型进行练习,练习目标是让模型进修双人之间的互动关系。练习设置为大年夜约 40 个练习周期,总练习步数约为 7000 步,每个GPU的 batch size 为 1,练习过程中应用两张 A100 GPU。在这一阶段练习完成后,模型最多可以支撑三小我的动画生成。

第二阶段练习是在第一阶段的基本上持续进行,研究人员参加 Gen-dataset 数据集进行练习,其重要目标是进步模型对不合场景情况的适应才能。第二阶段练习约进行 3 个周期,总练习步数约为 2400 步。除此之外,研究团队还练习了一个扩大版本模型,这一模型可以支撑最多七小我的动画生成。扩大模型仍然应用双人数据进行练习,但经由过程新的练习策略使模型可以或许进修区分更多人物,该模型练习了 24 个周期。

在比较实验中,研究人员将 MultiAnimate 与多个已有模型进行了比较,包含 UniAnimate-DiT、MimicMotion、DisPose 和 VACE。实验重要比较视频质量、动作生成的精确性、人物身份一致性以及视频时光持续性等方面。实验成果显示,MultiAnimate 在几乎所有指标上都优于这些办法。

此外,研究团队还进行了消融实验,用于验证各个模块设计是否有效。消融实验重要测试了两种设计。第一种是基于人物掩码的 Mask-driven 设计,假如去掉落这一设计,模型在生成视频时轻易出现人物身份纷乱以及空间关系缺点的问题。

实验成果解释,掩码设计可以或许赞助模型更好地舆解人物之间的地位关系。第二种是 Identifier 模块设计,个中包含 Identifier Assigner 和 Identifier Adapter 两个模块,这两个模块的感化是为每小我物分派独一的身份标识。假如去掉落这两个模块,模型在多人物场景中轻易出现身份交换和动作纷乱的现象。实验成果注解,这两个模块可以或许明显晋升模型在多人物动画生成中的稳定性。

计算所 x 上交大年夜论文:只用双人数据,也能生成多人动画丨CVPR 2026

冲破多人物动画生成的关键瓶颈

总的来说,这项研究的实验意义重要表如今三个方面。起首,在多人物动画生成义务中,传统办法大年夜多只针对单人物动画进行研究,当场景中出现多人时,模型往往轻易出现身份纷乱、动作缺点以及空间关系不精确等问题。针对这一情况,研究团队提出了 MultiAnimate 办法,经由过程身份标识机制、人物掩码以及空间关系建模,使模型可以或许在生成视频时精确区分不合人物,并保持人物之间的空间关系,从而晋升了多人物动画生成的稳定性和精确性。

其次,在人物数量的扩大才能方面,传统办法平日须要按照固定人数进行练习,例如两人模型只能生成两人动画,假如须要生成更多人物的动画,就须要从新收集数据并从新练习模型。而在这一研究中,研究人员发明,只应用两人数据进行练习,模型仍然可以生成三人甚至更多人物介入的动画,这解释模型在多人物场景中的扩大才能获得了明显晋升。

最后,在数据应用效力方面,收集包含多人物互动的视频数据往往成本较高,是以获取大年夜范围多人物数据集比较艰苦。研究成果注解,只须要少量双人数据,就可以或许练习出支撑多人物动画生成的模型,这在实际应用中具有重要价值。

MultiAnimate 背后的科研工作者

论文的通信作者为安竹林,现为中国科学院计算技巧研究所的副研究员,同时也是博士生导师,经久从事人工智能和计算机视觉相干研究工作。他在中国科学院获得博士学位后,一向在该研究机构从事科研与人才培养工作。

在研究成果方面,安竹林及其研究团队环绕深度进修模型效力和视觉义务展开了多项研究。另一些研究则存眷视觉义务中的模型设计与机能晋升,经由过程改进算法办法来进步图像辨认或视觉懂得的后果。这些研究不仅推动了计算机视觉技巧的成长,也为深度进修模型在实际场景中的应用供给了重要技巧基本。

参考链接:https://oldoc.github.io/

在研究偏向方面,刘松华的工作重要集中在计算机视觉和机械进修范畴,重点存眷视觉生成模型、数据蒸馏、模型适配以及深度进修模型效力晋升等问题。这些研究内容重要环绕若何进步生成模型的质量、效力以及在实际场景中的应用才能展开。

在学术成果方面,他在人工智能和计算机视觉范畴揭橥了多篇学术论文,相干研究成果被多个国际重要学术会议收录。同时,他还介入提出了多种视觉生成与图像处理办法,例如应用神经收集主动生成绘画笔触的绘画生成办法,以及经由过程改进留意力机制晋升图像风格迁徙后果的办法。这些研究成果在图像生成、艺术风格迁徙以及视觉内容生成等偏向具有必定影响。

计算所 x 上交大年夜论文:只用双人数据,也能生成多人动画丨CVPR 2026

论文的另一位通信作者为刘松华,今朝任职于上海交通大年夜学人工智能学院,担负助理传授,重要从事计算机视觉与人工智能相干研究。在进入高校任教之前,他曾在新加坡国立大年夜学完成博士学位,研究偏向集中在深度进修与视觉生成等范畴。

参考链接: https://huage001.github.io/

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

此外,研究还展示了大年夜量生成视频的画面比较成果。可视化分析发明,一些已有办法规如 MimicMotion 和 DisPose 在动画生成初期就可能出现人物身份纷乱的情况,例如人物衣服色彩忽然产生变更,或者两个角色在交换地位之后身份产生混淆。

计算所 x 上交大年夜论文:只用双人数据,也能生成多人动画丨CVPR 2026

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部