技巧上这个模型最大年夜的冲破是:用 千问 2.5 VL 做懂得负责处理图像、视频和文本输入,用混元视频做生成,两个模型联动合营,让 AI 既能"看懂"又能"创作"。

快手可灵团队与滑铁卢大年夜学结合推出同一视频模型 UniVideo,这个模型初次将视频懂得、编辑和生成整合到了一个模型中。

该办法应用一个多模态大年夜说话模型 (MLLM) 来懂得指令和高低文,一个多模态 DiT (MMDiT) 用于生成和编辑视频。该技巧支撑多种视频处理功能,包含生成,即根据文本,图像等参考描述生成视频懂得,可以或许解析图像或视频中的视觉信息编辑,根据用户描述与图像参考对视频进行内容,风格修改。

演示中它支撑经由过程输入图片和 prompt 来生成视频,也可以输入视频和图片来修改视频,或者直接应用 prompt 来编辑视频。

以前这些义务须要好几个模型分别处理,如今一个模型全搞定,并且不合才能之间还能互相加强。

从实际后果来看动作比较小的视频质量是可以的, 不过也有典范的AI问题, 比如火焰后果须要优化, 以及会有必定程度的一致性问题, 比如这个头发的发丝后果. 但瑕不掩瑜, 这个模型的前景异常不错.

开源地址:https://github.com/KlingTeam/UniVideo

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部