字节跳动宣布了名为 DreaMontage 的帧引导视频生成技巧,其核心在于实现“随便率性帧引导的一次性视频生成”,创建无缝的长镜头和复杂的场景过渡。

论文地址:https://arxiv.org/abs/2512.21252
https://dreamontage.github.io/DreaMontage/
DreaMontage 核心功能:
- 多关键帧前提生成: 用户可以在视频的指定地位放置关键帧,模型将生成包含这些关键帧的视频
- 多视频片段过渡: 模型可以无缝连接多个视频片段,实现腻滑的场景或主题过渡
- 混淆前提生成: 许可用户在随便率性时光戳插入图像或视频片段,生成连贯过渡视频
- 末帧前提生成: 可以生成以给定图像作为最后一帧的视频。
- 视频扩大: 可以或许对现有视频进行内容和时长的扩大。
据介绍,DreaMontage 框架专为随便率性帧引导生成设计,能从多样化用户输入中合成无缝连接、富有表示力且时长可控的单镜头视频。
据介绍,DreaMontage 经由过程三大年夜维度霸占技巧难点:
- 在 DiT 架构中集成轻量级中心前提机制。经由过程采取有效应用基本练习数据的自适应调谐策略,我们实现了强大年夜的随便率性帧控制才能。
- 为晋升视觉保真度与片子表示力,我们精心构建高质量数据集并实现视觉表达 SFT 阶段。针对主体活动合理性与过渡腻滑度等关键问题,我们应用定制化 DPO 筹划,明显晋升生成内容的成功率与可用性。
- 为支撑长序列生成,我们设计出内存高效的分段自回归(SAR)推理策略。大年夜量实验注解,该筹划在保持计算效力的同时,可实现视觉震动且无缝连接的单镜头后果,赋能用户将碎片化影像素材转化为活泼连贯的片子级体验。

发表评论 取消回复