FIFO-Diffusion

tech Video Generation

Table of Contents

FIFO-Diffusion: Generating Infinite Videos from Text without Training Link to FIFO-Diffusion: Generating Infinite Videos from Text without Training

https://arxiv.org/abs/2405.11473

人眼看掉帧十分严重 https://jjihwan.github.io/projects/FIFO-Diffusion

视频扩散模型（VDMs）通常将视频视为一个带有额外轴的 4D 张量，对应于时间维度，这阻止了模型进行大规模的生成。

基于扩散模型的模型不能直接采用自回归生成策略，因为对单个帧的生成步骤会产生巨大的计算成本。

最近的一些工作 [9, 7, 29, 12, 4, 1] 采用了一种分块自回归生成策略，该策略同时在并行条件下生成几个连续帧，从而减少了计算负担。虽然这些方法在计算上是可行的，但它们往往会导致时间不一致和不连续，特别是在单独处理的块之间，因为模型仅捕获了最少的一两帧或块内帧的有限时间上下文。

我们的方法有效地缓解了分块自回归生成方法通过强制每帧参考足够数量的先前帧所带来的限制。

Thanks for reading!

FIFO-Diffusion

Mon Sep 22 2025

301 words · 3 minutes

tech Video Generation