ELLA讲解
Mon Aug 18 2025
326 words · 3 minutes

ELLA讲解


Table of Contents

ELLA讲解 Link to ELLA讲解

Motivation Link to Motivation

(这是一个比较老的文章了,24年的)

大多数广泛使用的T2I模型仍然采用CLIP作为其文本编码器,这限制了它们理解dense prompt的能力,包括多个对象、详细属性、复杂关系、长文本对齐等。该文章没有对U-Net做额外的训练,而是就训练了一个Timestep-Aware Semantic Connector(TSC)模块,完成了dense prompt。

image-20250818164005887

Method Link to Method

  • Text Encoder:使用T5-XL、TinyLlama 和 LLaMA-2 13B。

  • TSC

    • MLP:太水了

    • Resampler:可以可变长度输入,使用Learnable Query(紫色的那个)和text embedding做交互。

    • Resampler+TimeStep+AdaLN:检查给定的图像生成提示,我们注意到某些词语描述了主要对象及其相应的属性,而另一些词语可能描绘细节和图像风格。还观察到,在图像生成过程中,扩散模型最初预测主要场景,随后细化细节。

      这一观察启发我们将时间步融入到我们的重采样器中,从而能够提取动态文本特征,以便在不同的扩散阶段更好地调节噪声预测。

    • Resampler+TimeStep+AdaLN-Zero:在DiT表现好一些,而不是Unet。

Thanks for reading!

ELLA讲解

Mon Aug 18 2025
326 words · 3 minutes