[图像编辑07] SINE

Table of Contents

From：CVPR2023

现有的编辑工作有如下缺点：

因为直接只使用Fine-tuned Model做生成，会导致过拟合，作者决定融合Fine-tuned Model和Pre-trained Model

之前，class-free guidance的融合文本条件做法是

\tilde{\epsilon}_{\theta}(\mathbf{z}_t, \mathbf{c}) = w \epsilon_{\theta}(\mathbf{z}_t, \mathbf{c}) + (1 - w) \epsilon_{\theta}(\mathbf{z}_t)

本文融合的做法是

\tilde{\epsilon}_{\theta}(\mathbf{z}_t, \mathbf{c}) = w \left( v \epsilon_{\theta}(\mathbf{z}_t, \mathbf{c}) + (1 - v) \hat{\epsilon}_{\theta}(\mathbf{z}_t, \hat{\mathbf{c}}) \right) + (1 - w) \epsilon_{\theta}(\mathbf{z}_t)

在这里面， $\hat \epsilon_{\theta}$ 指fine-tuned model， $\epsilon_{\theta}$ 指pre-trained model

并且规定， $t<K$ 步只能使用第一个，后面才能再使用第二个公式

关于本文，其实还提出了任意分辨率的图像生成，我没太看得懂，不做细讲

Thanks for reading!

Tue Mar 25 2025

292 words · 3 minutes