[图像编辑09] SmartEdit

Table of Contents

From：CVPR2024

现有方法的缺点：

The Framework of SmartEdit
原图 $x$ 经过Image Encoder得到图像特征 $v$ ，再经过 $FC$ 层得到 $v_{\mu}(x)$
$v_{\mu}(x)$ 与指令 $c$ 经过tokenize得到的embedding $(s_1,s_2...s_T)$ 一起被输入到LLM
LLM的输出是离散的tokens，不能作为后续模块的输入，要转化为hidden state
这里需要讲解一下hidden states和embedding的区别

为了联合optimize LLaVA和Diffusiom model，学习GILL，扩展原先的LLM的词汇，在指令 $c$ 的后面增加 $r$ 个 $[IMG]$ tokens
确切的说，是将一个trainable的矩阵 $E$ 融入LLM的embedding矩阵
之后，基于先前生成的tokens的条件，minimize这个生成的 $r \, [IMG]$ tokens的负对数似然

L_{\text{LLM}}(c) = - \sum_{i=1}^{r} \log p_{\{\theta \cup {\text{E}}\}} \left( [\text{IMG}_i] \mid v_\mu(x), \, s_1, \ldots, s_T, [\text{IMG}_1], \ldots, [\text{IMG}_{i-1}] \right)

LLM的主要参数 $\theta$ 被冻结，使用LoRA进行微调，得到hidden states为 $h$

考虑到LLM和CLIP的feature spaces的差距，需要把 $h$ 对齐到CLIP的encoder space，使用QFormer得到特征 $f$

然后图像特征 $v$ 和 $f$ 经过下一节所说的BIM得到 $f'$ 和 $v'$

以上过程表示为

h = \text{LLaVA}(x, c), \\ f = Q_\beta(h), \\ v = E_\phi(x), \\ f', v' = \text{BIM}(f, v)

然后将图像 $x$ 编码后的 $\epsilon(x)$ 和噪声潜变量 $z_t$ 拼接， $f'$ 作为Unet的key和value， $v'$ 通过在输入Unet前通过残差与特征结合

L_{\text{diffusion}} = \mathbb{E}_{\mathcal{E}(y), \mathcal{E}(x), c_T, \epsilon \sim \mathcal{N}(0,1), t} \left[ \left\| \epsilon - \epsilon_\delta\left(t, \text{concat}[z_t, \mathcal{E}(x)] + v', f' \right) \right\|_2^2 \right]

Bidirectional Interaction Module(双向交互模块)
$f$ 先做self-attention，然后 $f$ 作为query， $v$ 作为key和value做corss-attention，得到的结果做Pointwise MLP得到 $f'$
然后 $v$ 作为query， $f'$ 作为key和value，做cross-attention，得到 $v'$
如此实现文本和图像特征的双重交互
Dataset Utilization Strategy
生成了一些高质量数据来补充数据集，激发MLLM的推理能力
第一个场景方法如下
第二个场景说的是，SAM生成物体mask，再用stable diffusion做补全，并人工筛选掉失败的案例，只给了效果图

Thanks for reading!

Wed Mar 26 2025

731 words · 7 minutes