Image Harmonization系列文章
Thu Jul 24 2025
283 words · 3 minutes

Image Harmonization系列文章


Table of Contents

Image Harmonization系列文章 Link to Image Harmonization系列文章

HarmonPaint: Harmonized Training-Free Diffusion Inpainting Link to HarmonPaint: Harmonized Training-Free Diffusion Inpainting

思路

  • 在 U-Net 解码器里的自注意力(self-attention),我们有 Q、K、V。K 和 V 里包含风格信息。

  • 计算未遮挡区域所有 patch 的 K 的均值Kˉ\bar{K}(认为它代表整幅图的“整体风格”)。

  • 然后用一个掩码MfM_f 去更新 K(V 同理):

    K~(i)={K(i),Mf(i)=0(未遮挡区,保持原样)Kˉ,otherwise(被遮挡区,用整体风格替换)\tilde{K}(i) = \begin{cases} K(i), & M_f(i) = 0 \quad \text{(未遮挡区,保持原样)} \\ \bar{K}, & \text{otherwise} \quad \text{(被遮挡区,用整体风格替换)} \end{cases}

​ 含义:被遮挡区的Key特征被整体风格代表 Kˉ\bar{K} 替换,这样注意力会把未遮挡区的风格“拉”进来,使得生成区域风格对齐。

  • 自注意力计算

    A~self=Softmax(Q×[K,λKˉ]d)\tilde{A}^{self} = \text{Softmax}\left( \frac{Q \times [K, \lambda \bar{K}]^{\top}}{\sqrt{d}} \right) f~t=A~self×[VVˉ]\tilde{f}_t = \tilde{A}^{self} \times \begin{bmatrix} V \\ \bar{V} \end{bmatrix}
    • 将原始 KeyKK与平均风格 Key Kˉ\bar{K} 拼接,并通过 λ\lambda 控制 Kˉ\bar{K}​ 的影响力。
    • 这样可以同时保留局部结构信息和整体风格信息。
Thanks for reading!

Image Harmonization系列文章

Thu Jul 24 2025
283 words · 3 minutes