拡散モデル

機械学習分野における拡散モデル（かくさんモデル、英:diffusion model）は潜在変数モデルの一種で、拡散確率モデル（かくさんかくりつモデル）とも呼ばれる。これは変分ベイズ法を用いて訓練されたマルコフ連鎖である^[1]。拡散モデルの目標とするところは、データの各点が潜在空間上で拡散していく振る舞いをモデル化することで、データ集合のもつ潜在構造を学習することにある。コンピュータビジョンの分野では、これはガウス雑音によってぼやけた画像から雑音を除去するために、拡散過程を反転させる学習を通じて訓練されたニューラルネットワークに相当する^[2]^[3]。コンピュータビジョンで用いられる一般的な拡散モデルの枠組みを表現する3つの例が、拡散モデルの雑音除去、ノイズ条件付きスコアネットワーク、そして確率微分方程式である^[4]。

拡散モデルは非平衡熱力学を動機として、2015年に導入された^[5]^[6]。

拡散モデルは画像の雑音除去、修復、超解像、画像生成、データ圧縮など様々な操作に応用できる。例えば画像生成モデルはランダムノイズの画像を初期値とし、自然画像の拡散過程を逆向きに学習することによって、新たな自然画像を生成することが可能となる。2022年4月13日に公開されたOpenAIの文章画像生成モデルDALL-E 2は最近の例である。DALL-E 2は拡散モデルを、画像生成モデルの事前分布と最終的な画像生成のデコーダの両方に用いている^[7]^[8]。拡散モデルを利用したデータ圧縮には符号化が不要と言った利点があり、従来の最高性能の圧縮手法に比べても性能が高い^[8]。

数学的原理

画像生成

画像生成という問題を考える。 $x$ を画像とし、画像空間上の確率密度関数を $p(x)$ とおく。もし $p(x)$ 自体が与えられているならば、特定の画像が生成される確率を明確にすることができるが、一般には確率を知ることは難しい。

たいていの場合、特定の画像が生成される具体的な確率には興味がない。むしろ興味の対象は、その特定の画像が近傍の画像と比較してどの程度生成されやすいかである。例えば2本のひげが生えた猫の画像があるとき、その画像のわずかな変種（たとえば3本のひげが生えた猫の画像や、何らかのガウス雑音が加わった画像）と比較してどの程度生じやすいのか、が問題である。

したがって、興味の対象は $p(x)$ そのものではなく、むしろ $\nabla _{x}\ln p(x)$ である。これは2つの効果をもたらす。

第一に $p(x)$ を正規化する必要がなく、 ${\tilde {p}}(x)=Cp(x)$ を用いることができる。ここで $C=\int {\tilde {p}}(x)dx>0$ は任意の定数であり、具体的な値は計算に何の影響も与えない。
第二に、 $p(x)$ とその近傍画像の確率 $p(x+dx)$ を、 ${\frac {p(x)}{p(x+dx)}}=e^{-\langle \nabla _{x}\ln p,dx\rangle }$ によって比較できる。

スコア関数を $s(x):=\nabla _{x}\ln p(x)$ とおくと、 $s(x)$ は $p(x)$ から確率的勾配ランジュバン動力学（英語版）（SGLD）を用いた標本抽出を可能にする。これは本質的にマルコフ連鎖モンテカルロ法の無限小バージョンである^[2]。

スコア関数の学習

スコア関数はnoising-denoisingによって学習可能である^[1]。

主要な変種

分類器誘導

あらゆる画像群から標本抽出するのではなく、画像に関する記述によって条件付けされた範囲から抽出することを考える。一般的な画像群から取り出さず、例えば「赤い目の黒猫」といった記述に合致する画像から取り出すということである。一般に、これは $p(x|y)$ という分布上での標本抽出を意味する。ここで画像 $x$ は全ての画像の範囲から得られるのに対して、画像 $y$ の範囲はある画像のクラスに限定される（「赤い目の黒猫」はかなり詳細なクラスであり、それに対して「猫」はかなり漠然とした記述である）。

雑音のある通信路モデルの観点に立つことで、この過程を以下のように理解することができる。記述 $y$ が与えられた条件のもとで画像 $x$ を生成しようとするとき、画像を生成したい人は実のところ画像 $x$ を思い描いているのだが、その画像は雑音のある通信路を通ってきたために文字化けした結果、記述 $y$ として受信されている、と想像するのである。この場合、画像生成とは生成したい人が本来思い描いていた $x$ を推定する操作に他ならない。

言い換えると、条件付き画像生成は単に「文字で表現された言語を画像で表現された言語に翻訳する」ということである。そこで雑音のある通信路モデルと同様に、ベイズの定理から

p(x|y)\propto p(y|x)p(x)

を得る。すなわち、もしも全画像空間に関する良質なモデル（

p(x)

）と、画像→クラスの良質な翻訳器（

p(y|x)

）が得られるのであれば、それらから労せずしてクラス→画像の翻訳器を得られるということである。

SGLDでは以下の等式を用いる。

\nabla _{x}\ln p(x|y)=\nabla _{x}\ln p(y|x)+\nabla _{x}\ln p(x)

ここで

\nabla _{x}\ln p(x)

は前述のように学習したスコア関数であり、

\nabla _{x}\ln p(y|x)

は微分可能な画像分類器を用いて導かれる。

温度の導入

分類器誘導型の拡散モデルでは $p(x|y)$ から標本抽出を行うが、これは最大事後確率による推定値 $\arg \max _{x}p(x|y)$ の周辺に集中することになる。もしモデルを最尤推定値 $\arg \max _{x}p(y|x)$ に強制的に近づけたいのであれば、以下の式を用いればよい。

p_{\beta }(x|y)\propto p(y|x)^{\beta }p(x)

ここで

\beta >0

は逆温度とみなすことができる。拡散モデルの文脈においては、

\beta

は誘導スケールと呼ばれることが多い。

\beta

が大きいほど、モデルに対して

\arg \max _{x}p(y|x)

周辺に集中した分布からの標本抽出を強制する。これはしばしば生成される画像の品質を改善する^[9]。

温度の導入は、SGLDにおいて

\nabla _{x}\ln p_{\beta }(x|y)=\beta \nabla _{x}\ln p(y|x)+\nabla _{x}\ln p(x)

とおくだけで実現できる。

分類器フリー誘導（CFG）

分類器 $p(y|x)$ が無い場合でも、画像モデル自体から以下のように分類器を抽出することが可能である^[10]。

\nabla _{x}\ln p_{\beta }(x|y)=(1-\beta )\nabla _{x}\ln p(x)+\beta \nabla _{x}\ln p(x|y)

このようなモデルは通常、

(x,y)

と

(x,None)

の双方を与えることで訓練され、それによって

\nabla _{x}\ln p(x|y)

と

\nabla _{x}\ln p(x)

をともにモデル化できる。

CFGはGLIDE^[11]やDALL-E^[12]、Google Imagen^[13]といったモデルの必要不可欠な部分となっている。

参考文献

^ ^a ^b Ho, Jonathan; Jain, Ajay; Abbeel, Pieter (19 June 2020). Denoising Diffusion Probabilistic Models. arXiv:2006.11239.
^ ^a ^b Song, Yang; Sohl-Dickstein, Jascha; Kingma, Diederik P.; Kumar, Abhishek; Ermon, Stefano; Poole, Ben (10 February 2021). "Score-Based Generative Modeling through Stochastic Differential Equations". arXiv:2011.13456 [cs.LG]。
^ Gu, Shuyang; Chen, Dong; Bao, Jianmin; Wen, Fang; Zhang, Bo; Chen, Dongdong; Yuan, Lu; Guo, Baining (2021). "Vector Quantized Diffusion Model for Text-to-Image Synthesis". arXiv:2111.14822 [cs.CV]。
^ Croitoru, Florinel-Alin; Hondru, Vlad; Ionescu, Radu Tudor; Shah, Mubarak (2022). "Diffusion models in vision: A survey". arXiv:2209.04747 [cs.CV]。
^ Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya (2015-06-01). “Deep Unsupervised Learning using Nonequilibrium Thermodynamics” (英語). Proceedings of the 32nd International Conference on Machine Learning (PMLR) 37: 2256–2265. http://proceedings.mlr.press/v37/sohl-dickstein15.pdf.
^ “Introduction to Image Generation - Introduction to Image Generation”. Coursera. 2023年11月12日閲覧。
^ Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (2022). "Hierarchical Text-Conditional Image Generation with CLIP Latents". arXiv:2204.06125 [cs.CV]。
^ ^a ^b 岡野原 2023, pp. 109–110.
^ Dhariwal, Prafulla; Nichol, Alex (1 June 2021). "Diffusion Models Beat GANs on Image Synthesis". arXiv:2105.05233 [cs.LG]。
^ Ho, Jonathan; Salimans, Tim (25 July 2022). "Classifier-Free Diffusion Guidance". arXiv:2207.12598 [cs.LG]。
^ Nichol, Alex; Dhariwal, Prafulla; Ramesh, Aditya; Shyam, Pranav; Mishkin, Pamela; McGrew, Bob; Sutskever, Ilya; Chen, Mark (8 March 2022). "GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models". arXiv:2112.10741 [cs.CV]。
^ Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (12 April 2022). "Hierarchical Text-Conditional Image Generation with CLIP Latents". arXiv:2204.06125 [cs.CV]。
^ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara; Lopes, Rapha Gontijo; Salimans, Tim; Ho, Jonathan; Fleet, David J.; Norouzi, Mohammad (23 May 2022). "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". arXiv:2205.11487 [cs.CV]。