拡散モデルとは

共同執筆者

Senior Staff Writer, AI Models

IBM Think

Staff Editor, AI Models

IBM Think

拡散モデルとは

拡散モデルは、主に画像生成やその他のコンピューター・ビジョンのタスクに使用される生成モデルです。拡散ベースのニューラル・ネットワークは、ディープラーニングを通じてトレーニングされ、ランダムなノイズを含むサンプルを徐々に「拡散」させてから、その拡散プロセスを逆に実行することで高品質の画像を生成します。

拡散モデルは、生成AIの最前線であるニューラル・ネットワークの 1 つであり、特にStability AIの Stable Diffusion、OpenAI の DALL-E（DALL-E-2 以降）、Midjourney、GoogleのImagenなどの人気のテキスト画像変換モデルでよく知られています。これらは変分オートエンコーダ（VAE）、生成的敵対ネットワーク（GAN）、またPixelCNNをはじめとする自己回帰モデルなど、画像合成に使用される他の機械学習アーキテクチャの性能と安定性を向上させたものです。

拡散モデルの基本的なアイデアは物理学からインスピレーションを得たもので、時間の経過とともにコップ一杯の水に広がる一滴のインクの分子のようなものとしてピクセルを考えます。インクの分子のランダムな動きが最終的にガラス内に均等に分散するのと同様、画像にノイズをランダムに導入していくと、最終的にはテレビのホワイトノイズのように見えるようになります。その拡散プロセスをモデル化し、それを逆転させる方法を何らかの方法で学習することで、人工知能モデルはランダムなノイズのサンプルを単に「ノイズ除去」するだけで新しい画像を生成できるのです。

拡散モデルは、画像生成の他、加筆や解像度向上などの画像処理タスクに最も顕著に関連するものですが、その用途は音声生成、医薬品設計、分子生成などの他の領域にも及んでいます。わかりやすくするために、この記事では画像生成に焦点を当てます。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

拡散モデルの歴史と理論

拡散モデルを説明し理解するためにまず押さえておくべき点は、現在「拡散」と呼ばれている生成プロセスが、2つの異なる数学的アプローチを通じて、2つの別個の機会に独立して発見されたものであるということです。要するに、概念的には単純ながら数学的には複雑な拡散モデルの「動作」方法は複数存在します。

開発が進むにつれ、両方のアプローチからアイデアを借用し、それぞれの利点を融合させて、最終的に現在画像生成の分野で支配的な最新の拡散モデルが生まれました。したがって、拡散モデルの歴史と理論を簡単に確認するこことで、拡散モデルがどのように機能するかだけでなく、なぜ機能するのかについても理解しやすくなります。

熱力学にヒントを得たディープラーニング・モデル

物理学にインスピレーションを得た拡散モデルは、Sohl-Dicksteinらが2015年の論文「Deep Unsupervised Learning using Nonquilibrium Thirdynamics」で初めて紹介しました。彼らのアルゴリズムはランジュバン動力学を応用したものです。これは分子システムの運動をモデル化する手法であり、拡散モデルの基本前提「データをノイズに変換すれば、ノイズをデータに変換できるようになる」を裏付けるものです。

確率密度関数に関する備考

変分オートエンコーダ（VAE）などのほとんどの生成モデルと同様、Sohl-Dicksteinのアルゴリズムは、確率密度、つまりランダムにサンプリングされた変数xが特定の値の範囲内に入る相対尤度をモデル化したものでした。基本的には、トレーニング・データ・セットの確率密度関数をモデル化することで、アルゴリズムはトレーニング・データの分布に適合する可能性の高いサンプルを生成できるようになります。新しい画像を生成する際、モデルは、学習データのパターンから学習した確率分布に基づいて、ピクセル値がある特定の方法で分布する確率が高いと推定しています。

論理的には、確率密度関数ではすべての可能性の合計が1になる尤度が必要です。別の言い方をすれば、すべての可能性の確率の合計は、ちょうど100%にならなければいけません。このため、実用では多くの場合に正規化定数（確率関数に組み込まれ、全確率を1にまで減少させるための値）が必要になります。

すべての可能な変数値に対する有効な正規化定数の計算は、しばしば手に負えない（イントラクタブル）となります。つまり理論上は解決できるものの、計算に無限の時間が必要になるということです。このような場合、尤度ベースのモデルは、特定のモデル・アーキテクチャーに制限するか、正規化定数を解決可能な方法で近似させる優れた次善策を考え出す必要があります。

スコアベースの生成モデル

Sohl-Dickstein氏の研究とは別に、Yang SongとStefano Ermonは、2019年の論文「Generative Modeling by Estimating Gradients of the Data Distribution」で、ノイズ条件付きスコア・ネットワークと呼ばれる一種のエネルギー・ベース・モデルを開発しました。このアルゴリズムは、確率密度関数の対数の勾配（∇_x）をモデル化したものです（対数： $l o g$ 、確率密度関数： $p (x)$ ）。確率密度関数の勾配は、次のように記述されます。 $\nabla_{x} \log p (x)$ これはSteinスコア 、あるいはシンプルに「スコア関数」と呼ばれます。

従来の確率密度関数とは異なり、スコア関数は確率密度を直接モデル化したものではない（したがって全確率を 1 に正規化する必要がない）ため、正規化定数が必要ありません。代わりに、スコア・マッチングを通じたトレーニングを行います。ここではモデルがパラメーターθを学習することで、 スコア（つまり勾配）が学習データのデータ分布 q （ x ）と一致する p_θ （ x ）を得ることができます。

このようなスコアベースの生成モデル（SGM）のもう1つの利点は、尤度ベースのモデルとは異なり、 p _θ （ x ）のモデル・アーキテクチャーに多くの制限がかからないということです。

SongとErmonは、自分たちのモデルの性能を向上させる方法を模索し、偶然にもSohl-Dicksteinらが採用したのと同じ手法にたどり着きました。彼らの論文では、「ランダムなガウスノイズでデータを乱すと、データ分布はコアベースの生成モデリングにさらに適したものになる」と述べられています。彼らのモデルは、当初は画像セグメンテーションのために開発されたU-Net アーキテクチャを使用して構築され、同様にランジュバン動力学を応用してサンプルを生成していました。

ノイズ除去拡散確率モデル（DDPM）

2020年、Hoらは、その画期的な論文「Denoising diffusion probabilistic models」（DDPM）の中で、Sohl-Dicksteinのアプローチを用いて、高品質の画像生成に変分推論を使用することを提案しました。彼らの論文は、証拠下限値（ELBO）を最大化して拡散モデルをトレーニングすること（確率ベースの最適化問題を解決可能な形で書き直す手法のひとつ）が、SGMをトレーニングするために使用されるスコアマッチング目標の組み合わせと本質的に同等であることを示しました。

Hoらはスコアマッチングを用いたSohl-Dicksteinのアプローチを取り入れることで、拡散確率モデルが、当時最先端だったGANに匹敵する画質を達成できることを実証しました。こうしたつながりは、Song、Ermon、Sohl-Dickstein、VAEの創設者であるDieterik P. Kingma氏を含むその他の研究者によって、2021年の論文「Score-Based Generative Modeling over Stochastic Dependial Equations（確率的差分方程式によるスコアベース生成モデリング）」でさらに検討されました。

その後、同年中にDariwalとNicholが前述の論文の洞察を活用して、「Diffusion Models Beat GANs on Image Synthesis」を発表し、拡散モデルを新しい最先端技術として確立しました。

継続的な研究による改良あってこそとはいえ、一般にSGMよりはDDPMが拡散モデルの主流であり続けています例えば、2022年に発表された影響力ある論文「High-Resolution Image Synthesis with Latent Diffusion Models（潜在拡散モデルによる高解像度画像合成）」では、効率性と費用対効果における重要な進歩がありました。

AI Academy

ビジネス向け生成AIの台頭

生成AIの発展と現在のビジネスへの影響について学びます。

エピソードに移動

拡散モデルの仕組み

拡散モデルは学習において、ランダムなノイズでデータ点を破壊するまで段階的に徐々に拡散させ、その後、その拡散プロセスを逆行することを学習し、元のデータ分布を再構築します。

訓練された拡散モデルは、純粋なノイズのランダムな初期サンプルをノイズ除去 するだけで、訓練データに似た新しいデータ点を生成することができます。概念的には、これはノイズの多い画像が潜在変数として機能するノイズ除去オートエンコーダーに近いものです。

ランダムなノイズを一貫性のある画像に直接変換するのは非常に難しく複雑ですが、ノイズの多い画像を少しでもノイズの少ない画像に変換するのは比較的簡単で単純です。したがって拡散モデルは、拡散を逆行するプロセスを、（ガウスノイズのような）単純な分布から（一貫性のある画像のような）より複雑な分布への、段階的で漸進的な変換として定式化します。

トレーニングとその後の拡散のデプロイのプロセスは、3つの主要なステージに分類できます。

順拡散プロセス。ここではトレーニングデータセット内の1つの画像が、純粋なノイズ（通常はガウス分布）に変換されます。
逆拡散プロセス。ここではモデルが、元の順拡散プロセスのステップを1つずつ逆にさかのぼって学習します。
画像生成。 学習済みモデルは、ランダムなノイズ分布をサンプリングし、学習した逆拡散プロセスを使用して、ガウスノイズのランダムなサンプルをノイズ除去することにより、高品質な出力に変換します。

順拡散プロセス

順拡散プロセスの目的は、画像や音声サンプルなどのトレーニング・データセットのクリーンなデータを純粋なノイズに変換することです。最も一般的な方法では、データ分布全体がガウスになるまで、ガウス・ノイズを繰り返し注入します。

数学的にはこの段階的なプロセスはマルコフ連鎖として定式化されます。これは逐次時系列データをモデル化するための確率的プロセス（特定の確率的ルールに従うランダムプロセス）の一種です。マルコフ連鎖では、各時間ステップの結果は、その直前の時間ステップの影響のみを受けます。簡単に言うと、x_t 、つまり時間ステップtにおけるマルコフ連鎖xの状態は、x_t-1のみによって直接的な影響を受けます。任意のx_t からx_t+1までの移行を定義する数学的関数は遷移核と呼ばれます。

各タイムステップtでは、少量のガウス・ノイズがx _t-1で追加されています。これによりランダムなピクセルが継続的に追加されるにもかかわらず、画像は一定のサイズを維持するために再スケーリングされます。この定式化においてはx₀が元のクリーンなデータポイントとなります。またx ₁は最初の時間ステップ後のデータ・ポイントであり、少量のガウス・ノイズが生じています。順拡散プロセスの最終状態はx _Tです。T が十分に大きい場合、つまり十分なステップの後、x_T は純粋なガウス・ノイズに収束します。

順拡散の各ステップは次のように定義されます $q (x_{t} | x_{t - 1}) :$ は、q（x_t-1）が与えられるとデータ分布q（x_t）の状態を予測します。標準的なDDPMでは、この順拡散プロセスには機械学習は関与しません。マルコフ連鎖の最終結果は常にガウス分布であるため、最適化は必要ありません。

ノイズの追加

DDPMでは、マルコフ連鎖の各ステップで追加されるガウスノイズは一定でもなければ、恣意的なものでもありません。ノイズは元の画像の構造に由来しており、それが追加される速度は連続するステップごとに着実に増加していきます。

ノイズの量にばらつきを持たせると、2つの競合する優先順位のバランスをとることができ、モデルのトレーニングの安定性が改善され、全体的な性能が向上します。Yang Songは、スコアベースの生成モデルに関するブログ記事で次のように述べています。

より大きいノイズはトレーニング・データの「低密度」領域で、つまりトレーニング・データ内での表現物が少ないビジュアル・カテゴリーやコンセプトに対してノイズの多いデータを入力することで、モデルの学習精度を高めることができます。しかし、データが過度に破損し、全体的な精度が低下する可能性もあります。
ノイズが小さいほど、元のデータ分布の破損は少ないものの、密度の低い領域では性能が低下します。
そのため、両方の長所を生かすために、拡散モデルはトレーニングで複数のスケールのノイズを使用します。

ご存じかもしれませんが、ガウス分布（正規分布）には平均 $μ$ と、分散 $Σ$ の2つがあります。さらにもう一つのパラメータβが、順マルコフ連鎖の各ステップを定義する遷移核でのガウスノイズの平均・分散のスケールファクタとして機能します。あるステップでβ値を変えることで、そのステップで加えられるガウスノイズが変化します。β ₁が時間ステップ1における分散です。β _tはβ_Tに至るまでのタイムステップtの分散を示します。

各ステップでの βのレート値は、分散スケジュールによって決定されます。

分散スケジュール

各ステップtで、画像は前ステップの反復から（平均に応じて）わずかに移動し、この移動したバージョンの画像に（分散に応じて）ノイズが追加されます。各シフトとノイズの追加の規模は、βtの値によって決定されます。差異スケジュールに従ってβtが増加するにつれ、結果として、拡散率が着実に増加します。βは常に0～1の間の値を取ります。つまり、0 < β₁ < β₂ < … < β_T <1となります。

βの具体的な分散スケジュールの選択は重要な考慮事項です。通常はハイパーパラメータとして手動で設定し、定数値に固定するか、あらかじめ決められたβの開始値と終了値を持つ数式に従って変動させます。DDPMの論文では、Hoらは β₁ = 10^-4 、およびβ_T = 0.02である1,000ステップの線形スケジュールを使用しました。その後の研究では、コサインスケジュール^[1]などの他の種類のスケジュールや、スケジュール自体を別の学習パラメータにすることで性能と効率が向上することが分かりました。^[2]

β_t の値は、ステップtで追加されたガウス・ノイズの平均と分散の両方を決定します。

平均 $μ$ タイムステップtで追加されたガウスノイズの平均 $μ_{t}$ は次のように計算されます。 $μ_{t} = (1 - β_{t}) x_{t - 1}$ 。平易な言葉で言えば、各ステップtで追加されるノイズの平均は、単に前のステップの画像を拡張したバージョンであるx _t-1となります。β _tのサイズは、この平均が前のステップからどの程度逸脱しているかを決定します。 β _tが非常に小さい場合、この変化は非常にわずかです。なぜなら $(1 - β_{t}) \approx (1 - 0) \approx 1$ となり、追加されるノイズは元の画像によく似たものとなるからです。β_tの値が増加するにつれ、この変化はより顕著なものになります。
時間ステップt で追加されたガウス・ノイズの分散は、次のように計算されます。 $Σ_{t} = β_{t} I$ ここで、 $I$ は単位行列です。β_tが大きいほどノイズが増えます。β_tが極めて小さい場合、ノイズはほとんどなくなります。

要約すると、
各ステップ t で、画像は前ステップの反復から（平均に応じて）わずかに移動し、この移動したバージョンのイメージに（分散に応じて）ノイズが追加されます。各シフトとノイズの追加の規模は、 β _tの値によって決定されます。差異スケジュールに従って_βが増加するにつれ、結果として、拡散率が着実に増加します。

ガウス・ノイズの追加は少しずつに始まり、ノイズ自体も常に前のステップでの元の画像の基本構造から引き出されるため、元の画像の基本的な性質は多くのステップで保持されます。これにより、逆拡散のプロセスでモデルが元のデータ分布のパターンと構造を意味のある形で学習できるようになります。

再パラメーター化法

この段階的なプロセスの欠点の一つが、煩雑で計算コストが高くつくということです。トレーニングデータセットには何千枚、何百万枚もの画像が含まれている可能性がありますが、順方向の処理ではその一枚一枚の画像について何十、何百もの個別のステップが必要になります。

ノイズを繰り返し加える代わりに、次の式をパラメータ化すること で、準拡散プロセスの式をより効率的なものに書き換えることができます。 $1 - β_{t}$ を、新しいパラメータとして $α_{t}$ と書き換えます。マルコフ連鎖の「素晴らしい特性」により、この新しいパラメータはさらに追加のパラメータへと拡張することができます。 ${\bar{α}}_{t}$ が、その時点までのチェーン内の順方向の各ステップでの $α_{t}$ の反復乗算から導出されます。この追加のパラメーターは、基本的にx _tの信号対ノイズ比（SNR）、つまり時間ステップtで元の画像がどれだけ残るかを反映します。

たとえば、x₁では、少量のノイズが1回追加されています。の値は、 ${\bar{α}}_{t}$ の値は1に近いため、画像では元の「シグナル」のほとんどが保持されています。x ₅₀などの後のステップでは、何度もノイズが加えられています。なぜなら $α_{t} = 1 - β_{t}$ の値です $α_{t}$ の値は常に1未満であるためです。それ以降は ${\bar{α}}_{50} = α_{1} ∙ α_{2} ∙ . . . ∙ α_{49} ∙ α_{50}$ の値です ${\bar{α}}_{t}$ ステップ50では0にさらに近づき、元の画像の多くがノイズに置き換えられていることを意味します。タイムステップTにおけるx_Tは完全にノイズであり、 ${\bar{α}}_{t}$ 0に近似します。

方程式の複雑な導関数はこの記事の対象範囲を超えますが、この再パラメーター化トリックの重要性を理解するための重要なポイントは2つあります。

任意のタイムステップtにおけるxの状態は、 $x_{t} = \sqrt{{\bar{α}}_{t}} ∙ x_{0} + \sqrt{1 - {\bar{α}}_{t}} ∙ ε_{0}$ ここで、 $ε_{0}$ は、最初のステップで追加されたノイズです。ここで ${\bar{α}}_{t}$ の値がステップごとに減少し、 x ₀の影響が減少し、 ε ₀の影響が増加します。
なぜなら ${\bar{α}}_{t}$ は $1 - β_{t}$ および、 $β_{t}$ の値は分散スケジュールによって決定されているため、この方法で式を書き直すと、段階を踏んだ順拡散のプロセスを経ることなく、任意の時間ステップ T での XTを直接計算できます。

逆拡散プロセス

拡散モデルでは、逆拡散プロセスで実際の機械学習が行われます。順拡散プロセスの逆のノイズ処理を実行する学習において、モデルは基本的に純粋なガウス・ノイズをクリーンな画像になるまでノイズ除去する方法を学習しています。ニューラル・ネットワークのトレーニングが完了したら、この機能を使用して、段階を踏んだ逆拡散を通じてガウス・ノイズから新しい画像を生成できます。

理論的には、モデルのタスクは順拡散の単純な逆と考えることができます。トレーニング・データ・セットの実データ分布 q （ x ）からサンプリングされたデータ・ポイント x₀から始まる準拡散プロセスは、次のように定義されます。 $q (x_{t} | x_{t - 1})$ ：つまり、 $q (x_{t - 1})$ を得て $q (x_{t})$ を計算します。その反対の逆拡散は、 $q (x_{t - 1} | x_{t})$ と定義されます。しかし実際には $q (x_{t - 1} | x_{t})$ はイントラクタブルです。

代わりに、トレーニング・タスクは次の2つの次善策を通じて定式化されます。

前述のように、 q（x）については、実際の拡散モデル自体を構成するニューラル・ネットワークによりp _θ ( x )で近似値を計算しています。トレーニングの目標は、モデルパラメータθ （ p_θ( $x_{t - 1} | x_{t}$ )のアウトプットを形成する）を q ( $x_{t - 1} | x_{t}$ ).
このモデルp _θ ( x ) は $x_{t - 1}$ を直接予測するわけではなく、x _t-1とx _tの間に追加された特定のノイズでもありません。代わりに、モデルは存在するノイズ全体を予測します。 x _tの値に基づいて、そのノイズの一部（そのステップでの分散スケジュールの状態に基づいて）を除去し、 x _t-1にします。元のDDPM論文では、ガウス・ノイズの平均のみを推定してこのプロセスをさらに簡略化していましたが、最近のモデルはしばしば分散も予測します。

順拡散に追加されるガウス・ノイズの平均が恣意的なものではないことをもう一度思い出してください。たしかに実際にはランダムですが、ノイズの構造は最初は元の画像x ₀の構造から派生しています。したがって、逆拡散を通じてノイズの正確な予測を学習することで、モデルは画像のノイズ除去を学習するだけでなく、暗黙的にx ₀の構造も学習します。

拡散モデル・トレーニングの損失関数

拡散モデルに使用される具体的なトレーニング目標は、変分オートエンコーダ（VAE）の最適化に使用される再構成誤差項と密接に関連しています。VAEと同様に、拡散モデルは、複数の誤差項の組み合わせの変分下限（VLB）（証拠下限（ELBO）とも呼ばれます）を最大化することで最適化されます。

VLBの最大化は変分推論で使用され、処理不可能なスコア関数の近似値を出します。 $\nabla_{x} \log (p (x))$ 誤差を直接最小化する代わりに、モデル予測精度の最小推定値（または下限値）を最大化する方程式として再定式化します。

使用される誤差項はそれぞれ、 qの順拡散ステップの結果と、p _θによって予測された逆方向ステップの結果との間のカルバック・ライブラー情報量（または「KL情報量」、通常はD _KLと表記される）を反映します。KL情報量は、2つの確率分布（たとえば、1つの画像のピクセル値の分布と別の画像のピクセル値の分布）の差を測定するために使用されます。

具体的には、拡散モデルの誤差関数は3つの誤差項：L _T 、 L _t、L ₀を組み合わせています。

L_Tは、qと $(x_{T} | x_{0})$ p _θ ( x _T )の間のKL情報量を反映しています。言い換えれば、これは全面的にノイズ化された順方向プロセスの最終結果qと、逆方向プロセスの開始点との差です。x_T はガウス分布であり、qには学習可能なパラメーターがないため、この項は一般に無視できます。
L _tは、それぞれのステップでのKLと $q (x_{t - 1} | x_{t}, x_{0})$ 、 $p_{θ} (x_{t - 1} | x_{t})$ の間のKL情報量を反映します。言い換えると、逆拡散での各p_θのノイズ除去予測の精度は、元の画像 x ₀の順拡散プロセスでそれぞれ対応するノイズのステップと比較したものです。
L ₀は $- \log p_{θ} (x_{0} | x_{1})$ を測定します。言い換えると、 L₀は、モデルによる完全にノイズ除去されたイメージの予測の負の対数尤度 x₀ を反映しています。L₀ の勾配は、この記事で前述したスコア一致の項です。誤差項は負なので、損失関数を最小化することは、モデルの予測値の尤度を最大化することと等価になります。

その複雑な数学的導出はこの記事の範囲を超えるものの、VLBは最終的にはモデルによって予測されるノイズと 平均二乗誤差（MSE ）に簡略化することができます。 $ε_{θ}$ であり、準各線で加えられる真のノイズは各タイムステップで 、 $ε$ となります。これは、モデルの出力がノイズ除去された画像自体ではなく、各ステップでのノイズの予測である理由を説明しています。

逆伝搬中に誤差関数の勾配を計算し、勾配降下法を通じて誤差関数を最小化するようにモデルの重みを調整することで、トレーニング・データ・セット全体にわたるモデルの予測がより正確になります。

拡散モデルを使用した画像生成

拡散モデルが各ステップで除去されるノイズを正確に推定することを学習すると、これを使用して、このモデルが学習したデータ分布からノイズの多いランダムな画像x _Tをサンプリングし、Tステップでノイズ除去することで、新しい画像を生成できます。 VAEと同様に、サンプリング・プロセスにわずかなランダム性の要素を導入することで、拡散モデルはトレーニング画像を直接再現するのではなく、トレーニング・データに似た新しい画像を生成することができます。

逆拡散トレーニング・プロセスとは異なり、生成プロセスのステップ量は順方向プロセスで使用されるステップ量と一致する必要はありません。これが可能なのは、各画像ステップで除去すべき特定のノイズ量ではなく、ノイズ全体を 予測するようにモデルが訓練されているからです。

ステップ数が少ないほど速度は上がり、計算要求が少なくなりますが、細部でトレードオフが発生する可能性があります。一般にステップ数が多いほど精度は向上しますが、引き換えに速度の低下と計算コストの増加が起こります。

ガイド付き拡散モデル

標準的な拡散モデルは、トレーニング画像の高品質なバリエーションをランダムに生成することができますが、画像生成モデルの実用的な用途では、ほとんどの場合、モデルのアウトプットをある程度制御する必要があります。ガイド付き拡散モデルを使用すると、ユーザーは生成された画像を具体的なガイダンスで調整できます。

最も一般的な形式のガイド付き拡散モデルは、Text-to-Image（テキストから画像へ）の拡散モデルで、ユーザーが「帽子をかぶったキリン」などのテキストによるプロンプトを使用して出力を条件付けすることができます。これは、拡散モデルを別の大規模言語モデル（LLM）と組み合わせてテキスト・プロンプトを解釈するもので、Googleが初めて導入した論文「Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding（深い言語理解を用いたテキストから写実的画像への拡散モデル）」で最初に紹介されました。

標準的な拡散モデルは、無条件スコア関数∇xlogp(x)を予測することを目的としています。つまり、モデルpによって生成された画像xがトレーニングデータxに適合する尤度の対数の勾配です。ガイド付き拡散モデルは、特定の視覚カテゴリーyを導入し、条件付きスコア関数 ∇xlogp(x|y) を予測します。言い換えれば、カテゴリーyに適合する必要があると仮定する画像xの尤度です。

ガイド付き拡散の方法は、次の2つのカテゴリーに分類できます。

分類器による誘導拡散 では、拡散モデルが画像生成を学習するそれぞれのカテゴリーyに対して、ベクトル埋め込みを学習するための別個の分類器モデルが必要です。このベクトル埋め込みは、各ステップtでのアウトプットの条件付けに使われます。拡散モデルには追加のトレーニングは必要ありませんが、分類器が学習した特定のカテゴリーに関するアウトプットしか条件付けができません。
分類子を使用しないガイダンスでは、別個のモデルは必要ありませんが、条件付きガイダンス専用の2段階拡散モデルのトレーニングが必要です。これには通常、2段階のモデルが含まれます。最初の段階では、CLIPなどの埋め込みアルゴリズムによってプロンプトのための埋め込みyが生成されます。第2段階では、拡散モデルがその埋め込みを使用して出力を調整します。事前に追加のトレーニングを行う必要があるとはいえ、これは、未知の画像カテゴリーに対してゼロショット・ガイダンスを可能にするというメリットがあります。

潜在拡散モデル

従来の拡散モデルには高品質の画像を生成できる最先端の機能があるにもかかわらず、速度が遅いことと計算コストが高いという2つの重大な欠点があります。これらの欠点は、安定拡散に始まる潜在拡散モデルの登場によって大幅に軽減されました。

潜在拡散モデルの前提はシンプルで、やはり変分オートエンコーダー（VAE）とのつながりを利用するものです。モデルは、高次元のピクセル空間に（つまり、インプット画像に直接）拡散プロセスを適用するのではなく、まずインプットを低次元の潜在空間に投影し、そこで拡散プロセスを適用することができます。

本質的に、潜在拡散モデルは、VAEのようなオートエンコーダー・アーキテクチャーを採用してエンコーダーを訓練し、入力データxの潜在表現zを出力します。これらの潜在表現は、通常はU-Netアーキテクチャを使用する標準的な拡散モデルの入力として使用されます。拡散モデルは低次元データを処理しているため、その出力はデコーダー・ネットワークに送られ、目的の最終画像サイズまでアップサンプリングされます。

生成AI + MLの力を解き放つ

生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。