生成モデルとは

共同執筆者

Staff writer

生成モデルとは

生成モデルとは、トレーニング・データに類似した新しいデータを作成するように設計された機械学習モデルを指します。生成人工知能 (AI)モデルはトレーニング・データのパターンと分布を学習し、その理解を応用して、新規のインプットデータに応じて新たなコンテンツを生成します。

生成AIモデルとその他の種類のAIを区別するのが、コンテンツ生成という行為です。生成モデルは人間の脳の構造を模倣した高度なニューラル・ネットワークで、複雑な機械学習アルゴリズムを適用してトレーニング・データを処理し、新たなアウトプットを作り出します。

生成AIモデルとその開発者は、主に過去数年間のAI時代精神を牽引してきました。生成AIモデルは引き続きAI関連のニュースの大半を占め、大きな注目と投資を惹きつけています。

生成AIとは

生成AIはAIの一種で、洗練されたモデルを使用して入力プロンプトに応じた新しいコンテンツを生成します。生成モデルは、生成AIの実行を円滑化するためのデータとアルゴリズムを採用したコンピューター・プログラムです。生成AIのユースケースには、文章の要約、文章生成と画像生成、3Dモデリングや音声の作成などがあります。

生成モデルの仕組み

生成モデルは学習データのパターンや分布を特定し、その知見をユーザー・インプットに基づく新しいデータの生成に適用することで機能します。学習プロセスでは、学習データ・セット内の特徴の結合確率分布を認識するようモデルを指導します。その後、モデルは学習したことを基に、学習データと類似した新しいデータサンプルを作成します。

生成モデルは通常、教師なし学習の手法でトレーニングされます。つまりラベル付けされていないデータを大量に読み込み、それをモデル自身が分類します。モデルはデータの分布を把握して、新しいデータを作成するための内部ロジックを構築します。

トレーニング中、モデルは損失関数を適用して、実際の結果とモデルの予測との間のギャップを測定します。トレーニングの目標は、損失関数を最小化し、生成されるアウトプットを可能な限り現実に近づけることです。

コンテンツ生成は確率論的プロセスです。生成モデルは人間と同じやり方で物事を知ることはできません。代わりに生成モデルは複雑な数式を使用し、トレーニング中に学習したルールに基づいて最も可能性の高いアウトプットを予測します。

生成モデルと他のモデル・タイプの違い

生成モデルは特定のクラスの新しいデータを生成しようとします。識別モデルはアイテムを既知のグループに分離し、クラスタリング・モデルはデータ・セット内のアイテムをグループ化する方法を見つけ出します。予測モデルは履歴データを基に将来の出来事や状態を推定します。

識別モデルは、データのラベルやカテゴリーが既知である教師あり学習のタスクで使用されます。多くの識別モデルは分類器であり、データの特徴とラベルの関係を認識し、それらのラベルの条件付き確率に基づいて、新しいデータに分類ラベルを割り当てます。

例えば、魚と鳥の画像を区別するようにトレーニングされた識別モデルは、画像が魚と鳥のどちらである可能性が高いかを推測できます。画像認識は機械学習における分類の一種であり、識別モデルの一般的な用途です。

生成モデルと識別モデルには明確な違いがありますが、生成的敵対ネットワーク（GAN）などではしばしば連携して動作します。

クラスタリング・モデルは教師なし学習のタスクで使用され、データ・セット内のレコードをクラスターとしてグループ化します。類似したアイテムをまとめて識別できるほか、データ・セット内の他のグループとそれらのアイテムを区別する要素も学習します。

クラスタリング・モデルには、グループの数に関する知識を含め、データ・セット内のアイテムに関する事前知識はありません。市場調査の担当者であれば、クラスタリング・モデルを使用して、ターゲット層の購入者ペルソナを特定することができるでしょう。

予測モデルは機械学習と統計分析を使用して履歴データを処理し、将来の出来事を予測します。予測モデルはしばしばビジネス・リーダーによるデータ駆動型意思決定の支援に使用されます。また、予測テキストサービス、顔認識ソフトウェア、不正アクセス検知、サプライチェーン管理ソリューションにも使用されます。

生成モデルはトレーニング中にラベルのないデータを与えられ、分類の基準をリバースエンジニアリングで把握します。特定のラベルが与えられたら、どのような特徴のあるデータ・ポイントにそのラベルを割り当てることになるかを検討します。生成モデルはラベルの特徴を予測し、その特徴を使用して、該当するデータの新しい例の生成を試みます。

動物の画像を生成するようにトレーニングされた生成モデルであれば、魚が他の動物とどう異なるのかという特徴に基づいて、魚の画像を作成することができます。画像生成は生成モデルがよく用いられるユースケースです。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

生成モデルの種類

生成モデルは多くの種類が存在しており、それぞれが独自の定義アーキテクチャー、つまり仕組みを定めるモデル構造を有しています。深層生成モデルは生成モデルの下位分類で、多層ディープラーニング・ニューラル・ネットワーク構造（深層ニューラル・ネットワーク）を使用して、データ・セットの中のデータ・ポイント同士の複雑で多面的な関係を把握します。

自己回帰モデルは、過去のデータ・インスタンスに基づいてシーケンス内の次のデータ・ポイントを予測します。Transformerはコンテキストの処理能力が強化されているため、自然言語処理（NLP）タスクに秀でています。

拡散モデルは、データセットに徐々にノイズを加えて新しいデータを作成し、ノイズを除去して新しい出力を生み出す方法を見つけます。

GAN（敵対的生成ネットワーク）は、識別モデルと生成モデルを組み合わせて使用し、互いに競い合わせます。生成モデルによって識別モデルを欺くアウトプットを作成することを目標とします。

変分オート・エンコーダー（VAE）は、エンコーダーでインプット・データを圧縮し、デコーダーでそのプロセスを逆転させて、新しい類似データを作成します。

フローベース・モデルは、可逆的な数学的操作を通じて、データの単純な分布と複雑な分布の関係を学習します。

自己回帰モデル

自己回帰モデルは、前の項目に基づいてシーケンス内の次の項目を予測します。シーケンス内のコンポーネントを評価して、それらの間の確率的相関関係を決定し、その情報を使用して、後に続く可能性のある新しいコンポーネントを特定します。

自己回帰は線形回帰の一種で、1つまたは複数の変数の値に基づいて変数の値を予測する統計的手法です。自己回帰は対象とする変数のみに焦点を絞りますが、時間の経過に合わせその値を検討します。自己回帰は定義された値を予測するという点でロジスティック回帰とは異なり、後者は指定された出来事が発生する確率をパーセントで予測します。

自己回帰モデルは、リカント・ニューラル・ネットワーク（RNN）またはTransformerアーキテクチャーの形をとります。

トランスフォーマーモデル

2017年¹に初めて登場したTransformerモデルは、それまで自己回帰モデルの代表格であったRNNをすぐに凌駕しました。Transformerは、RNNの顕著な弱点のいくつかに対応するものでした。例えばRNNは、長距離依存関係（シーケンス内で距離が離れているアイテムの間の関係）を捉えるのを苦手としており、また各アイテムを1つずつ順番に処理するため、コンピューティング効率が低かったのです。

Transformerは、RNNを超えてアーキテクチャーを飛躍させた2つのイノベーションを導入し、生成AIにおける大規模言語モデル（LLM）の事実上の標準となりました。

並列処理：Transformerはシーケンス内の全アイテムを同時に処理するため、逐次的に処理するRNNよりも効率が向上します。特にLLMの最高性能に必要な大規模データセットを、より短時間で学習することが可能です。

自己注意メカニズム：Transformerは、アイテムを処理する際、シーケンス内のすべてのアイテムの相対的な重要性を考慮することができます。自己注意によって、Transformerはシーケンス内で互いに離れているアイテムの間の重要な関係を把握できるようになり、RNNでは不可能だったコンテキストの理解が可能になります。大規模なインプットシーケンス全体のコンテキストを処理できるため、Transformerは文書生成や言語翻訳などの自然言語処理（NLP）タスクに優れています。

3種類のTransformerモデル（エンコーダー、デコーダー、エンコーダー-デコーダー）のうち、後者の2つは自己回帰コンポーネントを含みます。デコーダーは生成コンポーネントであり、自己回帰を使用して、過去に生成されたトークンに基づいてトークンを生成します。

自己回帰モデルのユースケース

自己回帰モデル、特にTransformerは現在広く使用されています。OpenAIのGPTとGPT-4o、 Anthropic社のClaude、 Meta社のLlama、Google社のGemini、IBMのGraniteなど、主要な生成AIモデルの多くがTransformerです。

自己回帰モデルのユースケースには以下のものがあります。

自然言語処理：Transformerは複雑な自然言語クエリーを処理し、自動テキスト生成により会話形式で応答できるため、チャットボットとしての使用に最適です。例えばChatGPTは、OpenAIのGPT生成モデルをチャットボットに実装したものです。その他の自然言語処理（NLP）用途としては、感情分析、音声認識、Text to Speech（TTS）アプリケーション、文書の要約などがあります。

コーディングのサポート：Transformerをテキスト生成に秀でたものにしているのと同じ自己回帰機能で、コードのデバッグやコード・スニペットの生成も可能です。

時系列予測： 自己回帰は、モデルが過去の傾向に基づいて将来の値を予測する時系列予測に簡単に応用できます。時系列予測は、財務モデリング、市場予測、天気予報に頻繁に使用されます。

強化学習：Transformerは、自律的な意思決定を教える機械学習トレーニング手法である強化学習で使用され始めています。また、分類タスクにも応用されています。

拡散モデル

拡散モデルは、インプットしたデータにノイズを追加して徐々に難読化（拡散）させた後、このノイズの塊を洗練させて、インプットと類似した新しいデータにします。このモデルはトレーニング用データ・セットに類似したデータへとノイズを洗練させる過程を学習することで、新しいデータを生成します。拡散モデルは次の3段階のプロセスで動作します。

ステップ1：拡散：トレーニング中、モデルはインプット・データが認識できなくなるまで徐々にノイズを導入します。このモデルはマルコフ連鎖として知られる数学的プロセスの各ステップで、データに少量のガウス・ノイズを追加します。

この拡散プロセスは、ギタリストがアンプのゲイン調整つまみをゆっくりと上げていき、ギターの音を純粋なホワイトノイズの壁にしていくようなものです。ロック・ギタリストはこうして音楽に歪んだサウンドを取り入れていますが、ここまで極端にノイズをかけることは通常はありません。

ステップ2：学習：モデルは破壊されたデータの変化過程をたどり、ノイズ付加のプロセスでデータがどのように変更されていったかを理解します。拡散モデルはノイズ付加の各段階について学習プロセスを繰り返します。

ステップ3：逆拡散：ノイズがどのようにデータを変化させるかを理解することで、拡散モデルはノイズプロセスを逆行させてインプット・データを再構成することを学習します。逆拡散の目標は、マルコフ連鎖を逆行させ、純粋なデータだけが残るまでガウスノイズを除去することです。つまりステップ1で登場したギタリストは、バンドメンバーから厳しい叱責を受け、許容できるレベルまでゲインを下げていきます。

ステップ1と2は、拡散モデルをトレーニングするために適用されます。トレーニング後、拡散モデルはランダムなノイズを逆拡散することでデータを生成し、ユーザーのプロンプトによって要求されたデータを「発見」します。

拡散モデルのユースケース

拡散モデルは画像生成にしばしば使用されますが、他にも代表的なユースケースがあります。拡散モデルの用途には次のものがあります。

画像生成： 拡散モデルは、Midjourney、Stable Diffusion、OpenAIのDALL-E 2など、主な画像生成ツールや画像合成ツールに利用されています。これらのモデルはユーザーのプロンプトに応じて画像を生成します。拡散モデルは、人間の顔なども含めた高品質のリアルな画像を生成できます。

米国著作権局は2023年、AIが生成した画像には著作権保護の資格がないとの判断を示しました。一方、現在進行中の多数の訴訟²から、今後AIが生成した画像が著作権侵害と見なされるかどうかが決まるでしょう。

InpaintとOutpaint：Inpaintは画像内のコンテンツを追加または削除するプロセスで、Outpaintは画像を元の境界を越えて拡張させます。

3Dモデリング： GoogleのDreamFusionやNVIDIAのMagic3Dは、文章のインプットから3Dモデルを作成する拡散モデルです。

市場調査：拡散モデルは時間の経過とともに物事がどのように進化するかを示し、消費者が製品にどのように反応するかを理解するのに役立ちます。

異常検知： 拡散モデルは時間の経過とともにデータがどのように変化するかを学習できることから、データ・ポイントが通常の傾向から外れている場合を把握することができます。異常検知の用途としては、サイバーセキュリティー、不正防止、病気の検知などがあります。

敵対的生成ネットワーク（GAN）

2014年に登場した敵対的生成ネットワーク（GAN）は、2つのモデルをペアにして互いに競い合わせる最初期の生成AIモデルタイプの1つです。生成モデルがアウトプットを作成し、識別モデルがそれを本物または偽物と判断します。この競争の目標は、識別モデルが本物と判断するコンテンツを生成モデルが生成することです。

生成モデルを美術品の贋作者とすると、識別モデルは鑑定士です。美術商は偽造品を入手して美術館に売ろうとするかもしれませんが、作品が鑑定で承認されるまでは得ることはできません。贋作者が巨匠をうまく模倣できるようになれば、鑑定者はその偽造品を検知するのに苦労するかもしれません。やがて美術館では偽造品を展示する展覧会が開催されるでしょう。

リアルなアウトプットを可能にする同じ学習プロセスから、モード崩壊が発生することがあります。この場合は生成モデルがトレーニングデータの一部を除外し、狭い範囲のサンプルタイプのみを処理するようになります。拡散モデルやTransformerと同様、GANが効果的な性能を発揮するには、膨大な学習用データ・セットが必要です。

GANのネットワークは多くの場合、どちらも畳み込みニューラル・ネットワーク（CNN）です。これは初期タイプのニューラル・ネットワークで、コンピューター・ビジョンのタスクにおいて高い性能を発揮します。

GANのユースケース

GANは、主にコンピューター・ビジョンの分野やその他のグラフィック関連タスクで使用されます。

コンピューター・ビジョン：コンピューター・ビジョンでは、画像からの情報を処理するために機械学習を使用します。一般的なコンピューター・ビジョンのタスクには、物体の検知と分類、顔認識、手話の翻訳、物体の追跡などがあります。

画像生成：リアルな画像の生成では拡散モデルよりもGANが優れており、またトレーニング時間が短く計算効率も高くなっています。一方で拡散モデルはより細やかな制御が可能で、汎用性と安定性に優れています。Diffusion-GANフレームワーク³では拡散モデルを使用してGANをトレーニングし、両方のモデルタイプのメリットを最大限に活かしています。

異常検知： 正常なデータ・セットを生成するようにトレーニングすれば、異常検知のタスクにGANを応用できます。GANに実世界のデータをモデルにした合成データ・セットを作成させ、正常なデータ・セットと比較することで異常を目立たせます。また識別モデルは、偽物である可能性がより高い特定のデータ・ポイントを宣言して異常を検知することもできます。

データ拡張：データ拡張（既存のデータを使用してより多くのデータ・サンプルを作成すること）により、CNNによるコンピューター・ビジョンの性能をさらに向上させることができます。このプロセスではデータをゼロから生成するのではなく、実際のデータを拡張するという点で、合成データとは異なります。

データ拡張の例

変分オートエンコーダー（VAE）

変分オートエンコーダー（VAE）は、インプット・データを圧縮し、その圧縮を拡張またはデコードして、新しい類似データを生成します。VAEはトレーニング・データ・セットの分布を学習し、エンコードされたサンプルから新しいデータを生成する際にその期待値を適用します。すべてのオートエンコーダーと同様、VAEはエンコーダーとデコーダーの2つのコンポーネントで構成されます。

エンコーダーの仕事は、データ・セット内の潜在変数を学習することです。潜在変数は直接観測できるものではありませんが、データ分布内で重要な役割を果たします。潜在空間は、データセット内のすべての潜在変数の総称です。エンコーダーは、データを正確に再構成するために必要な情報をすべて捕捉する形で、潜在空間をモデル化します。他の変数はすべて除外されます。

デコーダーは、ボトルネックと呼ばれるデータの圧縮表現を取得し、そこからデータの元の形式を推定します。デコーダーが効果的に動作すれば、圧縮前の元データと同様のアウトプットを生成します。

VAEのユースケース

VAEは、拡散モデルやGANと比較すると画像生成タスクには向きませんが、他の分野では優れています。

画像生成：VAEは画像生成に使用できますが、主流の画像生成アプリケーションによって大部分が拡散モデルに取って代わられました。他の画像生成アプリケーションと比較すると、VAEは潜在空間の「平均化」により、よりぼやけた画像を生成する傾向があります。

ゲノミクス：VAEは、遺伝学者が繁殖価（ある動物の子孫に遺伝する価の予測値）を計算したり、病気のリスクスコアを割り出したりするのに役立ちます。

異常検知：VAEはGANや拡散モデルよりも安価でトレーニングが容易なため、異常検知タスクには魅力的な選択肢です。再作成されたデータを元のデータと比較し、予測された分布から逸脱するインスタンスを抽出することができます。

データ補完：VAEは新しいデータを生成して、欠落しているデータを置き換えたり、破損したファイルを復元したりできます。例としては音声ファイルのクリーンアップや動画のノイズ除去、医療用画像処理などがあります。ゼロから生成する画像はぼやける傾向がある一方、VAEは既存のぼやけた画像のノイズを除去して復元することができます。

半教師あり学習： VAEはラベル付けが不完全なデータ・セット内のデータ分布を取得し、分類器のトレーニングを支援することができます。また、VAEでデータ拡張を実行し、分類器用に追加のトレーニング・サンプルを生成することもできます。

フローベース・モデル

フローベース・モデルは、一連の可逆的な数学的トランスフォーメーションを通じてデータ分布を学習します。データは正規化フローと呼ばれるこのパイプラインを介し、損失なく両方向に進むことができます。VAEとGANはデータ分布を推定しますが、フローベースのモデルはデータ・セットの確率密度関数を明示的に学習します。

特定のデータ・セットでは、確率密度関数はデータがどのように分散されているかを記述します。正規化フローは、ターゲット変数の確率密度関数が特定されるまで、単純な分布から複雑な分布へと進行します。

フローベース・モデルでは、最初のデータ・セットと同じ統計的特性を維持する新しいデータ・サンプルを生成できます。すべての生成モデリングと同様、このプロセスはトレーニング・データからサンプルを引き出し、複雑な統計数学を適用して同様の新しい結果を生成するというコンセプトに基づくものです。

フローベース・モデルのユースケース

フローベース・モデルは、何よりもデータ分散の正確なアセスメントが重要である場合に真価を発揮します。

画像生成： フローベース・モデルの画像生成では、ランダムにサンプリングされたノイズを正規化フローに通し、クリーンな画像を生成します。 2016年に開発された重要な画像生成モデルであるPixelCNNは、トランスフォーメーションのシーケンスに自己回帰を適用し、画像を1ピクセルごとにモデリングします。

正確な密度推定： 密度推定は、観測可能なデータに基づいてデータ・セットの確率密度関数を特定する課題です。フローベース・モデルは複雑なデータ分布を正確に表現できますが、Transformerと比較すると長距離の依存関係を把握するのが苦手です。

分子グラフの生成：フローベース・モデルは分子グラフ生成に有用であることがわかっています。新しい分子構造を、生成AIモデルがグラフとしてモデリングします。分子グラフ生成は、科学者やエンジニアの新薬や新素材の発見を支援する重要なツールです。

生成モデルとハルシネーション

しばしば素晴らしい成果を生み出すプロセスは、また生成モデルがモデルが誤った情報や誤解を招く情報をアウトプットするハルシネーションを引き起こす原因にもなります。ハルシネーションまたは作話は、モデルがトレーニング・データ・セット内で現実世界に存在しないパターンを認識したときに発生します。

例えば、ChatGPT-4o miniに対して、「コメディドラマ『となりのサインフェルド』で、クレイマーがバングラデシュに行く回はどれですか」という質問をプロンプトすると、次のような応答になります。

『となりのサインフェルド』の第145話「小さいジェリー」というエピソードで、クレイマーがバングラデシュを訪れました。これは番組の第145話 （原文ママ）であり、シーズン8で初めて放送されました。このエピソードでは、クレイマーはバングラデシュからおもちゃを輸入する計画に参加します。

「小さいジェリー」はたしかに『となりのサインフェルド』の第145話で、シーズン8で放送されましたが、これはタイトルにある「リトル・ジェリー」という名前の雄鶏をクレイマーが買って芸を仕込む話です。同じ質問でチャットボットに再度プロンプトを送信すると、また違うハルシネーションが返されました。

シーズン9の第18話「モルディブ」で、クレイマーがバングラデシュに行きます。このエピソードで、彼は旅行の後に新しい生活を始めようとしており、このストーリーは「バングラデシュ人の」漁師になるというアイデアを中心に展開します。

実際には『となりのサインフェルド』のシーズン9、第18話は「高得点を死守せよ！」 で、クレイマーの外出は警察署どまりです。『となりのサインフェルド』には「 モルディブ 」というタイトルの回は存在せず、またシリーズ全体を通じてクレイマーがバングラデシュに行くことはありません。

GPTなどの自己回帰モデルが作り話によるハルシネーションを起こすことが知られているのと同様、他のタイプのモデルでもそれぞれの方法でハルシネーションが起きる可能性があります。画像生成に使用される拡散モデルは、現実世界の物体を現実とは一致しない形で表現することがあります。

ハルシネーションを抑制する方法

生成AIモデルがハルシネーションを起こす可能性を完全に排除することはまだ不可能ですが、ハルシネーション軽減のベスト・プラクティスとしては次のものがあります。

明快なプロンプトを出す：ユーザーのプロンプトが明示的であるほど、AIの回答は的を射たものになります。AIが詳細を回答できるよう、プロンプト内でスペースを与えます。

焦点を絞った指示：AIに明確な役割を与え、真実に即した検証可能な情報を提供するように指示すると、AIがより現実を反映した回答を返すのに役立ちます。

高品質のデータ：AIモデルのトレーニング・データが最新で適切なものであれば、回答が偏る可能性は低くなります。

人間による検証： AIが生成した結果は、知識のある人間が検証するまでは使用するべきではありません。

RAGとファイン・チューニング： RAGを使用して信頼できるデータでAIを強化することと、分野に合わせてモデルをファイン・チューニングすることは、どちらもハルシネーションの軽減に効果的です。

AI Academy

ビジネス向け生成AIの台頭

生成AIの発展と現在のビジネスへの影響について学びます。

エピソードに移動

生成AI + MLの力を解き放つ

生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。

参考情報

CEOのための生成AI活用ガイド

生成AIが生み出しうる価値、AIに必要な投資、AIがもたらすリスクのバランスを、CEO（最高経営責任者）がどのように取ることができるかについて説明します。

生成AIのスキルを次のレベルに引き上げる

ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。

生成AI + MLの力を解き放つ

生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。

AIの活用を本格化：生成AIでROI向上

AIの投資対効果を高めるために、主要な分野で生成AIの活用を拡大することで、どのように革新的な新規ソリューションの構築、提供を支援し、変化をもたらすかを紹介します。

AI in Action 2024

2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。

IBM Graniteはこちら

IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデルのファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。

適切な基盤モデルを選ぶ方法

ユースケースに最適なAI基盤モデルを選択する方法について説明します。

AIの新時代に信頼と自信を持って成功する方法

強力なAIストラテジーの3つの重要な要素である、競争優位性の創出、ビジネス全体へのAIの拡張、信頼できるAIの推進について詳しく説明します。

脚注

1. Attention Is All You Need、Vaswaniら、 2023年8月2日

2. Artists Score Major Win in Copyright Case Against AI Art Generators、Winston Cho、The Hollywood Reporter社、2024年8月13日

3. Diffusion-GAN: Training GANs with Diffusion、Wangら、2023年8月25日

生成モデルとは

共同執筆者