AIモデルとは、人間の介入なしに特定のパターンを認識したり、特定の決定を下したりするために、一連のデータでトレーニングされたプログラムです。データ人工知能モデルは、関連データのインプットにさまざまなアルゴリズムを適用して、プログラムの目的であるタスクまたはアウトプットを行います。
AIモデルとは簡単に言えば、人間の知能をシミュレーションするのではなく、自律的に意思決定や予測を行う能力のことです。最初に成功したAIモデルとしては、チェッカーやチェスをプレイするプログラムが1950年代初頭にありました。このモデルにより、プログラムは事前に決められた一連の動きに従うのではなく、人間の対戦者に直接応じて駒を動かすことができました。
AIモデルにはさまざまな種類があります。モデルが持つ特定の意思決定ロジックが最も有用または関連する特定のタスクや領域に対して適性が高くなります。複雑なシステムではバギング、ブースティング、スタッキングなどのアンサンブル学習手法により、複数のモデルを同時に利用することがよくあります。
AIツールがますます複雑で多機能になるにつれ、トレーニングと実行には、用意がますます困難な量のデータと計算能力が求められます。これに対し、単一のドメインで特定のタスクを実行するように設計されたシステムは、大規模なラベルなしデータセットで事前にトレーニングされ、さまざまなアプリケーションに利用できる 基盤モデルに取って代わられつつあります。こうした汎用性の高い基盤モデルは、特定のタスクに合わせてファインチューニングできます。
この2つの用語は、この文脈でよく同じ意味として使われますが、まったく同じ意味ではありません。
簡単に言えば、AIモデルは予測や決定を行うために使用されるもので、アルゴリズムはそのAIモデルを動作させるためのロジックです。
AIモデルは意思決定を自動化できますが、時間とともにパフォーマンスを自律的に最適化できるのは、機械学習(ML)が可能なモデルのみです。
すべてのMLモデルはAIですが、すべてのAIにMLが備わっているわけではありません。最も初歩的なAIモデルは、データサイエンティストが明示的にプログラムしたルールを持つ一連のif-then-else文です。このようなモデルはルール・エンジン、エキスパート・システム、ナレッジ・グラフ、あるいはシンボリックAIとも呼ばれます。
機械学習モデルには、記号的AIではなく統計的AIが使用されています。ルールベースのAIモデルは明示的にプログラムする必要があるのに対し、MLモデルは数学的フレームワークをサンプル用データ・セットに適用することで「トレーニング」されます。このデータ・ポイントは、モデルが将来行う現実世界での予測の基礎として機能します。
MLモデル手法は一般的に、 教師あり学習、 教師なし学習、 強化学習という3つの大まかなカテゴリーに分類できます。
ディープラーニングは教師なし学習がさらに進化したサブセットであり、そのニューラル・ネットワーク構造は人間の脳の構造を模倣しようとするものです。相互接続された複数のノードが、フォワードプロパゲーションと呼ばれるプロセスの中でデータを累進的に取り込み、主要な特徴を抽出し、関係を特定し、意思決定を調整します。バックプロパゲーションという別のプロセスでは、誤差を計算し、それに応じてシステムの重みとバイアスを調整するモデルを適用します。最新のチャットボットを支える大規模言語モデル(LLM)などの最も高度なAIアプリケーションでは、ディープラーニングが活用されています。これには膨大な計算リソースが求められます。
機械学習モデルを区別する1つの方法は基本的な方法論によるもので、そのほとんどは生成または識別に分類できます。違いは、特定の空間内でデータをどのようにモデル化するかという点にあります。
通常、教師なし学習を伴う生成アルゴリズムは、データ・ポイントの分布をモデル化し、ある空間に現れるあるデータ・ポイントの結合確率P(x, y)を予測することを目的としています。それにより、生成コンピューター・ビジョン・モデルは、「車のように見えるものは通常4つの車輪がある」または「目が眉毛の上に現れる可能性は低い」といった相関関係を識別できる場合があります。生成 コンピューター・ビジョン ・モデルはそれによって、「車のように見えるものは通常4つの車輪がある」または「目が眉毛の上に現れる可能性は低い」といった相関関係を識別できるかもしれません。
これらの予測は、モデルによって確率が高いと判断された出力を生成するのに役立ちます。例えば、文章データで学習した生成モデルは、つづりや自動コンプリートの提案を強化することができます。最も複雑なレベルになると、まったく新しい文章を生成できます。LLMが文章を出力する場合は基本的に、与えられたプロンプトに応じて、単語がその並び順で組み立てられる可能性が高いと計算されています。
その他に生成モデルで一般的なユースケースとしては、画像の合成、音楽の制作、スタイルの変換、言語の翻訳などがあります。
生成モデルの例には以下が挙げられます。
通常、教師あり学習を伴う識別アルゴリズムは、データ・クラス間の境界(または「決定境界」)をモデル化し、あるデータ・ポイント(x)があるクラス(y)に分類される条件付き確率P(y|x)を予測することを目的としています。識別コンピューター・ビジョン・モデルは、いくつかの重要な相違点(「車輪がなければ車ではない」など)を見分けることで「車」と「車ではない物」の違いを学習し、生成モデルが考慮しなければならない多くの相関関係を無視できます。したがって識別モデルは、必要となる計算能力が少ない傾向があります。
識別モデルは当然のことながらセンチメント分析などの分類タスクに適していますが、用途はさまざまです。例えば、Decision Treeモデルとランダム・フォレスト・モデルは複雑な意思決定プロセスを一連のノードに分割し、それぞれの「リーフ」が潜在的な分類決定を表します。
識別モデルと生成モデルは、互いに特定の現実世界におけるユースケースで概して優れたパフォーマンスを発揮する可能性がありますが、どちらのモデルでも多くのタスクを実現できます。例えば、識別モデルは自然言語処理(NLP)で多くの用途があり、(翻訳された文章の生成を伴う)機械翻訳などのタスクでは多くの場合、生成AIよりも優れたパフォーマンスを発揮します。
同様に、生成モデルはベイズの定理を用いた分類に活用できます。生成モデルは、決定境界のどちら側にインスタンスがあるかを(識別モデルのように)判断するのではなく、インスタンスを生成する各クラスの確率を決定し、より確率の高いクラスを選択することができるのです。
多くのAIシステムでは、その両方を併用しています。敵対的生成ネットワークを例に挙げると、生成モデルがサンプル用データを生成し、識別モデルがそのデータが「本物」か「偽物」かを判断します。識別モデルの出力は、生成モデルをトレーニングするために、識別器が「偽」の生成データを見分けられなくなるまで使用されます。
モデルを分類するもう1つの方法は、使用されるタスクの性質によるものです。従来のAIモデル・アルゴリズムの大半は、分類か回帰のいずれかを実行します。両方に適しているものもあり、ほとんどの基盤モデルはどちらの機能も活用しています。
この用語は、時に混乱を招くことがあります。例えばロジスティック回帰は分類に使用される識別モデルです。
回帰モデルは連続値(価格、年齢、サイズ、時間など)を予測します。このモデルは主に、1つ以上の独立変数(x)と従属変数(y)の関係を決定するために使用されます。つまり、xが与えられると、yの値が予測されます。(
分類モデルは離散値を予測します。そのため、用途は主に適切なラベルの決定またはカテゴライズ(つまり分類)です。「はい/いいえ」や「受け入れ/拒否」のようなバイナリー分類、あるいは多クラス分類(製品A、B、C、Dを提案するレコメンド・エンジンなど)が挙げられます。
分類アルゴリズムは、単純な分類からディープラーニング・ネットワークにおける特徴抽出の自動化、放射線学における診断画像の分類のような医療の進歩にまで、幅広く使用されています。
一般的な例は次のとおりです。
機械学習における「学習」は、サンプル用データ・セットでモデルをトレーニングすることで実現します。サンプル用データ・セットで明らかになった確率的な傾向と相関関係は、システム機能のパフォーマンスに適用されます。
教師あり学習および半教師あり学習では、結果を最適化するため、データサイエンティストがトレーニング用データを慎重にラベル付けする必要があります。特徴を適切に抽出すれば、教師あり学習は教師なし学習より少ないトレーニング用データで済みます。
MLモデルは現実世界のデータでトレーニングされるのが理想的です。これにより、モデルの分析や複製の対象である現実世界の状況がモデルに反映されていることを、直感的に、最もよく確認できるのです。しかし、現実世界のデータのみに頼ることは、必ずしも可能、実用的、または最適であるとは限りません。
モデルのパラメーターが多いほど、トレーニングに必要なデータも多くなります。ディープラーニング・モデルのサイズが大きくなるにつれて、データの取得はますます困難になります。これはLLMで特に顕著になっており、Open-AI社のGPT-3とオープンソースのBLOOMは1,750億個を超えるパラメーターを持っています。
その利便性とは裏腹に、一般に公開されているデータを使用する際には、データを匿名化しなければならないなど規制上の問題や、実用上の問題を伴う場合があります。たとえば、ソーシャルメディアのスレッドでトレーニングされた言語モデルは、企業が利用するのに適さない習慣や不正確さを「学習」してしまうかもしれません。
合成データは別の解決策となります。すなわち、より少ない量の実データセットを使うことで、元のデータに極めて近く、プライバシーの懸念を排除した学習データを生成するのです。
現実世界のデータでトレーニングされたMLモデルは必然的に、そのデータに反映されるであろう社会的なバイアスを吸収します。このようなバイアスを排除しなければ、医療や採用など、そのモデルが情報を提供するあらゆる分野で不公平が消えずに悪化します。データサイエンスの研究から、データに内在する不公平に対処するFairIJのようなアルゴリズムやFairReprogramのようなモデル改良技術が生まれました。
ベース・モデルまたは事前トレーニング済みモデルとも呼ばれる基盤モデルは、一般的な特徴とパターンを学習するために大規模なデータセットで事前にトレーニングされたディープラーニング・モデルです。より具体的なAI用途に合わせたファインチューニングあるいは適応の出発点となります。
開発者はモデルをゼロから構築するのではなく、ニューラル・ネットワーク層を変更したり、パラメーターを調整したり、領域固有のニーズに合わせてアーキテクチャーを適応させたりすることができます。これは、実績を持つ大規模モデルの幅広く深いナレッジと専門知識に加えて、モデルのトレーニングにかかる時間とリソースを大幅に節約できるということです。このように、基盤モデルはAIシステムの開発とデプロイメントを迅速化するのです。
専門的なタスクを行うための事前トレーニング済みモデルをファインチューニングする手法は、最近ではプロンプト・チューニングという手法に取って代わられました。これは、モデルにフロントエンドのキューを取り入れて望ましい種類の決定や予測に導くものです。
MIT-IBM Watson AI Labの共同ディレクターであるDavid Cox氏によると、トレーニング済みのディープラーニング・モデルを再展開すると(新しいモデルをトレーニングしたり再トレーニングしたりするのではなく)、コンピューターとエネルギーの使用量を1,000倍以上削減できるため、大幅なコスト削減が可能になります1 。
高度テストはモデルが意図したタスクを達成するために十分トレーニングされているかどうかを測定するので、最適化には不可欠です。モデルやタスクが異なれば、測定基準や方法論も異なります。
モデルの性能をテストするには、コントロール・グループがそのモデルを基準に判断する必要があります。トレーニングに使用したデータそのものに対してモデルをテストすると、過剰適合につながる可能性があるためです。交差検証では、トレーニング用データを一部取っておくか再サンプリングしてコントロール・グループを作成します。k-fold、ホールドアウト、モンテカルロ交差検証などの非網羅的な方法や、leave-p-out交差検証などの網羅的な方法があります。
こうした一般的な測定基準には、真陽性(TP)、真陰性(TN)、偽陽性(FP)、偽陰性(FN)などの別々の結果値が組み込まれています。
回帰アルゴリズムは離散値ではなく連続値を予測するため、さまざまな測定基準で測定されます。「N」が観測値の数を表します。以下は回帰モデルの評価に使用される一般的なメトリクスです。
AIモデルをデプロイおよび実行するには、十分な処理能力とストレージ容量を備えた計算デバイスまたはサーバーが必要です。AIパイプラインと計算リソースを適切に計画しないと、プロトタイプが成功しても概念実証から先に進めなくなるおそれがあります。
watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
1 「What is prompt tuning?」、IBM® Research、2023年2月15日。
2 「Machine learning model evaluation」、Geeksforgeeks.org、2022年。