教師なし学習とは

教師なし学習（教師なし機械学習とも呼ばれます）では、機械学習（ML）アルゴリズムを使用して、ラベルのないデータ・セットを分析およびクラスター化します。これらのアルゴリズムは、人間の介入を必要とせずに、隠れたパターンやデータのグループを見つけます。

教師なし学習では、情報の類似点と相違点を発見できるため、探索的なデータ分析、クロスセル戦略、顧客セグメンテーション、画像認識に最適なソリューションです。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

一般的な教師なし学習アプローチ

教師なし学習モデルは、クラスタリング、関連付け、次元削減という3つの主要タスクに利用されます。以下では、それぞれの学習方法について説明し、それらを効果的に実行するための一般的なアルゴリズムとアプローチを紹介します。

クラスタリング

クラスタリングは、類似点や相違点に基づいてラベルのないデータをグループ化するデータ・マイニング手法です。クラスタリング・アルゴリズムは、未加工の未分類データ・オブジェクトを、情報内の構造またはパターンによって表されるグループに処理するために使用されます。クラスタリング・アルゴリズムは、排他的、重複的、階層的、確率的など、いくつかのタイプに分類できます。

排他的および重複するクラスタリング

排他的クラスタリングは、データ・ポイントが1つのクラスターにのみ存在できることを規定するグループ化の形式です。これは「ハード」クラスタリングとも呼ばれます。K平均法クラスタリングは、データ・ポイントがKグループに割り当てられる排他的クラスタリング手法の一般的な例です。ここで、Kは各グループの重心からの距離に基づくクラスターの数を表します。特定の重心に最も近いデータ・ポイントは、同じカテゴリーの下にクラスタリングされます。K値が大きいほど、グループ化は小さくなり、粒度も高くなり、逆に、K値が小さいほど、グループ化は大きくなり、粒度も低くなります。K平均法クラスタリングは、市場セグメンテーション、ドキュメント・クラスタリング、画像セグメンテーション、画像圧縮によく利用されます。

重複クラスターは、データ・ポイントが別々のメンバーシップの度合いを持つ複数のクラスターに属することを許可するという点で、排他的クラスタリングとは異なります。「ソフト」またはファジーk平均法クラスタリングは、重複クラスタリングの一例です。

階層的クラスタリング

階層的クラスタリングは、階層的クラスター分析（HCA）とも呼ばれ、凝集型と分割型の2つの方法に分類できる教師なしクラスタリング・アルゴリズムです。

凝集型クラスタリングは「ボトムアップ・アプローチ」とみなされます。データ・ポイントは、最初は個別のグループとして分離され、その後、類似性に基づいて1つのクラスターが達成されるまで統合が繰り返えされます。類似性を測定するために一般的に使用される4つの方法は次のとおりです。

ウォード連結法：この方法では、2つのクラスター間の距離は、クラスターを統合した後の二乗和の増加によって定義されます。
平均連結法：この方法は、各クラスター内の2点間の平均距離によって定義されます。
完全（または最大）連結法： この方法は、各クラスター内の2点間の最大距離によって定義されます。
単一（または最小）連結法：この方法は、各クラスター内の2点間の最小距離によって定義されます。

ユークリッド距離は、これらの距離を計算するために使用される最も一般的なメトリクスですが、マンハッタン距離などの他のメトリクスもクラスタリングに関する文献ではよく引用されています。

分割型クラスタリングは、凝集型クラスタリングの反対として定義でき、「トップダウン」アプローチを採用します。この場合、単一のデータ・クラスターは、データ・ポイント間の相違に基づいて分割されます。分割型クラスタリングは一般的には使用されませんが、階層的手法のコンテキストでは注目に値します。これらのクラスタリング・プロセスは通常、各反復でのデータ・ポイントの結合または分割を記録するツリーのような図であるデンドログラムを使用して視覚化されます。

確率的クラスタリング

確率モデルは、密度推定や「ソフト」クラスタリング問題を解決するのに役立つ教師なし手法です。確率的クラスタリングでは、データ・ポイントは特定の分布に属する可能性に基づいてクラスター化されます。ガウス混合モデル（GMM）は、最も一般的に使用される確率的クラスタリングの1手法です。

ガウス混合モデルは混合モデルに分類され、不特定の数の確率分布関数で構成されています。GMMは主に、特定のデータ・ポイントがどのガウス分布または正規分布に属するかを判断するために利用されます。平均または分散がわかっている場合は、特定のデータ・ポイントがどの分布に属するかを判断できます。ただし、GMMではこれらの変数は不明であるため、データ・ポイントを適切にクラスター化するために潜在的または隠れた変数が存在すると想定します。期待最大化（EM）アルゴリズムを使用する必要はありませんが、特定のデータ・クラスターへの特定のデータ・ポイントの割り当て確率を推定するためによく使用されます。

相関ルール

相関ルールは、特定のデータセット内の変数間の関係を見つけるためのルールベースの方法です。これらの手法はマーケット・バスケット分析に頻繁に使用され、企業はさまざまな製品間の関係をより深く理解できるようになります。顧客の消費習慣を理解することで、企業はより優れたクロスセリング戦略や推奨エンジンを開発できるようになります。こうした例には、Amazonの「この商品を購入したお客様はこんな商品も購入しています」やSpotifyの「Discover Weekly」プレイリストなどがあります。相関ルールを生成するために使用されるアルゴリズムには、Apriori、Eclat、FP-Growthなどいくつかありますが、最も広く使用されているのはAprioriアルゴリズムです。

Aprioriアルゴリズム

Aprioriアルゴリズムはマーケット・バスケット分析を通じて普及し、音楽プラットフォームやオンライン小売業者向けのさまざまな推奨エンジンにつながっています。これらは、トランザクション・データセット内で、頻繁なアイテム・セットまたはアイテムのコレクションを識別し、別の製品の消費を考慮して、ある製品を消費する可能性を識別するために使用されます。例えば、70年代に流行したロック・バンド「Black Sabbath」のラジオをSpotifyでつけ、Black Sabbathから影響を受けた「Orchid」の曲を聴き始めると、やはり、Orchidに影響を与えたロック・バンドであるLed Zeppelinの曲（「Over the Hills and Far Away」など）が流れる可能性があります。これは、私のこれまでの聴取習慣と他の人の聴取習慣に基づいています。Aprioriアルゴリズムはハッシュ・ツリーを使用してアイテム・セットをカウントし、データセットを幅優先方式でナビゲートします。

次元削減

一般的に、データが多いほど結果の精度は上がりますが、機械学習アルゴリズムのパフォーマンスにも影響する可能性があります（例：過剰適合が発生し、データセットの視覚化が困難になることもあります。次元削減は、特定のデータセット内の特徴数または次元数が多すぎる場合に使用される手法です。データセットの整合性を可能な限り維持しながら、データ・インプットの数を管理可能なサイズに削減します。これはデータの前処理段階でよく使用され、次のようないくつかの異なる次元削減方法を使用できます。

主要コンポーネント分析

主成分分析（PCA）は、冗長性を排除し、特徴抽出を通じてデータセットを圧縮するために使用される次元削減アルゴリズムの一種です。この方法では、線形変換を使用して新しいデータ表現を作成し、「主成分」のセットを生成します。最初の主成分は、データセットの分散を最大化する方向です。2番目の主成分もデータ内で最大分散を見つけますが、最初の主成分とはまったく相関がなく、最初の成分に対して垂直、つまり直交する方向を生成します。このプロセスは次元の数に基づいて繰り返され、次の主成分は、最も分散が大きい前の成分と直交する方向になります。

特異値分解

特異値分解（SVD）は、行列Aを3つの低ランク行列に分解する別の次元削減手法です。SVDは式A = USVTで表され、ここで「U」と「V」は直交行列です。「S」は対角行列で、S値は行列Aの特異値とみなされます。PCAと同様、ノイズを低減し、画像ファイルなどのデータを圧縮するためによく使用されます。

オートエンコーダー

オートエンコーダーは、ニューラル・ネットワークを活用してデータを圧縮し、元のデータ・インプットの新しい表現を再作成します。下の画像を見ると、隠し層が、アウトプット層内で再構築する前にインプット層を圧縮するためのボトルネックとして機能していることがわかります。インプット層から隠れ層までの段階は「エンコード」と呼ばれ、隠れ層からアウトプット層までの段階は「デコード」と呼ばれます。

教師なし学習のアプリケーション

機械学習技術は、製品のユーザー・エクスペリエンスを向上させ、品質保証のためにシステムをテストするための一般的な方法になっています。教師なし学習は、データを表示するための探索的なパスを提供し、企業が手動による観察に比べて大量のデータ内のパターンをより迅速に識別できるようにします。教師なし学習の最も一般的な実際のアプリケーションは次のとおりです。

ニュース・セクション：Googleニュースは、教師なし学習を使用して、さまざまなオンライン・ニュース・アウトレットからの同じニュースに関する記事を分類します。例えば、大統領選挙の結果は「米国」ニュースのラベルで分類できます。
コンピューター・ビジョン：教師なし学習アルゴリズムは、物体認識などの視覚認識タスクに使用されます。
医用画像：教師なし機械学習は、画像検出、分類、セグメンテーションなど、放射線科や病理学で患者を迅速かつ正確に診断するために使用される医用画像装置に不可欠な機能を提供します。
異常検知：教師なし学習モデルは大量の履歴データを調べ、データ・セット内の異常なデータ・ポイントを発見できます。こうした異常が、機器の欠陥や人的ミス、セキュリティーの侵害に対する意識を向上させる可能性があります。
顧客ペルソナ：顧客ペルソナを定義すると、顧客の共通の特性や購買習慣を理解しやすくなります。教師なし学習により、企業はより優れたバイヤー・ペルソナ・プロファイルを構築できるようになり、組織は製品メッセージをより適切に調整できるようになります。
レコメンデーション・エンジン： 教師なし学習アルゴリズムは、過去の購買行動データを使用して、より効果的なクロスセル戦略の開発に使用できるデータ傾向を発見するのに役立ちます。これは、オンライン小売業者のチェックアウト・プロセス中に顧客に関連するアドオンを推奨するために使用されます。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

教師なし学習、教師あり学習、および半教師あり学習

教師なし学習と教師あり学習は、よく一緒に議論されます。教師なし学習アルゴリズムとは異なり、教師あり学習アルゴリズムではラベル付きデータが使用されます。そのデータから、将来の結果を予測したり、解決しようとしている回帰または分類の問題に基づいてデータを特定のカテゴリーに割り当てたりします。

教師あり学習アルゴリズムは教師なし学習モデルよりも正確である傾向がありますが、データに適切なラベルを付けるには事前に人間による介入が必要です。ただし、これらのラベル付きデータセットを使用すると、意図した結果を生成するために大規模なトレーニング用データ・セットを必要としないため、教師あり学習アルゴリズムで計算の複雑さを回避できます。一般的な回帰および分類手法としては、線形回帰、ロジスティック回帰、ナイーブベイズ、KNNアルゴリズム、ランダム・フォレストなどがあります。

半教師あり学習は、与えられたインプット・データの一部にしかラベルが付けられていない場合に行われます。教師あり学習では、データを適切にラベル付けするためにドメインの専門知識に頼ることから時間とコストがかかるため、教師なし学習や半教師あり学習がより魅力的な選択肢となります。

これらのアプローチの違いを詳しく知りたい方は、「教師あり学習と教師なし学習の違いとは（Supervised vs. Unsupervised Learning: What's the Difference?）」をご覧ください。