教師なし学習では、情報の類似点と相違点を発見できるため、探索的なデータ分析、クロスセル戦略、顧客セグメンテーション、画像認識に最適なソリューションです。
教師なし学習モデルは、クラスタリング、関連付け、次元削減という3つの主要タスクに利用されます。以下では、それぞれの学習方法について説明し、それらを効果的に実行するための一般的なアルゴリズムとアプローチを紹介します。
クラスタリングは、類似点や相違点に基づいてラベルのないデータをグループ化するデータ・マイニング手法です。クラスタリング・アルゴリズムは、未加工の未分類データ・オブジェクトを、情報内の構造またはパターンによって表されるグループに処理するために使用されます。クラスタリング・アルゴリズムは、排他的、重複的、階層的、確率的など、いくつかのタイプに分類できます。
排他的クラスタリングは、データ・ポイントが1つのクラスターにのみ存在できることを規定するグループ化の形式です。これは「ハード」クラスタリングとも呼ばれます。K平均法クラスタリングは、データ・ポイントがKグループに割り当てられる排他的クラスタリング手法の一般的な例です。ここで、Kは各グループの重心からの距離に基づくクラスターの数を表します。特定の重心に最も近いデータ・ポイントは、同じカテゴリーの下にクラスタリングされます。K値が大きいほど、グループ化は小さくなり、粒度も高くなり、逆に、K値が小さいほど、グループ化は大きくなり、粒度も低くなります。K平均法クラスタリングは、市場セグメンテーション、ドキュメント・クラスタリング、画像セグメンテーション、画像圧縮によく利用されます。
重複クラスターは、データ・ポイントが別々のメンバーシップの度合いを持つ複数のクラスターに属することを許可するという点で、排他的クラスタリングとは異なります。「ソフト」またはファジーk平均法クラスタリングは、重複クラスタリングの一例です。
階層的クラスタリングは、階層的クラスター分析(HCA)とも呼ばれ、凝集型と分割型の2つの方法に分類できる教師なしクラスタリング・アルゴリズムです。
凝集型クラスタリングは「ボトムアップ・アプローチ」とみなされます。データ・ポイントは、最初は個別のグループとして分離され、その後、類似性に基づいて1つのクラスターが達成されるまで統合が繰り返えされます。類似性を測定するために一般的に使用される4つの方法は次のとおりです。
ユークリッド距離は、これらの距離を計算するために使用される最も一般的なメトリクスですが、マンハッタン距離などの他のメトリクスもクラスタリングに関する文献ではよく引用されています。
分割型クラスタリングは、凝集型クラスタリングの反対として定義でき、「トップダウン」アプローチを採用します。この場合、単一のデータ・クラスターは、データ・ポイント間の相違に基づいて分割されます。分割型クラスタリングは一般的には使用されませんが、階層的手法のコンテキストでは注目に値します。これらのクラスタリング・プロセスは通常、各反復でのデータ・ポイントの結合または分割を記録するツリーのような図であるデンドログラムを使用して視覚化されます。
確率モデルは、密度推定や「ソフト」クラスタリング問題を解決するのに役立つ教師なし手法です。確率的クラスタリングでは、データ・ポイントは特定の分布に属する可能性に基づいてクラスター化されます。ガウス混合モデル(GMM)は、最も一般的に使用される確率的クラスタリングの1手法です。
相関ルールは、特定のデータセット内の変数間の関係を見つけるためのルールベースの方法です。これらの手法はマーケット・バスケット分析に頻繁に使用され、企業はさまざまな製品間の関係をより深く理解できるようになります。顧客の消費習慣を理解することで、企業はより優れたクロスセリング戦略や推奨エンジンを開発できるようになります。こうした例には、Amazonの「この商品を購入したお客様はこんな商品も購入しています」やSpotifyの「Discover Weekly」プレイリストなどがあります。相関ルールを生成するために使用されるアルゴリズムには、Apriori、Eclat、FP-Growthなどいくつかありますが、最も広く使用されているのはAprioriアルゴリズムです。
Aprioriアルゴリズムはマーケット・バスケット分析を通じて普及し、音楽プラットフォームやオンライン小売業者向けのさまざまな推奨エンジンにつながっています。これらは、トランザクション・データセット内で、頻繁なアイテム・セットまたはアイテムのコレクションを識別し、別の製品の消費を考慮して、ある製品を消費する可能性を識別するために使用されます。例えば、70年代に流行したロック・バンド「Black Sabbath」のラジオをSpotifyでつけ、Black Sabbathから影響を受けた「Orchid」の曲を聴き始めると、やはり、Orchidに影響を与えたロック・バンドであるLed Zeppelinの曲(「Over the Hills and Far Away」など)が流れる可能性があります。これは、私のこれまでの聴取習慣と他の人の聴取習慣に基づいています。Aprioriアルゴリズムはハッシュ・ツリーを使用してアイテム・セットをカウントし、データセットを幅優先方式でナビゲートします。
一般的に、データが多いほど結果の精度は上がりますが、機械学習アルゴリズムのパフォーマンスにも影響する可能性があります(例:過剰適合が発生し、データセットの視覚化が困難になることもあります。次元削減は、特定のデータセット内の特徴数または次元数が多すぎる場合に使用される手法です。データセットの整合性を可能な限り維持しながら、データ・インプットの数を管理可能なサイズに削減します。これはデータの前処理段階でよく使用され、次のようないくつかの異なる次元削減方法を使用できます。
主成分分析(PCA)は、冗長性を排除し、特徴抽出を通じてデータセットを圧縮するために使用される次元削減アルゴリズムの一種です。この方法では、線形変換を使用して新しいデータ表現を作成し、「主成分」のセットを生成します。最初の主成分は、データセットの分散を最大化する方向です。2番目の主成分もデータ内で最大分散を見つけますが、最初の主成分とはまったく相関がなく、最初の成分に対して垂直、つまり直交する方向を生成します。このプロセスは次元の数に基づいて繰り返され、次の主成分は、最も分散が大きい前の成分と直交する方向になります。
特異値分解(SVD)は、行列Aを3つの低ランク行列に分解する別の次元削減手法です。SVDは式A = USVTで表され、ここで「U」と「V」は直交行列です。「S」は対角行列で、S値は行列Aの特異値とみなされます。PCAと同様、ノイズを低減し、画像ファイルなどのデータを圧縮するためによく使用されます。
オートエンコーダーは、ニューラル・ネットワークを活用してデータを圧縮し、元のデータ・インプットの新しい表現を再作成します。下の画像を見ると、隠し層が、アウトプット層内で再構築する前にインプット層を圧縮するためのボトルネックとして機能していることがわかります。インプット層から隠れ層までの段階は「エンコード」と呼ばれ、隠れ層からアウトプット層までの段階は「デコード」と呼ばれます。
機械学習技術は、製品のユーザー・エクスペリエンスを向上させ、品質保証のためにシステムをテストするための一般的な方法になっています。教師なし学習は、データを表示するための探索的なパスを提供し、企業が手動による観察に比べて大量のデータ内のパターンをより迅速に識別できるようにします。教師なし学習の最も一般的な実際のアプリケーションは次のとおりです。
教師なし学習と教師あり学習は、よく一緒に議論されます。教師なし学習アルゴリズムとは異なり、教師あり学習アルゴリズムではラベル付きデータが使用されます。そのデータから、将来の結果を予測したり、解決しようとしている回帰または分類の問題に基づいてデータを特定のカテゴリーに割り当てたりします。
教師あり学習アルゴリズムは教師なし学習モデルよりも正確である傾向がありますが、データに適切なラベルを付けるには事前に人間による介入が必要です。ただし、これらのラベル付きデータセットを使用すると、意図した結果を生成するために大規模なトレーニング用データ・セットを必要としないため、教師あり学習アルゴリズムで計算の複雑さを回避できます。一般的な回帰および分類手法としては、線形回帰、ロジスティック回帰、ナイーブベイズ、KNNアルゴリズム、ランダム・フォレストなどがあります。
半教師あり学習は、与えられたインプット・データの一部にしかラベルが付けられていない場合に行われます。教師あり学習では、データを適切にラベル付けするためにドメインの専門知識に頼ることから時間とコストがかかるため、教師なし学習や半教師あり学習がより魅力的な選択肢となります。
これらのアプローチの違いを詳しく知りたい方は、「教師あり学習と教師なし学習の違いとは(Supervised vs. Unsupervised Learning: What's the Difference?)」をご覧ください。
教師なし学習には多くのメリットがありますが、人間の介入なしに機械学習モデルを実行できるようにすると、いくつかの問題が発生する可能性があります。これらの問題には、次のようなものがあります。