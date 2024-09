教師なし学習モデルで行われるタスクは、主にクラスタリング、関連付け、次元削減の3つがあります。 以下に、それぞれの学習方法を定義し、効果的に行うための一般的なアルゴリズムとアプローチを紹介します。

クラスター化

クラスタリングは、データ・マイニングの手法の1つであり、ラベルの付いていないデータをその類似点や相違点に基づいてグループ化するものです。 クラスタリング・アルゴリズムを使用すると、分類されていない未加工のデータ・オブジェクトを処理し、情報の構造やパターンで表されるグループに分類できます。 クラスタリング・アルゴリズムは、いくつかのタイプ(具体的には、排他的、オーバーラッピング、階層的、確率的)に分けられます。

排他的クラスタリングとオーバーラップ・クラスタリング

排他的クラスタリングとは、1つのデータ・ポイントが1つのクラスターにしか存在しないことを示すグループ化の形式です。 「ハード」クラスタリングと呼ばれることもあります。 K-meanクラスタリング・アルゴリズムが、排他的クラスタリングの一例です。

K-meansクラスタリングは排他的クラスタリング手法の一般的な例です。データ・ポイントをK個のグループに割り当てますが、ここで、Kは各グループの重心からの距離に基づいたクラスターの数を表します。 特定の重心に距離が最も近いデータ・ポイントが、同じカテゴリーにクラスタリングされます。 K値が大きいほど細分度が高い小さなグループになり、K値が小さいほど細分度が低い大きなグループになります。 K-meansクラスタリングは、市場のセグメンテーション、文書クラスタリング、画像のセグメンテーション、画像圧縮などによく使われます。

オーバーラップ・クラスターは、異なるメンバーシップ・レベルの複数のクラスターにデータ・ポイントが属することができる点が排他的クラスタリングと異なります。 オーバーラップ・クラスタリングの一例として「ソフト」クラスタリングまたはFuzzy K-meansクラスタリングがあります。

階層的クラスタリング

階層的クラスタリングは、階層的クラスター分析(HCA)とも呼ばれ、教師なしのクラスタリング・アルゴリズムであり、凝集型と分割型の2種類があります。 凝集型クラスタリングは、「ボトムアップ方式」と呼ばれます。 データ・ポイントは、最初は別々のグループに分けられ、その後、1つのクラスターが形成されるまで、類似性に基づいて併合が繰り返されます。 一般に類似性の測定には、以下の4つの異なる方式が使用されます。

ウォード連結法:この方式では、2つのクラスター間の距離は、クラスターが併合された後の2乗和の増分によって定義されます。 平均連結法: 各クラスター内の2点間の平均距離によって距離が定義されます。 完全(または最長)連結法: 距離は各クラスター内の2点間の最長距離で定義されます。 単(または最短)連結法: 距離は各クラスター内の2点間の最短距離で定義されます。

これらの距離の計算では、ユークリッド距離が最もよく使用されますが、クラスタリングの文献ではマンハッタン距離などその他の測定距離についても引用されています。

分割型クラスタリングは、凝集型クラスタリングとは反対のものとして定義できます。これは「トップダウン」方式を利用します。 このクラスタリングでは、1つのデータ・クラスターを、データ・ポイント間の差分に基づいて分割していきます。 分割型クラスタリングはあまり使われていませんが、階層型クラスタリングのコンテキストでは引き続き注目に値します。 このようなクラスタリング処理は、通常、樹形図と呼ばれるツリー状の図を使用して視覚化されます。樹形図では、イテレーションごとにデータ・ポイントの併合や分割を示します。

確率的クラスタリング

確率モデルは、密度推定や「ソフト」クラスタリングでの問題の解決に役立つ、教師なし学習の手法です。 確率的クラスタリングでは、データ・ポイントは、特定の分布に属する可能性に基づいてクラスタリングされます。 最もよく使用されている確率的クラスタリング手法の1つに、混合ガウス・モデル(GMM)があります。

混合ガウス・モデルは混合モデルに分類されます。つまりこれは、不特定数の確率分布関数で構成されています。 GMMは主に、特定のデータ・ポイントがどのガウス分布(正規確率分布)に属するかを判断するために利用されます。 平均や分散が判明している場合には、特定のデータ・ポイントがどの分布に属しているかを判断できます。 ただし、GMMではこれらの変数が不明であるため、データ・ポイントを適切にクラスタリングするために、潜在(隠れ)変数が存在すると想定します。 期待値最大化法(EM)アルゴリズムの使用は必須ではありませんが、指定されたデータ・ポイントの特定のデータ・クラスターへの割り当て確率を推定する際に、EMがよく使用されます。

相関ルール

相関ルールとは、データ・セット内の変数間の関係性を見い出すためのルール・ベースの手法です。 これらの手法は、マーケット・バスケット解析によく利用されます。企業はこの手法により異なるさまざまな製品間の関係を適切に把握できます。 そして、顧客の消費習慣を把握することで、より優れたクロスセル戦略やレコメンデーション・エンジンを開発できるのです。 その例として、Amazonの「この商品を買った人はこんな商品も買っています」や、Spotifyの「Discover Weekly」プレイリストなどがあります。 相関ルールを生成するアルゴリズムには、Apriori、Eclat、FP-Growthなどがありますが、最も広く使われているのはAprioriアルゴリズムです。

Aprioriアルゴリズム

Aprioriアルゴリズムは、マーケット・バスケット解析を通して普及し、音楽配信プラットフォームやオンライン販売業者向けのレコメンデーション・エンジンに適用されています。 これはトランザクション・データ・セット内で使用され、頻出アイテムセット(アイテム集合)を特定し、別の製品の消費に応じて、製品を消費する見込みを特定するものです。 例えば、Spotifyでブラック・サバスのRadioを再生し、その楽曲である「Orchid」から始めた場合、このチャンネルの他の楽曲は、「Over the Hills and Far Away」などのレッド・ツェッペリンの曲になる可能性があります。 これは、自分や他の人が聴いた曲の傾向から導き出されたものです。 Aprioriのアルゴリズムは、ハッシュ・ツリー を使ってアイテムセットをカウントし、幅優先探索方式でデータ・セットをナビゲートします。

次元削減

通常は、データが多いほど正確な結果が得られますが、データが多いと機械学習アルゴリズムのパフォーマンスに影響を与えたり(過剰適合など)、データ・セットの可視化も困難になることも考えられます。 次元削減とは、特定のデータ・セットに含まれる特徴(次元)の数が多すぎる場合に使用される手法です。 データ入力数を管理可能なサイズまで削減する一方で、データ・セットの整合性も可能な限り保ちます。 通常、この手法はデータの前処理段階で使用されます。以下のように次元削減法には、いくつか種類があります。

主成分分析

主成分分析(PCA)は、次元削減アルゴリズムの一種であり、特徴量を抽出することで冗長性の削減やデータ・セットの圧縮を実行できます。 この方法では、線形変換を使用して新しいデータ表現を作成し、「主成分」の集合を得られます。第1主成分は、データ・セットの分散が最大化になる方向です。 第2主成分もデータの最大分散を検出しますが、第1主成分とは完全に相関がなく、第1主成分と垂直、すなわち直交する軸の方向を取ります。 このプロセスは次元数に応じて繰り返されます。その際、次の主成分の軸の方向は、最も分散の大きい先行する成分ものと直交する方向になります。

特異値分解

特異値分解(SVD)は、行列Aを3つの低ランク行列に因数分解する次元削減のもう1つの手法です。 SVDは、A = USVT(ここでUとVは直交行列)という式で表されます。 Sは対角行列で、S値は行列Aの特異値とみなされます。PCAと同様に、ノイズの低減や画像ファイルなどのデータ圧縮によく使用されます。

オートエンコーダー

オートエンコーダーは、ニューラル・ネットワークを利用してデータを圧縮し、元のデータ入力を新しい表現で再生します。 以下の画像を見ると、出力層内で再構築する前に、厳密にいえば隠れ層が入力層を圧縮するボトルネックとして機能していることがわかります。 入力層から隠れ層までの段階を「エンコード」、隠れ層から出力層までの段階を「デコード」と呼びます。