教師なし学習とは

教師なし学習（教師なし機械学習とも呼ばれる）は、機械学習アルゴリズムを使用して、ラベルなしデータ・セットを分析し、クラスター化します。これらのアルゴリズムは、人間の介入を必要とせずに、隠れたパターンやデータのグループ化を発見します。情報の類似点と相違点を見つけ出せるため、探索的データ分析、クロスセル戦略、顧客セグメンテーション、画像認識における理想的なソリューションとなります。

教師なし学習の一般的なアプローチ

教師なし学習モデルで行われるタスクは、主にクラスタリング、関連付け、次元削減の3つがあります。以下に、それぞれの学習方法を定義し、効果的に行うための一般的なアルゴリズムとアプローチを紹介します。

クラスター化

クラスタリングは、データ・マイニングの手法の1つであり、ラベルの付いていないデータをその類似点や相違点に基づいてグループ化するものです。クラスタリング・アルゴリズムを使用すると、分類されていない未加工のデータ・オブジェクトを処理し、情報の構造やパターンで表されるグループに分類できます。クラスタリング・アルゴリズムは、いくつかのタイプ（具体的には、排他的、オーバーラッピング、階層的、確率的）に分けられます。

排他的クラスタリングとオーバーラップ・クラスタリング

排他的クラスタリングとは、1つのデータ・ポイントが1つのクラスターにしか存在しないことを示すグループ化の形式です。「ハード」クラスタリングと呼ばれることもあります。 K-meanクラスタリング・アルゴリズムが、排他的クラスタリングの一例です。

K-meansクラスタリングは排他的クラスタリング手法の一般的な例です。データ・ポイントをK個のグループに割り当てますが、ここで、Kは各グループの重心からの距離に基づいたクラスターの数を表します。特定の重心に距離が最も近いデータ・ポイントが、同じカテゴリーにクラスタリングされます。 K値が大きいほど細分度が高い小さなグループになり、K値が小さいほど細分度が低い大きなグループになります。 K-meansクラスタリングは、市場のセグメンテーション、文書クラスタリング、画像のセグメンテーション、画像圧縮などによく使われます。

オーバーラップ・クラスターは、異なるメンバーシップ・レベルの複数のクラスターにデータ・ポイントが属することができる点が排他的クラスタリングと異なります。オーバーラップ・クラスタリングの一例として「ソフト」クラスタリングまたはFuzzy K-meansクラスタリングがあります。

階層的クラスタリング

階層的クラスタリングは、階層的クラスター分析（HCA）とも呼ばれ、教師なしのクラスタリング・アルゴリズムであり、凝集型と分割型の2種類があります。凝集型クラスタリングは、「ボトムアップ方式」と呼ばれます。データ・ポイントは、最初は別々のグループに分けられ、その後、1つのクラスターが形成されるまで、類似性に基づいて併合が繰り返されます。一般に類似性の測定には、以下の4つの異なる方式が使用されます。

ウォード連結法：この方式では、2つのクラスター間の距離は、クラスターが併合された後の2乗和の増分によって定義されます。
平均連結法： 各クラスター内の2点間の平均距離によって距離が定義されます。
完全（または最長）連結法： 距離は各クラスター内の2点間の最長距離で定義されます。
単（または最短）連結法： 距離は各クラスター内の2点間の最短距離で定義されます。

これらの距離の計算では、ユークリッド距離が最もよく使用されますが、クラスタリングの文献ではマンハッタン距離などその他の測定距離についても引用されています。

分割型クラスタリングは、凝集型クラスタリングとは反対のものとして定義できます。これは「トップダウン」方式を利用します。このクラスタリングでは、1つのデータ・クラスターを、データ・ポイント間の差分に基づいて分割していきます。分割型クラスタリングはあまり使われていませんが、階層型クラスタリングのコンテキストでは引き続き注目に値します。このようなクラスタリング処理は、通常、樹形図と呼ばれるツリー状の図を使用して視覚化されます。樹形図では、イテレーションごとにデータ・ポイントの併合や分割を示します。

確率的クラスタリング

確率モデルは、密度推定や「ソフト」クラスタリングでの問題の解決に役立つ、教師なし学習の手法です。確率的クラスタリングでは、データ・ポイントは、特定の分布に属する可能性に基づいてクラスタリングされます。最もよく使用されている確率的クラスタリング手法の1つに、混合ガウス・モデル（GMM）があります。

混合ガウス・モデルは混合モデルに分類されます。つまりこれは、不特定数の確率分布関数で構成されています。 GMMは主に、特定のデータ・ポイントがどのガウス分布（正規確率分布）に属するかを判断するために利用されます。平均や分散が判明している場合には、特定のデータ・ポイントがどの分布に属しているかを判断できます。ただし、GMMではこれらの変数が不明であるため、データ・ポイントを適切にクラスタリングするために、潜在（隠れ）変数が存在すると想定します。期待値最大化法（EM）アルゴリズムの使用は必須ではありませんが、指定されたデータ・ポイントの特定のデータ・クラスターへの割り当て確率を推定する際に、EMがよく使用されます。

相関ルール

相関ルールとは、データ・セット内の変数間の関係性を見い出すためのルール・ベースの手法です。これらの手法は、マーケット・バスケット解析によく利用されます。企業はこの手法により異なるさまざまな製品間の関係を適切に把握できます。そして、顧客の消費習慣を把握することで、より優れたクロスセル戦略やレコメンデーション・エンジンを開発できるのです。その例として、Amazonの「この商品を買った人はこんな商品も買っています」や、Spotifyの「Discover Weekly」プレイリストなどがあります。相関ルールを生成するアルゴリズムには、Apriori、Eclat、FP-Growthなどがありますが、最も広く使われているのはAprioriアルゴリズムです。

Aprioriアルゴリズム

Aprioriアルゴリズムは、マーケット・バスケット解析を通して普及し、音楽配信プラットフォームやオンライン販売業者向けのレコメンデーション・エンジンに適用されています。これはトランザクション・データ・セット内で使用され、頻出アイテムセット（アイテム集合）を特定し、別の製品の消費に応じて、製品を消費する見込みを特定するものです。例えば、Spotifyでブラック・サバスのRadioを再生し、その楽曲である「Orchid」から始めた場合、このチャンネルの他の楽曲は、「Over the Hills and Far Away」などのレッド・ツェッペリンの曲になる可能性があります。これは、自分や他の人が聴いた曲の傾向から導き出されたものです。 Aprioriのアルゴリズムは、ハッシュ・ツリーを使ってアイテムセットをカウントし、幅優先探索方式でデータ・セットをナビゲートします。

次元削減

通常は、データが多いほど正確な結果が得られますが、データが多いと機械学習アルゴリズムのパフォーマンスに影響を与えたり（過剰適合など）、データ・セットの可視化も困難になることも考えられます。次元削減とは、特定のデータ・セットに含まれる特徴（次元）の数が多すぎる場合に使用される手法です。データ入力数を管理可能なサイズまで削減する一方で、データ・セットの整合性も可能な限り保ちます。通常、この手法はデータの前処理段階で使用されます。以下のように次元削減法には、いくつか種類があります。

主成分分析

主成分分析（PCA）は、次元削減アルゴリズムの一種であり、特徴量を抽出することで冗長性の削減やデータ・セットの圧縮を実行できます。この方法では、線形変換を使用して新しいデータ表現を作成し、「主成分」の集合を得られます。第1主成分は、データ・セットの分散が最大化になる方向です。第2主成分もデータの最大分散を検出しますが、第1主成分とは完全に相関がなく、第1主成分と垂直、すなわち直交する軸の方向を取ります。このプロセスは次元数に応じて繰り返されます。その際、次の主成分の軸の方向は、最も分散の大きい先行する成分ものと直交する方向になります。

特異値分解

特異値分解（SVD）は、行列Aを3つの低ランク行列に因数分解する次元削減のもう1つの手法です。 SVDは、A = USVT（ここでUとVは直交行列）という式で表されます。 Sは対角行列で、S値は行列Aの特異値とみなされます。PCAと同様に、ノイズの低減や画像ファイルなどのデータ圧縮によく使用されます。

オートエンコーダー

オートエンコーダーは、ニューラル・ネットワークを利用してデータを圧縮し、元のデータ入力を新しい表現で再生します。以下の画像を見ると、出力層内で再構築する前に、厳密にいえば隠れ層が入力層を圧縮するボトルネックとして機能していることがわかります。入力層から隠れ層までの段階を「エンコード」、隠れ層から出力層までの段階を「デコード」と呼びます。

教師なし学習の適用

機械学習の技術は、製品のユーザー・エクスペリエンスを向上させ、システム・テストで品質保証を行う際の一般的な方法となりつつあります。教師なし学習は、データを参照するための探索的な手段を提供するので、企業は大量データのパターンを、手動による観察と比べてより迅速に特定できます。実際の環境における教師なし学習の一般的な適用例を次に示します。

ニュース・セクション： Googleニュースでは教師なし学習を使用して、さまざまなインターネット報道機関からの同じニュース記事に基づいて記事をカテゴリー化しています。例えば、大統領選の結果は「米国」のニュースのラベルにカテゴリー化されます。
コンピューター・ビジョン：教師なし学習アルゴリズムは、対象認識などの視覚認識タスクに使用されています。
医用画像処理：教師なし機械学習は、患者を迅速かつ正確に診断するために、放射線科や病理検査で使用される画像検出、分類およびセグメンテーションなどの医用画像装置に不可欠な機能を提供しています。
異常検知：教師なし学習モデルは、大量のデータを綿密にチェックし、データ・セットの中から非定型のデータ・ポイントを検出できます。このような異常を確認すると、機器の不具合、人為的ミス、セキュリティー侵害などについての認識を高めることができます。
顧客のペルソナ：顧客のペルソナを定義することで、ビジネス顧客に共通する特徴や購買傾向を容易に把握できます。教師なし学習を利用すると、企業は購入者ペルソナの適格なプロファイルを構築して、製品メッセージをよりふさわしいものに調整できます。
レコメンデーション・エンジン: 教師なし学習では、過去の購買行動データを使用してデータ傾向を把握し、より効果的なクロスセル戦略を立てることができます。これは、オンライン販売業者が清算処理の際に、顧客に関連するアドオン推奨を作成するために使用されます。

教師なし学習、教師あり学習、半教師あり学習の違い

教師なし学習と教師あり学習はよく一緒に議論されます。教師あり学習アルゴリズムでは、教師なし学習アルゴリズムとは異なり、ラベルが付けられたデータを使用します。そのデータから、将来の結果を予測したり、解決を試みている回帰や分類の問題に基づいて、特定のカテゴリーにデータを割り当てたりします。教師あり学習アルゴリズムは、教師なし学習モデルよりも、精度が高い傾向がありますが、データに適切なラベルを付けるために事前に人が介入する必要があります。一方で、教師あり学習アルゴリズムは、このようなラベル付けされたデータ・セットにより、意図した成果を得るために大規模なトレーニング・セットを必要としないため、複雑な計算を回避できます。一般的な回帰と分類の手法としては、線形回帰、ロジスティック回帰、ナイーブベイズ、KNNアルゴリズム、ランダムフォレストなどがあります。

半教師付き学習は、与えられた入力データの一部だけにラベルが付けられている場合に行われます。教師あり学習では、データの適切なラベル付けに必要な専門知識に依存して時間とコストを要するため、教師なし学習や半教師あり学習が選択肢として魅力的である場合があります。

これらのアプローチの違いを深く掘り下げるには、「教師あり学習と教師なし学習の相違点」（英語）を参照してください。

教師なし学習の課題

教師なし学習には多くのメリットがある一方、機械学習モデルを人の介入なしに実行する際には、いくつかの課題があります。その一部を以下に示します。

大量のトレーニング・データによる計算の複雑さ
長いトレーニング時間
結果が不正確になるリスクの高さ
出力変数の検証のための人間の介入
データがクラスタリングされた際の根拠についての透明性の欠如