探索的データ分析

menu icon

探索的データ分析

データ・セットの分析や要約に用いられる手法である探索的データ分析 (Explanatory Data Analysis: EDA)。このページでは、EDAの概要、データサイエンスにとって重要な理由、ツール、種類、IBMの「探索」プロシージャーについて解説します。

探索的データ分析とは

探索的データ分析(EDA)は、データサイエンティストがにより、データ・セットを分析・および調査して主な特性を要約するためのに使用されるもので、しばしばデータ可視化の手法としてよく使われを活用します。 必要な回答を得るためのデータ・ソースの最適な処理方法を決定するのに役立ち、データサイエンティストがパターンを発見し、異常を特定し、仮説をテストし、前提条件を確認するのを容易にします。

EDAは、主に、形式モデリングやまたは仮説検定のタスクだけでなくにとどまらず、データから何を読み取れるかを見出すのに用いられ、データ・セットの変数と変数間の関連をよりよく理解するのに有効で役立ちます。 また、データ分析のために検討している統計技法が適切かどうかを判断するのにも役立ちます。 1970年代にアメリカの数学者であるジョン・テューキーによって開発されたEDAの技法テクニックは、今日のデータ探索発見プロセスにおいて広く使われ続けている手法です。

探索的データ分析がデータサイエンスにおいて重要な理由とは

EDAの主な目的は、前提条件を設定作成する前のデータ考察を支援することです。これは、明らかなエラーを識別し、データ内のパターンをよりよく理解し、外れ値または異常イベントを検出し、変数間の興味深い関連を検出索するのに役立ちます。

データサイエンティストは探索的分析を使用して、導き出した結果が有効であり、望ましいビジネス成果と目標に適用できることを確認することができます。 EDAはまた、ステークホルダーが正しい質問をしていることを確認することで、彼らを支援します。 EDAは標準偏差、カテゴリー変数、および信頼区間に関する質問への回答に役立ちます。 EDAが完了し、洞察が得られると、その特徴を元に機械学習を含む、より洗練されたデータ分析やまたはモデリングに使用することができます。

探索的データ分析ツール

EDAツールを使用して実行できる特定の統計機能とおよび技法は次のとおりです。

  • 多くの変数を含む高次元データのグラフィカル表示の作成に役立つ、クラスタリングと次元削減の技法。
  • 生データ・セット内の各フィールドの単変量データの可視化、要約統計量。
  • データ・セット内の各変数と考察中のターゲット変数間の相関関係の評価を可能にする、二変量データの可視化と要約統計量。
  • データ内の異なるフィールド間の相互作用をマッピングし、理解するための、多変量データの可視化。
  • K平均法は、教師なし学習におけるクラスタリング手法で、ここでは各グループのセントロイドからの距離に基づいて、データ・ポイントがK(クラスターの数)個のグループに割り当てられます。 特定のセントロイドに最も近いデータ・ポイントは、同じカテゴリー下でクラスター化されます。 K平均法は、マーケット・セグメンテーション、パターン認識、画像圧縮で一般的に使用されます。
  • 線形回帰などの予測モデルでは、統計とデータを使用して結果を予測します。

探索的データ分析のタイプ

EDAには4つの基本タイプがあります。

  • 単変量非グラフィカル:これは最も単純な形式のデータ分析で、分析されるデータは1つの変数だけで構成されます。 これは単一の変数のため、原因や関連性は扱いません。 単変量解析の主な目的は、データを記述し、その中に存在するパターンを検出することです。
  • 単変量グラフィカル:非グラフィカル手法ではデータの全体像がつかめませんので、グラフィカル手法が必要となります。 単変量グラフィックスの一般的なタイプは次のとおりです。
    • 幹葉図-すべてのデータ値と分布の形状を表示します。
    • ヒストグラム-各棒がある範囲のデータ値の頻度(カウント)または割合(カウント/合計カウント)を表す棒グラフです。
    • 箱ひげ図-最小値、第一四分位数、中央値、第三四分位数、最大値の5つの数値の要約をグラフィカルに表現するものです。
  • 多変量非グラフィカル:多変量データは1つ以上の変数から発生します。 多変量の非グラフィカルなEDA技法は一般的に、クロス集計または統計を介して、データの2つまたはそれ以上の変数間の相関関係を示します。
  • 多変量グラフィカル:多変量データはグラフィックスを使用して、2セット以上のデータ間の相関関係を表示します。 最も使用されているグラフィックは、グループ化された棒グラフ、または各グループが数ある変数のうち1つのレベルを表し、グループ内の各棒が他の変数のレベルを表す棒グラフです。

多変量グラフィックスのその他の一般的なタイプは次のとおりです。

  • 分布図-水平軸と垂直軸にデータ・ポイントをプロットして、1つの変数が別の変数の影響をどの程度受けるかを示すのに使用されます。
  • 多変量グラフ-因子と応答との相関関係をグラフィカルに表現したものです。
  • ランチャート-時間の経過と共にプロットされたデータの折れ線グラフです。
  • バブル・チャート-これは2次元プロットで複数の円(バブル)を表示する、データ可視化チャートです。
  • ヒート・マップ-データ値がカラーで表現される、データのグラフィカル表現です。

探索的データ分析ツール例

EDAの作成に使用される、最も一般的なデータサイエンス・ツールの一部を紹介します。

  • Python:動的意味論を採用した、インタプリタ型でオブジェクト指向のプログラミング言語です。 高レベルの組み込みデータ構造に、動的型付けと動的バインディングを組み合わせることで、迅速なアプリケーション開発だけでなく、既存のコンポーネントを一緒に接続するためのスクリプト言語またはグルー言語としての利用にとって、非常に魅力的なツールです。 PythonとEDAを一緒に使用して、データ・セット内の欠損値を識別することができます。この重要なプロセスにより、機械学習の欠損値の処理方法を決定することができます。
  • R言語: The R Foundation for Statistical Computingがサポートする、統計コンピューティングやグラフィックスのための、オープンソースのプログラミング言語とフリーソフトウェア環境です。 このR言語は、統計的観測やデータ分析の開発において、データ科学の統計学者の間で広く使用されています。

これらのアプローチの違いについて深く掘り下げるには、「Python vs. R: What's the Difference?(PythonとR:違いは何か)」をご参照ください。

IBMと探索的データ分析

IBMの「探索」プロシージャーは、あらゆるケースについて、またはケースのグループについて個別に、データのさまざまなビジュアルやおよび数値の要約を提供します。 従属変数はスケール変数でなければならず、グループ化変数は順序変数やまたは名義変数となります。

IBMの「探索」プロシージャーを利用して、以下を実行できます。

  • データのスクリーニング
  • 外れ値の識別
  • 前提条件の確認
  • ケースのグループ間の違いの特徴付け

IBMの探索プロシージャーの詳細についてはこちらをご覧ください。 探索的データ分析の詳細については、IBMidに申し込み、お客様のIBM Cloudアカウントを作成してください。