データ・セットの分析と要約に使用される探索的データ分析という手法について、理解する上で必要な内容をすべてご紹介します。
探索的データ分析(EDA)は、データ・サイエンティストがデータ・セットを分析および調査して、主な特性を要約するために使用する手法で、データ可視化の手法が活用されることが多くあります。 それは、データ・サイエンティストがパターンを見つけ出すことや、異常に気付き、仮説を検証し、仮定を確認することを容易にするため、データ・ソースをどのように操作すれば必要な答えが得られるかについて、判断を行う際に役立ちます。
EDAは主に、形式モデリングまたは仮説検定のタスクにとどまらず、データから何を読み取れるかを見出すのに用いられ、データ・セットの変数および変数間の関連をよりよく理解することに役立ちます。 また、データ分析のために検討している統計技法が適切かどうかを判断することにも役立ちます。 1970年代にアメリカの数学者であるJohn Tukey氏によって開発されたEDA技法は、今日のデータ発見プロセスにおいて広く使われ続けている手法です。
EDAの主な目的は、 前提条件を作成する前のデータ考察を支援することです。 これは、明らかなエラーを識別し、データ内のパターンをよりよく理解し、外れ値または異常イベントを検出し、変数間の興味深い関連を検索するのに役立ちます。
データ・サイエンティストは探索的分析を使用して、導き出した結果が有効であり、望ましいビジネス成果と目標に適用できることを確認することができます。 EDAはまた、ステークホルダーが的確な質問をしていることを確認することで、彼らを支援します。 EDAは標準偏差、カテゴリー変数、および信頼区間に関する質問への回答に役立ちます。 EDAが完了し、洞察が得られると、その特徴を元に機械学習を含む、より洗練されたデータ分析またはモデリングに使用することができます。
EDAツールを使用して実行できる特定の統計機能および技法は次のとおりです。
EDAには4つの基本タイプがあります。
多変量グラフィックスのその他の一般的なタイプは次のとおりです。
EDAの作成に使用される代表的なデータ・サイエンス・ツールには、以下のようなものがあります。
これらのアプローチの違いについて深く掘り下げるには、「Python vs. R: What's the Difference?(PythonとR:違いは何か)」
をご参照ください。IBM Watson®を使用して、データ分析のために検討している統計技法が適切かどうかを判断することができます。