探索的データ分析(EDA)とは

EDAとは

探索的データ分析(EDA)とは、データサイエンティストがデータセットを分析・調査して、その主な特徴をまとめる際に用いるもので、多くの場合、データの可視化手法を使用しています。

EDAは、必要な答えを得るためにデータ・ソースを操作する最適な方法を決定する際に役立つため、データサイエンティストはパターンの発見、異常の特定、仮説の検証、仮定の確認を容易に行うことができます。

EDAは主に、形式的モデル化や仮説検証のタスクを超えて、データから何を明らかにできるのかを確認するために使用され、データ・セットの変数とそれらの関係をより深く理解できるようにします。 また、データ分析に向けて検討している統計的手法が適切かどうかを判断するのにも役立ちます。 EDAの手法は、元々1970年代にアメリカの数学者John Tukey氏によって開発されたものですが、現在でもデータ検出プロセスで広く使われている手法です。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

データサイエンスでEDAが重要である理由

EDAの主な目的は、仮定を行う前にデータを確認できるようにすることです。明らかなエラーを特定するだけでなく、データ内のパターンをより深く理解し、外れ値や異常なイベントを検知して、変数間の興味深い関係を見つけることもできます。

この探索的分析を使用すると、データサイエンティストは、生成した結果が有効で、望ましいビジネスの成果や目標に確実に適用できます。また、EDAは、利害関係者がしている質問が適切かどうかを確認することで、利害関係者を支援します。EDAを使用すると、標準偏差、カテゴリ変数、信頼区間に関する問いへの答えを得られます。EDAが完了して知見が得られたら、その機能を活用して、機械学習など、より高度なデータ分析やモデリングを行うことができます。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

EDAツール

EDAツールで実行できる具体的な統計関数と手法には、以下のようなものがあります。

  • クラスタリングおよび次元削減手法。これは多くの変数を含む高次元データをグラフィカルに表示するのに役立ちます。

  • 生データ・セットの各フィールドの単変量可視化と要約統計量。

  • 二変量可視化と要約統計量:データ・セット内の各変数と調査対象の変数との関係を評価できます。

  • 多変量可視化:データ内の異なるフィールド間の相互作用をマッピングして理解できます。

  • K平均法は、教師なし学習におけるクラスタリング手法で、各グループの重心からの距離に基づいて、データ・ポイントをK個のグループ、つまりクラスタ数に割り当てます。特定の重心に最も近いデータ・ポイントは、同じカテゴリの下にクラスタリングされます。k平均法は、市場セグメンテーション、パターン認識、および画像圧縮などでよく使われます。

  • 線形回帰などの予測モデルは、統計とデータを使用して結果を予測します。

EDAのタイプ

EDAには、主に4つの種類があります。

  • 非単変量図式
  • 単変量図式
  • 非多変量図式
  • 多変量図式

非単変量図式

これはデータ分析の中で最も単純な形式で、分析対象のデータは1つの変数のみで構成されます。これは単一変数であるため、原因や関係性は扱いません。単変量分析の主な目的は、データを記述し、その中に存在するパターンを見つけることです。

単変量図式

図式以外の方法では、データの全体像は把握できないため、図式解法が必要になります。一般的な単変量図式には、以下の種類があります。

  • 幹葉図:すべてのデータ値と分布の形状を示します。

  • ヒストグラム:各棒グラフがある値の範囲に対するケースの頻度(数)または割合(数/合計数)を表す棒グラフです。

  • 箱ひげ図:最小値、第1四分位値、中央値、第3四分位値、最大値の5つの数値の要約をグラフで表します。

非多変量図式

多変量データは複数の変数から生成されます。非多変量図式のEDA手法では、一般的にクロス集計や統計によってデータの2つ以上の変数間の関係を示します。

多変量図式

多変量データでは、2つ以上のデータセット間の関係を表すために図を使用します。最もよく使われる図式は、グループ化された棒グラフまたは横棒グラフで、各グループは変数の1つの水準を表し、グループ内の各棒は他の変数の水準を表します。

その他のよく使われる多変量グラフィックスの種類には、以下のようなものがあります。

  • 散布図:データ・ポイントを横軸と縦軸にプロットするもので、ある変数が別の変数によってどの程度影響を受けるかを示すために使用されます。

  • 多変量管理図:因子と回答の関係をグラフで表したものです。

  • ランチャート:データを経時的にプロットした折れ線グラフです。

  • バブルチャート:2次元プロットに複数の円(バブル)を表示するデータの可視化です。

  • ヒートマップ:値が色で描かれるデータのグラフィック表現です。

探索的データ分析言語

EDAの作成に使用される最も一般的なデータサイエンス・プログラミング言語には、次のようなものがあります。

  • Python:動的セマンティクスを持つインタプリタ型のオブジェクト指向プログラミング言語。この言語が持つ高レベルの組み込みデータ構造と、動的型付けと動的バインディングの組み合わせにより、迅速なアプリケーション開発だけでなく、既存のコンポーネントを接続するためのスクリプト言語またはグルー言語として使用するのにも非常に魅力的です。PythonとEDAを併用すると、データ・セット内の欠損値を特定できます。これは、機械学習で欠損値を処理する方法を決定するために重要です。

  • R:R Foundation for Statistical Computing(統計コンピューティングのためのR財団)によってサポートされているオープンソースのプログラミング言語および統計コンピューティングとグラフィックスに対応するフリーソフトウェア環境。 R言語は、統計的観測やデータ分析の開発において、データサイエンスの統計学者の間で広く使用されています。

これらのアプローチの違いについては、「PythonとRの違い」をご覧ください。

関連ソリューション
IBMプロジェクトRipasso

起きた事柄とその理由、起きる可能性がある事柄、そしてそれに対処する方法を理解します。プロジェクトRipassoは、その理由を明確かつ詳細に説明することで、すべてのビジネス・ユーザーに洞察力を提供し、思考の速さで自信を持って意思決定を行えるようにします。

プロジェクトRipassoの詳細はこちら
分析ツールとソリューション

企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。

分析ソリューションの詳細はこちら
データ分析コンサルティングサービス

IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。

分析サービスを発見する
次のステップ

企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。

分析ソリューションの詳細はこちら IBMプロジェクトRipassoの詳細はこちら