探索的データ分析(EDA)とは、データサイエンティストがデータセットを分析・調査して、その主な特徴をまとめる際に用いるもので、多くの場合、データの可視化手法を使用しています。
EDAは、必要な答えを得るためにデータ・ソースを操作する最適な方法を決定する際に役立つため、データサイエンティストはパターンの発見、異常の特定、仮説の検証、仮定の確認を容易に行うことができます。
EDAは主に、形式的モデル化や仮説検証のタスクを超えて、データから何を明らかにできるのかを確認するために使用され、データ・セットの変数とそれらの関係をより深く理解できるようにします。 また、データ分析に向けて検討している統計的手法が適切かどうかを判断するのにも役立ちます。 EDAの手法は、元々1970年代にアメリカの数学者John Tukey氏によって開発されたものですが、現在でもデータ検出プロセスで広く使われている手法です。
EDAの主な目的は、仮定を行う前にデータを確認できるようにすることです。明らかなエラーを特定するだけでなく、データ内のパターンをより深く理解し、外れ値や異常なイベントを検知して、変数間の興味深い関係を見つけることもできます。
この探索的分析を使用すると、データサイエンティストは、生成した結果が有効で、望ましいビジネスの成果や目標に確実に適用できます。また、EDAは、利害関係者がしている質問が適切かどうかを確認することで、利害関係者を支援します。EDAを使用すると、標準偏差、カテゴリ変数、信頼区間に関する問いへの答えを得られます。EDAが完了して知見が得られたら、その機能を活用して、機械学習など、より高度なデータ分析やモデリングを行うことができます。
EDAツールで実行できる具体的な統計関数と手法には、以下のようなものがあります。
EDAには、主に4つの種類があります。
これはデータ分析の中で最も単純な形式で、分析対象のデータは1つの変数のみで構成されます。これは単一変数であるため、原因や関係性は扱いません。単変量分析の主な目的は、データを記述し、その中に存在するパターンを見つけることです。
図式以外の方法では、データの全体像は把握できないため、図式解法が必要になります。一般的な単変量図式には、以下の種類があります。
多変量データは複数の変数から生成されます。非多変量図式のEDA手法では、一般的にクロス集計や統計によってデータの2つ以上の変数間の関係を示します。
多変量データでは、2つ以上のデータセット間の関係を表すために図を使用します。最もよく使われる図式は、グループ化された棒グラフまたは横棒グラフで、各グループは変数の1つの水準を表し、グループ内の各棒は他の変数の水準を表します。
その他のよく使われる多変量グラフィックスの種類には、以下のようなものがあります。
EDAの作成に使用される最も一般的なデータサイエンス・プログラミング言語には、次のようなものがあります。
これらのアプローチの違いについては、「PythonとRの違い」をご覧ください。
ABIソリューションの進化する状況について独自の洞察を提供し、データおよび分析のリーダーにとって重要な調査結果、仮定、推奨事項をご覧ください。
データ駆動型の組織を構築し、ビジネス上の優位性を推進するためのデータ・リーダー向けガイドはこちらです。
データ・アクセスを簡素化し、データ・ガバナンスを自動化します。ワークロードのコスト最適化、AIと分析の拡張など、データレイクハウス戦略をデータ・アーキテクチャーに統合することで、あらゆるデータをあらゆる場所で利用できるようになります。
データ駆動型の洞察を活用することで、ノースヨーク総合病院が治療の改善と資金確保をどのように実現させているかをご覧ください。
起きた事柄とその理由、起きる可能性がある事柄、そしてそれに対処する方法を理解します。プロジェクトRipassoは、その理由を明確かつ詳細に説明することで、すべてのビジネス・ユーザーに洞察力を提供し、思考の速さで自信を持って意思決定を行えるようにします。
企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。