ホーム
Topics
探索的データ分析
探索的データ分析(EDA)とは、データサイエンティストがデータセットを分析・調査して、その主な特徴をまとめる際に用いるもので、多くの場合、データの可視化手法を使用しています。
EDAは、必要な答えを得るためにデータ・ソースを操作する最適な方法を決定する際に役立つため、データサイエンティストはパターンの発見、異常の特定、仮説の検証、仮定の確認を容易に行うことができます。
EDAは主に、形式的モデル化や仮説検証のタスクを超えて、データから何を明らかにできるのかを確認するために使用され、データ・セットの変数とそれらの関係をより深く理解できるようにします。 また、データ分析に向けて検討している統計的手法が適切かどうかを判断するのにも役立ちます。 EDAの手法は、元々1970年代にアメリカの数学者John Tukey氏によって開発されたものですが、現在でもデータ検出プロセスで広く使われている手法です。
アプリケーション、分析、生成AIのために適切なデータベースを活用する方法について説明します。
EDAの主な目的は、仮定を行う前にデータを確認できるようにすることです。明らかなエラーを特定するだけでなく、データ内のパターンをより深く理解し、外れ値や異常なイベントを検知して、変数間の興味深い関係を見つけることもできます。
データサイエンティストがこの探索的分析を使用すると、自分たちが出した結果が妥当で、望ましいビジネスの成果や目標に適用できることを確認できます。 EDAはまた、利害関係者がしている質問が適切かどうかを確認することで、利害関係者を支援します。 EDAは、標準偏差、カテゴリ変数、信頼区間に関する質問に答えるのに役立ちます。 EDAが完了してインサイトが得られると、その機能を活用して、機械学習を含む、より高度なデータ分析やモデリングを行うことができます。
EDAツールで実行できる具体的な統計関数と手法には、以下のようなものがあります。
EDAには、主に4つの種類があります。
その他のよく使われる多変量グラフィックスの種類には、以下のようなものがあります。
EDAの作成に使用される最も一般的なデータサイエンス・プログラミング言語には、次のようなものがあります。
これらのアプローチの違いについては、「PythonとRの違い」をご覧ください。
IBM Cognos Analyticsは、データの視覚化と探索、統計分析、データ・マイニングなどの探索的データ分析をサポートするさまざまな機能とツールを提供します。
IBM Watson Studioを使用して、データ分析に向けて検討している統計的手法が適切かどうかを判断します。
MLパイプラインの構築に関連するデータ品質の問題を発見し、データを準備するためのEDAとデータの可視化手法の重要性と役割を説明します。
データの取得、データのクレンジング、特徴量エンジニアリングの適用、および予備分析と仮説検証の準備を整える際によく用いられる手法を説明します。
IBM Cognos Analyticsの探索的データ分析機能とツールが、データに対する理解を深め、パターンと関係を特定し、情報に基づいたビジネス上の意思決定を迅速に行うためにどのように役立つかを説明します。