Explorative Datenanalyse

menu icon

Explorative Datenanalyse

Erfahren Sie alles, was Sie über explorative Datenanalysen wissen müssen, eine Methode, die zum Analysieren und Zusammenfassen von Datensätzen verwendet wird.

Was ist explorative Datenanalyse?

Explorative Datenanalyse (EDA) wird von Data-Scientists verwendet, um Datensätze zu analysieren und zu untersuchen und ihre Hauptmerkmale zusammenzufassen, wobei häufig Datenvisualisierungsmethoden verwendet werden. Sie hilft herauszufinden, wie die Datenquellen am besten bearbeitet werden können, um die benötigten Antworten zu erhalten. Sie erleichtert den Data-Scientists die Erkennung von Mustern und Anomalien, das Testen von Hypothesen oder die Überprüfung von Annahmen.

EDA wird in erster Linie verwendet, um zu sehen, was die Daten über die formale Modellierungs- oder Hypothesentestaufgabe hinaus offenbaren können, und bietet ein besseres Verständnis der Variablen des Datensatzes und der Beziehungen zwischen ihnen. Sie kann auch helfen zu bestimmen, ob die statistischen Techniken, die Sie für die Datenanalyse in Erwägung ziehen, geeignet sind. Ursprünglich von dem amerikanischen Mathematiker John Tukey in den 1970er Jahren entwickelt, ist die EDA-Technik auch heute noch eine weit verbreitete Methode in der Datenerkennung.

Warum ist explorative Datenanalyse wichtig in der Datenwissenschaft?

Der Hauptzweck von EDA ist es, vor der Erstellung von Annahmen zu helfen, Daten zu untersuchen. Sie kann helfen, offensichtliche Fehler zu erkennen sowie Muster innerhalb der Daten besser zu verstehen, Ausreißer oder anomale Ereignisse zu erkennen und interessante Beziehungen zwischen den Variablen zu finden.

Data-Scientists können explorative Analysen verwenden, um sicherzustellen, dass die Ergebnisse, die sie produzieren, gültig sind und auf alle gewünschten Geschäftsergebnisse und Ziele anwendbar sind. Die EDA hilft den Stakeholdern auch, indem sie bestätigt, dass sie die richtigen Fragen stellen. Die EDA kann helfen, Fragen zu Standardabweichungen, kategorialen Variablen und Konfidenzintervallen zu beantworten. Sobald die EDA abgeschlossen ist und Erkenntnisse gezogen werden, können ihre Funktionen dann für eine komplexere Datenanalyse oder Modellierung verwendet werden, einschließlich maschinelles Lernen.

Tools für die explorative Datenanalyse

Bestimmte statistische Funktionen und Techniken, die Sie mit EDA-Tools durchführen können, sind:

  • Methoden zur Clusterbildung und Dimensionsreduktion, mit denen grafische Darstellungen von hochdimensionalen Daten, die viele Variablen enthalten, erstellt werden.
  • Univariate Visualisierung von jedem Feld im Rohdatensatz, mit Übersichtsstatistik.
  • Bivariate Visualisierungen und zusammenfassende Statistiken, die es Ihnen ermöglichen, die Beziehung zwischen jeder Variablen in der Datei und der betrachteten Zielvariable zu beurteilen.
  • Multivariate Visualisierungen, zur Zuordnung und zum Verständnis von Interaktionen zwischen verschiedenen Feldern in den Daten.
  • K-Means-Clustering ist eine Clustering-Methode beim unüberwachten Lernen, bei der Datenpunkte in K-Gruppen, d. h. die Anzahl der Cluster, auf der Grundlage des Abstands zum Zentroid jeder Gruppe zugeordnet werden. Die Datenpunkte, die einem bestimmten Zentroid am nächsten sind, werden unter derselben Kategorie zusammengefasst. K-Means-Clustering wird häufig in der Marktsegmentierung, der Mustererkennung und der Bildkomprimierung verwendet.
  • Vorhersagemodelle, wie lineare Regression, verwenden Statistiken und Daten, um Ergebnisse vorherzusagen.

Arten der explorativen Datenanalyse

Es gibt vier primäre Arten der EDA:

  • Univariat, nicht-grafisch. Dies ist die einfachste Form der Datenanalyse, bei der die zu analysierenden Daten nur aus einer Variablen bestehen. Da es sich um eine einzige Variable handelt, geht es nicht um Ursachen oder Beziehungen. Der Hauptzweck der univariaten Analyse besteht darin, die Daten zu beschreiben und Muster zu finden, die in ihr vorhanden sind.
  • Univariat, grafisch. Nicht-grafische Methoden liefern kein vollständiges Bild der Daten. Grafische Methoden sind daher erforderlich. Allgemeine Typen von univariaten Grafiken beinhalten:
    • Stamm-Blatt-Kurvendiagramme, die alle Datenwerte und die Form der Verteilung anzeigen.
    • Histogramme, ein Balkendiagramm, in dem jeder Balken die Häufigkeit (Anzahl) oder den Anteil (Anzahl/Gesamtanzahl) der Fälle für einen Wertebereich darstellt.
    • Box-Diagramme, die die fünfstellige Zusammenfassung des Minimums, des ersten Quartils, des Medians, des dritten Quartils und des Maximums grafisch darstellen.
  • Multivariat, nicht-grafisch: Multivariate Daten entstehen aus mehr als einer Variablen. Multivariate nicht-grafische EDA-Techniken zeigen im Allgemeinen die Beziehung zwischen zwei oder mehr Variablen der Daten durch Kreuztabelle oder Statistiken.
  • Multivariat, grafisch: Multivariate Daten verwenden Grafiken, um Beziehungen zwischen zwei oder mehreren Datensätzen anzuzeigen. Die am häufigsten verwendete Grafik ist ein gruppiertes Balkendiagramm, in dem jede Gruppe eine Ebene einer der Variablen und jeder Balken innerhalb einer Gruppe die Ebenen der anderen Variable darstellt.

Andere gängige Typen von multivariaten Grafiken sind:

  • Streudiagramm, zur Darstellung von Datenpunkten auf einer horizontalen und einer vertikalen Achse, um anzuzeigen, wie stark eine Variable von einer anderen Variablen betroffen ist.
  • Multivariates Diagramm, eine grafische Darstellung der Beziehungen zwischen Faktoren und einer Antwort.
  • Laufdiagramm, ein Liniendiagramm von Daten, die über die Zeit aufgetragen werden.
  • Blasendiagramm, eine Datenvisualisierung, die mehrere Kreise (Blasen) in einem zweidimensionalen Diagramm anzeigt.
  • Heat-Map, eine grafische Darstellung von Daten, bei der die Werte durch Farben dargestellt werden.

Tools für die explorative Datenanalyse

Einige der gebräuchlichsten Datenwissenschafts-Tools, die zum Erstellen einer EDA verwendet werden, sind:

  • Python: Eine interpretierte, objektorientierte Programmiersprache mit dynamischer Semantik. Ihre hochentwickelten, eingebauten Datenstrukturen, kombiniert mit dynamischer Typisierung und dynamischer Bindung, machen sie sehr attraktiv für die schnelle Anwendungsentwicklung sowie für die Verwendung als Script- oder Glue-Sprache, um bestehende Komponenten miteinander zu verbinden. Python und EDA können zusammen verwendet werden, um fehlende Werte in einem Datensatz zu identifizieren, was wichtig ist, damit Sie entscheiden können, wie fehlende Werte für das maschinelle Lernen behandelt werden sollen.
  • R: Eine Open-Source-Programmiersprache und eine freie Softwareumgebung für statistische Berechnungen und Grafiken, die von der R Foundation for Statistical Computing unterstützt werden. Die Sprache R ist unter den Statistikern der Datenwissenschaft bei der Entwicklung statistischer Beobachtungen und der Datenanalyse weit verbreitet.

Einen tieferen Einblick in die Unterschiede zwischen diesen Ansätzen finden Sie in "Python vs. R: Was ist der Unterschied?"

IBM und explorative Datenanalyse

Das IBM Explore-Verfahren bietet eine Vielzahl visueller und numerischer Zusammenfassungen von Daten, entweder für alle Fälle oder getrennt für Gruppen von Fällen. Die abhängige Variable muss eine metrische Variable sein, während die Gruppierungsvariablen ordinal oder nominal sein können.

Mit der IBM Explore-Prozedur können Sie:

  • Daten überprüfen
  • Ausreißer ermitteln
  • Annahmen prüfen
  • Unterschiede zwischen Gruppen von Fällen charakterisieren

Erfahren Sie hier mehr über die IBM Explore-Prozedur. Melden Sie sich für weitere Informationen zur explorativen Datenanalyse für die IBM ID an und erstellen Sie Ihr IBM Cloud-Konto