Explorative Datenanalyse
Erfahren Sie alles, was Sie über explorative Datenanalysen wissen müssen, eine Methode, die zum Analysieren und Zusammenfassen von Datensätzen verwendet wird
Schwarzer und blauer Hintergrund
Was ist explorative Datenanalyse?

Erfahren Sie alles, was Sie über explorative Datenanalyse wissen müssen, eine Methode, die zum Analysieren und Zusammenfassen von Datensätzen verwendet wird. 

Explorative Datenanalyse (EDA) wird von Datenwissenschaftlern verwendet, um Datensätze zu analysieren und zu untersuchen und ihre Hauptmerkmale zusammenzufassen, wobei häufig Datenvisualisierungsmethoden verwendet werden. Sie hilft herauszufinden, wie die Datenquellen am besten bearbeitet werden können, um die benötigten Antworten zu erhalten und Mustern und Anomalien zu erkennen, Hypothesen zu testen oder Annahmen zu überprüfen.

EDA wird in erster Linie verwendet, um zu sehen, was die Daten über die formale Modellierungs- oder Hypothesentestaufgabe hinaus offenbaren können, und bietet ein besseres Verständnis der Variablen des Datensatzes und der Beziehungen zwischen ihnen. Sie kann auch helfen zu bestimmen, ob die statistischen Techniken, die Sie für die Datenanalyse in Erwägung ziehen, geeignet sind. Ursprünglich von dem amerikanischen Mathematiker John Tukey in den 1970er Jahren entwickelt, ist die EDA-Technik auch heute noch eine weit verbreitete Methode in der Datenerkennung.

Warum ist explorative Datenanalyse wichtig in der Datenwissenschaft?

Der Hauptzweck von EDA ist es,  vor der Erstellung von Annahmen  zu helfen, Daten zu untersuchen.Sie kann helfen, offensichtliche Fehler zu erkennen sowie Muster innerhalb der Daten besser zu verstehen, Ausreißer oder anomale Ereignisse zu erkennen und interessante Beziehungen zwischen den Variablen zu finden.

Datenwissenschaftler können explorative Analysen verwenden, um sicherzustellen, dass die Ergebnisse, die sie produzieren, gültig und auf alle gewünschten Geschäftsergebnisse und Ziele anwendbar sind. Die EDA hilft den Stakeholdern auch, indem sie bestätigt, dass sie die richtigen Fragen stellen. EDA kann helfen, Fragen zu Standardabweichungen, kategorialen Variablen und Konfidenzintervallen zu beantworten. Sobald die EDA abgeschlossen ist und Erkenntnisse gezogen werden, können ihre Funktionen dann für eine komplexere Datenanalyse oder Modellierung verwendet werden, einschließlich maschinelles Lernen.

Tools für die explorative Datenanalyse

Bestimmte statistische Funktionen und Techniken, die Sie mit EDA-Tools durchführen können, sind:

  • Methoden zur Clusterbildung und Dimensionsreduktion, mit denen grafische Darstellungen von hochdimensionalen Daten erstellt werden, die viele Variablen enthalten.
  • Univariate Visualisierung von jedem Feld im Rohdatensatz, mit Übersichtsstatistik.
  • Bivariate Visualisierungen und zusammenfassende Statistiken, die es Ihnen ermöglichen, die Beziehung zwischen jeder Variablen in der Datei und der betrachteten Zielvariable zu beurteilen.
  • Multivariate Visualisierungen, zur Zuordnung und zum Verständnis von Interaktionen zwischen verschiedenen Feldern in den Daten.
  • K-Means-Clustering ist eine Clustering-Methode beim unüberwachten Lernen, bei der Datenpunkte in K-Gruppen, d. h. die Anzahl der Cluster, auf der Grundlage des Abstands zum Zentroid jeder Gruppe zugeordnet werden. Die Datenpunkte, die einem bestimmten Zentroid am nächsten sind, werden unter derselben Kategorie zusammengefasst. K-Means-Clustering wird häufig in der Marktsegmentierung, der Mustererkennung und der Bildkomprimierung verwendet.
  • Vorhersagemodelle, wie lineare Regression, setzen Statistiken und Daten ein, um Ergebnisse vorherzusagen.
Arten der explorativen Datenanalyse

Es gibt vier primäre Arten der EDA:

  • Univariat, nicht-grafisch. Dies ist die einfachste Form der Datenanalyse, bei der die zu analysierenden Daten nur aus einer Variablen bestehen. Da es sich um eine einzige Variable handelt, geht es nicht um Ursachen oder Beziehungen. Der Hauptzweck der univariaten Analyse besteht darin, die Daten zu beschreiben und in ihr enthaltene Muster zu finden.
  • Univariat, grafisch. Nicht-grafische Methoden liefern kein vollständiges Bild der Daten. Grafische Methoden sind daher erforderlich. Allgemeine Typen von univariaten Grafiken beinhalten:
    • Stamm-Blatt-Kurvendiagramme, die alle Datenwerte und die Form der Verteilung anzeigen.
    • Histogramme, ein Balkendiagramm, in dem jeder Balken die Häufigkeit (Anzahl) oder den Anteil (Anzahl/Gesamtanzahl) der Fälle eines Wertebereichs darstellt.
    • Box-Diagramme, die die fünfstellige Zusammenfassung des Minimums, des ersten Quartils, des Medians, des dritten Quartils und des Maximums grafisch darstellen.
  • Multivariat, nicht-grafisch:Multivariate Daten entstehen aus mehr als einer Variablen. Multivariate nicht-grafische EDA-Techniken bilden im Allgemeinen die Beziehung zwischen zwei oder mehr Variablen der Daten durch Kreuztabelle oder Statistiken ab.
  • Multivariat, grafisch: Multivariate Daten verwenden Daten, um Beziehungen zwischen zwei oder mehr Datensätzen anzuzeigen. Die am häufigsten verwendete Grafik ist ein gruppiertes Balkendiagramm, in dem jede Gruppe eine Ebene einer der Variablen und jeder Balken innerhalb einer Gruppe die Ebenen der anderen Variable darstellt.

Andere gängige Typen von multivariaten Grafiken sind:

  • Streudiagramm, zur Darstellung von Datenpunkten auf einer horizontalen und einer vertikalen Achse, um anzuzeigen, wie stark eine Variable von einer anderen Variablen betroffen ist.
  • Multivariates Diagramm, eine grafische Darstellung der Beziehungen zwischen Faktoren und einer Antwort.
  • Laufdiagramm, ein Liniendiagramm von Daten, die über die Zeit aufgetragen werden.
  • Blasendiagramm, eine Datenvisualisierung, die mehrere Kreise (Blasen) in einem zweidimensionalen Diagramm anzeigt.
  • Heat-Map, eine grafische Darstellung von Daten, bei der die Werte durch Farben dargestellt werden.
Tools für die explorative Datenanalyse

Einige der gebräuchlichsten Datenwissenschafts-Tools, die zum Erstellen einer EDA verwendet werden, sind:

  • Python: Eine interpretierte, objektorientierte Programmiersprache mit dynamischer Semantik. Ihre hochentwickelten, eingebauten Datenstrukturen, kombiniert mit dynamischer Typisierung und dynamischer Bindung, machen sie sehr attraktiv für die schnelle Anwendungsentwicklung sowie für die Verwendung als Script- oder Glue-Sprache, um bestehende Komponenten miteinander zu verbinden. Python und EDA können zusammen verwendet werden, um fehlende Werte in einem Datensatz zu identifizieren, was wichtig ist, um entscheiden zu können, wie fehlende Werte für das maschinelle Lernen behandelt werden sollen.
  • R: Eine Open-Source-Programmiersprache und eine freie Softwareumgebung für statistische Berechnungen und Grafiken, die von der R Foundation for Statistical Computing unterstützt werden. Die Sprache R ist unter Statistikern der Datenwissenschaft bei der Entwicklung statistischer Beobachtungen und der Datenanalyse weit verbreitet.

Für eine eingehende Untersuchung der Unterschiede zwischen diesen Ansätzen, sehen Sie sich "Python vs. R: Was ist der Unterschied?"

an.
Relevante Lösungen
IBM® Watson Studio

Verwenden Sie IBM® Watson Studio zur Bestimmung, ob die statistischen Verfahren, die Sie für die Datenanalyse erwägen, angemessen sind.

IBM® Watson Studio noch heute erkunden
Machen Sie den nächsten Schritt

IBM® Watson Studio bietet eine Benutzeroberfläche für Analysten und Datenwissenschaftler, um tiefer in ihre Datensätze einzutauchen. Dies hilft ihnen dabei, zusammenfassende Erkenntnisse für ihre Stakeholder bereitzustellen und auch auszuwerten, ob die Datensätze ausgewogen genug sind, um aussagekräftige Modelle aufzubauen.

IBM® Watson Studio noch heute erkunden