Was ist explorative Datenanalyse (EDA)?
Entdecken Sie die EDA-Lösung von IBM Abonnieren Sie KI-Updates
Illustration mit Collage von Cloud-Piktogrammen, Tortendiagramm, Grafikpiktogrammen zu folgenden Themen
Was ist EDA?

Die explorative Datenanalyse (EDA) wird von Data Scientists verwendet, um Datensätze zu analysieren und zu untersuchen und ihre Hauptmerkmale zusammenzufassen, wobei häufig Datenvisualisierungsmethoden eingesetzt werden.

EDA hilft dabei, herauszufinden, wie Datenquellen am besten manipuliert werden können, um die benötigten Antworten zu erhalten, und erleichtert es Data Scientists, Muster zu entdecken, Anomalien zu erkennen, eine Hypothese zu testen oder Annahmen zu überprüfen.

EDA wird in erster Linie verwendet, um zu sehen, was Daten über die formale Modellierung oder das Testen von Hypothesen hinaus aussagen können, und bietet ein besseres Verständnis der Datensatzvariablen und der Beziehungen zwischen ihnen. Es kann auch dabei helfen, festzustellen, ob die statistischen Techniken, die Sie für die Datenanalyse in Betracht ziehen, geeignet sind. Ursprünglich in den 1970er Jahren vom amerikanischen Mathematiker John Tukey entwickelt, sind EDA-Techniken auch heute noch eine weit verbreitete Methode im Datenerkennungsprozess.

Ein Leitfaden für Datenverantwortliche

Erfahren Sie, wie Sie die richtigen Datenbanken für Anwendungen, Analysen und generative KI nutzen.

Ähnliche Inhalte

Registrieren Sie sich für das E-Book zum Thema generative KI

Warum ist die explorative Datenanalyse im Bereich Data Science wichtig?

Der Hauptzweck von EDA besteht darin, die Daten zu prüfen, bevor Annahmen getroffen werden. Sie kann dabei helfen, offensichtliche Fehler zu erkennen, Muster in den Daten besser zu verstehen, Sonderfälle oder anomale Ereignisse zu erkennen und interessante Beziehungen zwischen den Variablen zu finden.

Data Scientists können mithilfe explorativer Analysen sicherstellen, dass die von ihnen erzielten Ergebnisse gültig und auf alle gewünschten Geschäftsergebnisse und -ziele anwendbar sind. EDA hilft Stakeholdern außerdem, indem sie bestätigt, dass sie die richtigen Fragen stellen. EDA kann dabei helfen, Fragen zu Standardabweichungen, kategorischen Variablen und Konfidenzintervallen zu beantworten. Sobald die EDA abgeschlossen ist und die Erkenntnisse erfasst wurden, können sie für eine komplexere Datenanalyse oder -modellierung verwendet werden, einschließlich maschinellem Lernen.

Tools für die explorative Datenanalyse

Zu den spezifischen statistischen Funktionen und Techniken, die Sie mit EDA-Tools ausführen können, gehören:

  • Clustering- und Dimensionsreduktionstechniken, die bei der Erstellung grafischer Darstellungen hochdimensionaler Daten mit vielen Variablen helfen.
  • Univariate Visualisierung jedes Feldes im Roh-Datensatz mit zusammenfassenden Statistiken.
  • Bivariate Visualisierungen und zusammenfassende Statistiken, mit denen Sie die Beziehung zwischen jeder Variablen im Datensatz und der betrachteten Zielvariablen bewerten können.
  • Multivariate Visualisierungen für die Zuordnung und das Verständnis von Interaktionen zwischen verschiedenen Feldern in den Daten.
  • K-Means-Clustering ist eine Clustering-Methode in unüberwachtem Lernen, bei der Datenpunkte verschiedenen K-Gruppen zugewiesen werden, d. h. die Anzahl der Cluster, basierend auf der Entfernung vom Schwerpunkt der einzelnen Gruppen. Die Datenpunkte, die einem bestimmten Schwerpunkt am nächsten liegen, werden unter derselben Kategorie geclustert. K-Means-Clustering wird häufig in den Bereichen Marktsegmentierung, Mustererkennung und Bildkomprimierung verwendet.
  • Prognosemodelle wie lineare Regression verwenden Statistiken und Daten, um Ergebnisse vorherzusagen.
Arten der explorativen Datenanalyse

Es gibt vier Haupttypen von EDA:

  • Univariat, nicht grafisch. Dies ist die einfachste Form der Datenanalyse, bei der die analysierten Daten nur aus einer Variablen bestehen. Da es sich um eine einzelne Variable handelt, geht es nicht um Ursachen oder Beziehungen. Der Hauptzweck der univariaten Analyse besteht darin, die Daten zu beschreiben und darin vorhandene Muster zu finden.
  • Univariat, grafisch. Nicht-grafische Methoden liefern kein vollständiges Bild der Daten. Daher sind grafische Methoden erforderlich. Zu den gängigen Arten von univariaten Grafiken gehören:
    • Stamm-Blatt-Diagramme, die alle Datenwerte und die Form der Verteilung zeigen.
    • Histogramme, ein Balkendiagramm, in dem jeder Balken die Häufigkeit (Anzahl) oder den Anteil (Anzahl/Gesamtanzahl) von Fällen für einen Wertebereich darstellt.
    • Boxplots, die die fünfstellige Zusammenfassung von Minimum, erstem Quartil, Median, drittem Quartil und Maximum grafisch darstellen.
  • Multivariat, nicht grafisch: Multivariate Daten entstehen aus mehr als einer Variable. Multivariate, nicht grafische EDA-Techniken zeigen im Allgemeinen die Beziehung zwischen zwei oder mehr Variablen der Daten durch Kreuztabellen oder Statistiken.
  • Multivariat, grafisch: Multivariate Daten verwenden Grafiken, um Beziehungen zwischen zwei oder mehr Datensätzen anzuzeigen. Die am häufigsten verwendete Grafik ist ein gruppiertes Balkendiagramm, wobei jede Gruppe eine Ebene einer der Variablen und jeder Balken in einer Gruppe die Ebenen der anderen Variable darstellt.

Weitere gängige Arten von multivariaten Grafiken sind:

  • Streudiagramm, mit dem Datenpunkte auf einer horizontalen und einer vertikalen Achse dargestellt werden, um zu zeigen, wie stark eine Variable von einer anderen beeinflusst wird.
  • Multivariates Diagramm, das eine grafische Darstellung der Beziehungen zwischen Faktoren und einer Reaktion ist.
  • Run-Chart, bei dem es sich um ein Liniendiagramm von Daten handelt, die im Zeitverlauf aufgezeichnet werden.
  • Blasendiagramm, das eine Datenvisualisierung ist, die mehrere Kreise (Blasen) in einem zweidimensionalen Diagramm anzeigt.
  • Heatmap, eine grafische Darstellung von Daten, bei der die Werte farblich dargestellt werden.
Tools für die explorative Datenanalyse

Zu den gängigsten Data-Science-Tools, die zur Erstellung einer EDA verwendet werden, gehören:

  • Python: Eine interpretierte, objektorientierte Programmiersprache mit dynamischer Semantik. Ihre integrierten High-Level-Datenstrukturen in Kombination mit dynamischer Typisierung und dynamischer Bindung machen sie sehr attraktiv für die schnelle Anwendungsentwicklung sowie für den Einsatz als Skript- oder Klebesprache, um bestehende Komponenten miteinander zu verbinden. Python und EDA können zusammen verwendet werden, um fehlende Werte in einem Datensatz zu identifizieren, was wichtig ist, damit Sie entscheiden können, wie Sie mit fehlenden Werten für maschinelles Lernen umgehen wollen.
  • R: Eine Open-Source-Programmiersprache und eine kostenlose Softwareumgebung für statistische Berechnungen und Grafiken, die von der R Foundation for Statistical Computing unterstützt werden. Die Sprache R ist unter Statistikern im Bereich Data Science bei der Entwicklung statistischer Beobachtungen und Datenanalyse weit verbreitet.

Einen tieferen Einblick in die Unterschiede zwischen diesen Ansätzen erhalten Sie in „Python vs. R: Was ist der Unterschied?“

Weiterführende Lösungen
IBM Watson Studio

Verwenden Sie IBM Watson® Studio, um zu bestimmen, ob die statistischen Verfahren, die Sie für die Datenanalyse in Betracht ziehen, geeignet sind.

Entdecken Sie jetzt IBM Watson Studio
Ressourcen Fortschritte in der explorativen Datenanalyse, Visualisierung und Qualität für datenorientierte KI-Systeme

Lernen Sie die Bedeutung und die Rolle von EDA- und Datenvisualisierungstechniken kennen, um Datenqualitätsprobleme zu finden und Daten aufzubereiten, was für die Erstellung von ML-Pipelines relevant ist.

Explorative Datenanalyse für maschinelles Lernen

Lernen Sie gängige Techniken kennen, um Ihre Daten abzurufen, sie zu bereinigen, Feature-Engineering anzuwenden und sie für vorläufige Analysen und Hypothesentests bereit zu haben.

Machen Sie den nächsten Schritt

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen in einem Bruchteil der Zeit mit einem Bruchteil der Daten.

watsonx.ai erkunden Buchen Sie eine Live-Demo