Was ist explorative Datenanalyse?

Was ist EDA?

Die explorative Datenanalyse (EDA) wird von Data Scientists verwendet, um Datensätze zu analysieren und zu untersuchen und ihre Hauptmerkmale zusammenzufassen, wobei häufig Datenvisualisierungsmethoden eingesetzt werden.

EDA hilft dabei, herauszufinden, wie Datenquellen am besten manipuliert werden können, um die benötigten Antworten zu erhalten, und erleichtert es Data Scientists, Muster zu entdecken, Anomalien zu erkennen, eine Hypothese zu testen oder Annahmen zu überprüfen.

EDA wird in erster Linie verwendet, um zu sehen, was Daten über die formale Modellierung oder das Testen von Hypothesen hinaus aussagen können, und bietet ein besseres Verständnis der Datensatzvariablen und der Beziehungen zwischen ihnen. Es kann auch dabei helfen, festzustellen, ob die statistischen Techniken, die Sie für die Datenanalyse in Betracht ziehen, geeignet sind. Ursprünglich in den 1970er Jahren vom amerikanischen Mathematiker John Tukey entwickelt, sind EDA-Techniken auch heute noch eine weit verbreitete Methode im Datenerkennungsprozess.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

Warum ist EDA im Bereich Data Science wichtig?

Der Hauptzweck von EDA besteht darin, die Daten zu prüfen, bevor Annahmen getroffen werden. Sie kann dabei helfen, offensichtliche Fehler zu erkennen, Muster in den Daten besser zu verstehen, Sonderfälle oder anomale Ereignisse zu erkennen und interessante Beziehungen zwischen den Variablen zu finden.

Data Scientists können mithilfe explorativer Analysen sicherstellen, dass die von ihnen erzielten Ergebnisse gültig und auf alle gewünschten Geschäftsergebnisse und -ziele anwendbar sind. EDA hilft Stakeholdern außerdem, indem sie bestätigt, dass sie die richtigen Fragen stellen. EDA kann dabei helfen, Fragen zu Standardabweichungen, kategorischen Variablen und Konfidenzintervallen zu beantworten. Sobald die EDA abgeschlossen ist und die Erkenntnisse erfasst wurden, können sie für eine komplexere Datenanalyse oder -modellierung verwendet werden, einschließlich maschinellem Lernen.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

EDA-Tools

Zu den spezifischen statistischen Funktionen und Techniken, die Sie mit EDA-Tools ausführen können, gehören:

Clustering- und Dimensionsreduktionstechniken, die bei der Erstellung grafischer Darstellungen hochdimensionaler Daten mit vielen Variablen helfen.
Univariate Visualisierung jedes Feldes im Roh-Datensatz mit zusammenfassenden Statistiken.
Bivariate Visualisierungen und zusammenfassende Statistiken, mit denen Sie die Beziehung zwischen jeder Variablen im Datensatz und der betrachteten Zielvariablen bewerten können.
Multivariate Visualisierungen für die Zuordnung und das Verständnis von Interaktionen zwischen verschiedenen Feldern in den Daten.
K-Means-Clustering ist eine Clustering-Methode in unüberwachtem Lernen, bei der Datenpunkte verschiedenen K-Gruppen zugewiesen werden, d. h. die Anzahl der Cluster, basierend auf der Entfernung vom Schwerpunkt der einzelnen Gruppen. Die Datenpunkte, die einem bestimmten Schwerpunkt am nächsten liegen, werden unter derselben Kategorie geclustert. K-Means-Clustering wird häufig in den Bereichen Marktsegmentierung, Mustererkennung und Bildkomprimierung verwendet.
Prognosemodelle wie lineare Regression verwenden Statistiken und Daten, um Ergebnisse vorherzusagen.

Arten von EDA

Es gibt vier Haupttypen von EDA:

Univariat, nicht grafisch
Univariat, grafisch
Multivariat, nicht grafisch
Multivariat, grafisch

Univariat, nicht grafisch

Dies ist die einfachste Form der Datenanalyse, bei der die analysierten Daten nur aus einer Variablen bestehen. Da es sich um eine einzelne Variable handelt, geht es nicht um Ursachen oder Beziehungen. Der Hauptzweck der univariaten Analyse besteht darin, die Daten zu beschreiben und darin vorhandene Muster zu finden.

Univariat, grafisch

Nicht-grafische Methoden liefern kein vollständiges Bild der Daten. Daher sind grafische Methoden erforderlich. Zu den gängigen Arten von univariaten Grafiken gehören:

Stamm-Blatt-Diagramme, die alle Datenwerte und die Form der Verteilung zeigen.
Histogramme, ein Balkendiagramm, in dem jeder Balken die Häufigkeit (Anzahl) oder den Anteil (Anzahl/Gesamtanzahl) von Fällen für einen Wertebereich darstellt.
Boxplots, die die fünfstellige Zusammenfassung von Minimum, erstem Quartil, Median, drittem Quartil und Maximum grafisch darstellen.

Multivariat, nicht-grafisch

Multivariate Daten entstehen aus mehr als einer Variable. Multivariate, nicht grafische EDA-Techniken zeigen im Allgemeinen die Beziehung zwischen zwei oder mehr Variablen der Daten durch Kreuztabellen oder Statistiken.

Multivariat, grafisch

Multivariate Daten verwenden Grafiken, um Beziehungen zwischen zwei oder mehr Datensätzen anzuzeigen. Die am häufigsten verwendete Grafik ist ein gruppiertes Balkendiagramm, wobei jede Gruppe eine Ebene einer der Variablen und jeder Balken in einer Gruppe die Ebenen der anderen Variable darstellt.

Weitere gängige Arten von multivariaten Grafiken sind:

Streudiagramm, mit dem Datenpunkte auf einer horizontalen und einer vertikalen Achse dargestellt werden, um zu zeigen, wie stark eine Variable von einer anderen beeinflusst wird.
Multivariates Diagramm, das eine grafische Darstellung der Beziehungen zwischen Faktoren und einer Reaktion ist.
Run-Chart, bei dem es sich um ein Liniendiagramm von Daten handelt, die im Zeitverlauf aufgezeichnet werden.
Blasendiagramm, das eine Datenvisualisierung ist, die mehrere Kreise (Blasen) in einem zweidimensionalen Diagramm anzeigt.
Heatmap, eine grafische Darstellung von Daten, bei der die Werte farblich dargestellt werden.

Sprachen für die explorative Datenanalyse

Einige der gebräuchlichsten Programmiersprachen im Bereich Data Science, die zur Erstellung einer EDA verwendet werden, sind:

Python: Eine interpretierte, objektorientierte Programmiersprache mit dynamischer Semantik. Ihre integrierten High-Level-Datenstrukturen in Kombination mit dynamischer Typisierung und dynamischer Bindung machen sie sehr attraktiv für die schnelle Anwendungsentwicklung sowie für den Einsatz als Skript- oder Klebesprache, um bestehende Komponenten miteinander zu verbinden. Python und EDA können zusammen verwendet werden, um fehlende Werte in einem Datensatz zu identifizieren, was wichtig ist, damit Sie entscheiden können, wie Sie mit fehlenden Werten für maschinelles Lernen umgehen wollen.
R: Eine Open-Source-Programmiersprache und eine kostenlose Softwareumgebung für statistische Berechnungen und Grafiken, die von der R Foundation for Statistical Computing unterstützt werden. Die Sprache R ist unter Statistikern im Bereich Data Science bei der Entwicklung statistischer Beobachtungen und Datenanalyse weit verbreitet.

Einen tieferen Einblick in die Unterschiede zwischen diesen Ansätzen erhalten Sie in „Python vs. R: Was ist der Unterschied?“

Vier Schritte zu besseren Geschäftsprognosen mit Analytics

Nutzen Sie das Potenzial von Analysen und Business Intelligence, um zukünftige Ergebnisse, die Ihrem Unternehmen und Ihren Kunden am meisten nützen, zu planen, vorherzusagen und zu gestalten.

Was ist explorative Datenanalyse (EDA)?