Die explorative Datenanalyse (EDA) wird von Data Scientists verwendet, um Datensätze zu analysieren und zu untersuchen und ihre Hauptmerkmale zusammenzufassen, wobei häufig Datenvisualisierungsmethoden eingesetzt werden.
EDA hilft dabei, herauszufinden, wie Datenquellen am besten manipuliert werden können, um die benötigten Antworten zu erhalten, und erleichtert es Data Scientists, Muster zu entdecken, Anomalien zu erkennen, eine Hypothese zu testen oder Annahmen zu überprüfen.
EDA wird in erster Linie verwendet, um zu sehen, was Daten über die formale Modellierung oder das Testen von Hypothesen hinaus aussagen können, und bietet ein besseres Verständnis der Datensatzvariablen und der Beziehungen zwischen ihnen. Es kann auch dabei helfen, festzustellen, ob die statistischen Techniken, die Sie für die Datenanalyse in Betracht ziehen, geeignet sind. Ursprünglich in den 1970er Jahren vom amerikanischen Mathematiker John Tukey entwickelt, sind EDA-Techniken auch heute noch eine weit verbreitete Methode im Datenerkennungsprozess.
Der Hauptzweck von EDA besteht darin, die Daten zu prüfen, bevor Annahmen getroffen werden. Sie kann dabei helfen, offensichtliche Fehler zu erkennen, Muster in den Daten besser zu verstehen, Sonderfälle oder anomale Ereignisse zu erkennen und interessante Beziehungen zwischen den Variablen zu finden.
Data Scientists können mithilfe explorativer Analysen sicherstellen, dass die von ihnen erzielten Ergebnisse gültig und auf alle gewünschten Geschäftsergebnisse und -ziele anwendbar sind. EDA hilft Stakeholdern außerdem, indem sie bestätigt, dass sie die richtigen Fragen stellen. EDA kann dabei helfen, Fragen zu Standardabweichungen, kategorischen Variablen und Konfidenzintervallen zu beantworten. Sobald die EDA abgeschlossen ist und die Erkenntnisse erfasst wurden, können sie für eine komplexere Datenanalyse oder -modellierung verwendet werden, einschließlich maschinellem Lernen.
Zu den spezifischen statistischen Funktionen und Techniken, die Sie mit EDA-Tools ausführen können, gehören:
Es gibt vier Haupttypen von EDA:
Dies ist die einfachste Form der Datenanalyse, bei der die analysierten Daten nur aus einer Variablen bestehen. Da es sich um eine einzelne Variable handelt, geht es nicht um Ursachen oder Beziehungen. Der Hauptzweck der univariaten Analyse besteht darin, die Daten zu beschreiben und darin vorhandene Muster zu finden.
Nicht-grafische Methoden liefern kein vollständiges Bild der Daten. Daher sind grafische Methoden erforderlich. Zu den gängigen Arten von univariaten Grafiken gehören:
Multivariate Daten entstehen aus mehr als einer Variable. Multivariate, nicht grafische EDA-Techniken zeigen im Allgemeinen die Beziehung zwischen zwei oder mehr Variablen der Daten durch Kreuztabellen oder Statistiken.
Multivariate Daten verwenden Grafiken, um Beziehungen zwischen zwei oder mehr Datensätzen anzuzeigen. Die am häufigsten verwendete Grafik ist ein gruppiertes Balkendiagramm, wobei jede Gruppe eine Ebene einer der Variablen und jeder Balken in einer Gruppe die Ebenen der anderen Variable darstellt.
Weitere gängige Arten von multivariaten Grafiken sind:
Einige der gebräuchlichsten Programmiersprachen im Bereich Data Science, die zur Erstellung einer EDA verwendet werden, sind:
Einen tieferen Einblick in die Unterschiede zwischen diesen Ansätzen erhalten Sie in „Python vs. R: Was ist der Unterschied?“
Sie möchten genau verstehen, was wie und warum passiert ist, was passieren könnte und was Sie unternehmen können? Dank klarer, schrittweiser Erklärungen der eigenen Argumentation versorgt Project Ripasso alle Geschäftsanwender mit Erkenntnissen, um blitzschnell Entscheidungen zu treffen.
Um erfolgreich zu sein, müssen Unternehmen Daten nutzen, um Kundenbindung aufzubauen, Geschäftsprozesse zu automatisieren und mit KI-gestützten Lösungen Innovationen zu schaffen.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.