Die explorative Datenanalyse (EDA) wird von Data Scientists verwendet, um Datensätze zu analysieren und zu untersuchen und ihre Hauptmerkmale zusammenzufassen, wobei häufig Datenvisualisierungsmethoden eingesetzt werden.
EDA hilft dabei, herauszufinden, wie Datenquellen am besten manipuliert werden können, um die benötigten Antworten zu erhalten, und erleichtert es Data Scientists, Muster zu entdecken, Anomalien zu erkennen, eine Hypothese zu testen oder Annahmen zu überprüfen.
EDA wird in erster Linie verwendet, um zu sehen, was Daten über die formale Modellierung oder das Testen von Hypothesen hinaus aussagen können, und bietet ein besseres Verständnis der Datensatzvariablen und der Beziehungen zwischen ihnen. Es kann auch dabei helfen, festzustellen, ob die statistischen Techniken, die Sie für die Datenanalyse in Betracht ziehen, geeignet sind. Ursprünglich in den 1970er Jahren vom amerikanischen Mathematiker John Tukey entwickelt, sind EDA-Techniken auch heute noch eine weit verbreitete Methode im Datenerkennungsprozess.
Erfahren Sie, wie Sie die richtigen Datenbanken für Anwendungen, Analysen und generative KI nutzen.
Registrieren Sie sich für das E-Book zum Thema generative KI
Der Hauptzweck von EDA besteht darin, die Daten zu prüfen, bevor Annahmen getroffen werden. Sie kann dabei helfen, offensichtliche Fehler zu erkennen, Muster in den Daten besser zu verstehen, Sonderfälle oder anomale Ereignisse zu erkennen und interessante Beziehungen zwischen den Variablen zu finden.
Data Scientists können mithilfe explorativer Analysen sicherstellen, dass die von ihnen erzielten Ergebnisse gültig und auf alle gewünschten Geschäftsergebnisse und -ziele anwendbar sind. EDA hilft Stakeholdern außerdem, indem sie bestätigt, dass sie die richtigen Fragen stellen. EDA kann dabei helfen, Fragen zu Standardabweichungen, kategorischen Variablen und Konfidenzintervallen zu beantworten. Sobald die EDA abgeschlossen ist und die Erkenntnisse erfasst wurden, können sie für eine komplexere Datenanalyse oder -modellierung verwendet werden, einschließlich maschinellem Lernen.
Zu den spezifischen statistischen Funktionen und Techniken, die Sie mit EDA-Tools ausführen können, gehören:
Es gibt vier Haupttypen von EDA:
Weitere gängige Arten von multivariaten Grafiken sind:
Zu den gängigsten Data-Science-Tools, die zur Erstellung einer EDA verwendet werden, gehören:
Einen tieferen Einblick in die Unterschiede zwischen diesen Ansätzen erhalten Sie in „Python vs. R: Was ist der Unterschied?“
Verwenden Sie IBM Watson® Studio, um zu bestimmen, ob die statistischen Verfahren, die Sie für die Datenanalyse in Betracht ziehen, geeignet sind.
Lernen Sie die Bedeutung und die Rolle von EDA- und Datenvisualisierungstechniken kennen, um Datenqualitätsprobleme zu finden und Daten aufzubereiten, was für die Erstellung von ML-Pipelines relevant ist.
Lernen Sie gängige Techniken kennen, um Ihre Daten abzurufen, sie zu bereinigen, Feature-Engineering anzuwenden und sie für vorläufige Analysen und Hypothesentests bereit zu haben.