Erfahren Sie alles, was Sie über explorative Datenanalyse wissen müssen, eine Methode, die zum Analysieren und Zusammenfassen von Datensätzen verwendet wird.
Explorative Datenanalyse (EDA) wird von Datenwissenschaftlern verwendet, um Datensätze zu analysieren und zu untersuchen und ihre Hauptmerkmale zusammenzufassen, wobei häufig Datenvisualisierungsmethoden verwendet werden. Sie hilft herauszufinden, wie die Datenquellen am besten bearbeitet werden können, um die benötigten Antworten zu erhalten und Mustern und Anomalien zu erkennen, Hypothesen zu testen oder Annahmen zu überprüfen.
EDA wird in erster Linie verwendet, um zu sehen, was die Daten über die formale Modellierungs- oder Hypothesentestaufgabe hinaus offenbaren können, und bietet ein besseres Verständnis der Variablen des Datensatzes und der Beziehungen zwischen ihnen. Sie kann auch helfen zu bestimmen, ob die statistischen Techniken, die Sie für die Datenanalyse in Erwägung ziehen, geeignet sind. Ursprünglich von dem amerikanischen Mathematiker John Tukey in den 1970er Jahren entwickelt, ist die EDA-Technik auch heute noch eine weit verbreitete Methode in der Datenerkennung.
Der Hauptzweck von EDA ist es, vor der Erstellung von Annahmen zu helfen, Daten zu untersuchen.Sie kann helfen, offensichtliche Fehler zu erkennen sowie Muster innerhalb der Daten besser zu verstehen, Ausreißer oder anomale Ereignisse zu erkennen und interessante Beziehungen zwischen den Variablen zu finden.
Datenwissenschaftler können explorative Analysen verwenden, um sicherzustellen, dass die Ergebnisse, die sie produzieren, gültig und auf alle gewünschten Geschäftsergebnisse und Ziele anwendbar sind. Die EDA hilft den Stakeholdern auch, indem sie bestätigt, dass sie die richtigen Fragen stellen. EDA kann helfen, Fragen zu Standardabweichungen, kategorialen Variablen und Konfidenzintervallen zu beantworten. Sobald die EDA abgeschlossen ist und Erkenntnisse gezogen werden, können ihre Funktionen dann für eine komplexere Datenanalyse oder Modellierung verwendet werden, einschließlich maschinelles Lernen.
Bestimmte statistische Funktionen und Techniken, die Sie mit EDA-Tools durchführen können, sind:
Es gibt vier primäre Arten der EDA:
Andere gängige Typen von multivariaten Grafiken sind:
Einige der gebräuchlichsten Datenwissenschafts-Tools, die zum Erstellen einer EDA verwendet werden, sind:
Für eine eingehende Untersuchung der Unterschiede zwischen diesen Ansätzen, sehen Sie sich "Python vs. R: Was ist der Unterschied?"
an.Verwenden Sie IBM® Watson Studio zur Bestimmung, ob die statistischen Verfahren, die Sie für die Datenanalyse erwägen, angemessen sind.