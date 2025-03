Dieser erste Schritt konzentriert sich auf die Bewertung der Qualität des gesamten Datensatzes, einschließlich der Datenquellen und Datenformate. Stammen die Daten aus Datenbanken, Programmierschnittstellen (APIs), CSV-Dateien, Web Scraping oder anderen Quellen? Wie sind sie strukturiert? Wie werden sie verwendet werden?

Der Entdeckungsprozess hebt Qualitätsprobleme hervor und behebt sie, etwa fehlende Daten, uneinheitliche Formatierungen, Fehler oder Verzerrung sowie Sonderfälle, die die Analyse verzerren könnten. Die Ergebnisse werden in der Regel in einem Datenqualitätsbericht oder einem technischeren Dokument, dem so genannten Data Profiling Report, dokumentiert, der Statistiken, Verteilungen und andere Ergebnisse enthält.