Datenaufbereitung im Mining-Prozess

Ein typisches Data-Mining-Projekt durchläuft mehrere Phasen. Diese Phasen werden in CRISP-DM (Cross Industry Standard Process for Data Mining) detailliert beschrieben.
Der Projektlebenszyklus eines Data-Mining-Projekts umfasst laut CRISP-DM die folgenden Phasen:
Geschäftsziele
In dieser Phase werden die Geschäftsziele angegeben und es wird bestimmt, wie Erfolg gemessen werden soll.
Datenuntersuchung
In dieser Phase werden relevante Daten ausgewählt und untersucht. Hierbei wird die Semantik von Tabellen und Spalten untersucht und die Datenverteilungen werden ermittelt.
Datenaufbereitung
In dieser Phase werden die ausgewählten Daten mit Hinblick auf die Data-Mining-Analyse bereinigt und umgesetzt, z. B. durch einen Join oder durch Spaltenberechnung.
Modellierung
In dieser Phase werden die Data-Mining-Algorithmen ausgeführt.
Auswertung
In dieser Phase werden Mining-Modelle und beeinflussende Faktoren untersucht und die Modellgenauigkeit wird beurteilt.
Implementierung
In dieser Phase wird das Data-Mining-Modell auf neue Daten angewendet (Scoring).
Weitere Informationen zu CRISP-DM finden Sie auf der folgenden Website:
 http://www.crisp-dm.org/

Modellierung ist zwar mathematisch gesehen der komplizierteste Schritt im Mining-Prozess, aber die Datenaufbereitung erfordert in der Regel den größten Aufwand in einem Data-Mining-Projekt. Die Datenaufbereitung nimmt je nach Erfahrung 40 - 70 % der Zeit in einem Data-Mining-Projekt in Anspruch. Für viele Benutzer stellt dieser Aspekt einen wesentlichen Problempunkt dar. Zudem werden Data-Mining-Projekte hierdurch häufig verlangsamt.

Einer der Gründe für den hohen Aufwand ist das weit gefächerte Know-how, das zur Ausführung dieser Task erforderlich ist. Daher wird die Datenaufbereitungsaufgabe von einem Data-Warehouse-Administrator und einem Mining-Analytiker gemeinsam ausgeführt. Hierdurch ergibt sich allerdings ein weiteres Problem, und zwar Verzögerungen aufgrund des Kommunikationsaufwands zwischen den Beteiligten.


Feedback | Literaturübersicht