Ein typisches Data-Mining-Projekt durchläuft mehrere Phasen.
Diese Phasen werden in CRISP-DM (Cross Industry Standard
Process for Data Mining) detailliert beschrieben.
Der Projektlebenszyklus eines Data-Mining-Projekts umfasst laut CRISP-DM die folgenden Phasen:
- Geschäftsziele
- In dieser Phase werden die Geschäftsziele angegeben und es wird bestimmt, wie Erfolg gemessen werden soll.
- Datenuntersuchung
- In dieser Phase werden relevante Daten ausgewählt und untersucht. Hierbei wird die Semantik von Tabellen und Spalten untersucht und die Datenverteilungen werden ermittelt.
- Datenaufbereitung
- In dieser Phase werden die ausgewählten Daten mit Hinblick auf die Data-Mining-Analyse bereinigt und umgesetzt, z. B. durch einen Join oder durch Spaltenberechnung.
- Modellierung
- In dieser Phase werden die Data-Mining-Algorithmen ausgeführt.
- Auswertung
- In dieser Phase werden Mining-Modelle und beeinflussende Faktoren untersucht und die Modellgenauigkeit wird beurteilt.
- Implementierung
- In dieser Phase wird das Data-Mining-Modell auf neue Daten angewendet (Scoring).
Weitere Informationen zu CRISP-DM finden Sie auf der folgenden Website:
http://www.crisp-dm.org/
Modellierung ist zwar mathematisch gesehen der komplizierteste Schritt im Mining-Prozess, aber die Datenaufbereitung erfordert in der Regel den größten Aufwand in einem Data-Mining-Projekt. Die Datenaufbereitung nimmt je nach Erfahrung 40 - 70 % der Zeit in einem Data-Mining-Projekt in Anspruch.
Für viele Benutzer stellt dieser Aspekt einen wesentlichen Problempunkt dar. Zudem werden Data-Mining-Projekte hierdurch häufig verlangsamt.
Einer der Gründe für den hohen Aufwand ist das weit gefächerte Know-how, das zur Ausführung dieser Task erforderlich ist.
- Einerseits werden gründliche Kenntnisse des Datenbankentwurfs und der SQL-Sprache benötigt. Wenn ETL-Tools verwendet werden, müssen Sie zudem über umfassende Kentnisse dieser Tools verfügen.
- Andererseits erfordert die Definition der richtigen Umsetzung Kenntnisse der Datensemantik und der Beziehung der Daten zum Geschäftsszenario. Selbst erfahrene Mining-Analytiker benötigen jedoch viel Zeit zum Schreiben von SQL-Code oder zum Konfigurieren von ETL-Operatoren.
Daher wird die Datenaufbereitungsaufgabe von einem Data-Warehouse-Administrator und einem Mining-Analytiker gemeinsam ausgeführt. Hierdurch ergibt sich allerdings ein weiteres Problem, und zwar Verzögerungen aufgrund des Kommunikationsaufwands zwischen den Beteiligten.