Il processo di data mining prevede varie fasi, dalla raccolta dei dati alla visualizzazione, per estrarre informazioni preziose da grandi set di dati. Le tecniche di data mining possono essere utilizzate per generare descrizioni e previsioni su un insieme di dati target.
I data scientist, o specialisti di business intelligence (BI), descrivono i dati attraverso l'osservazione di modelli, associazioni e correlazioni. Inoltre, classificano e raggruppano i dati tramite metodi di classificazione e regressione e identificano i valori anomali per casi d'uso, come nel caso del rilevamento dello spam.
Il data mining solitamente comprende cinque passaggi principali: definizione degli obiettivi, selezione dei dati, preparazione dei dati, creazione di modelli di dati e pattern mining e valutazione dei risultati.
1. Stabilire gli obiettivi aziendali: questa può essere la parte più difficile del processo di data mining e, nonostante la sua importanza, molte organizzazioni vi dedicano troppo poco tempo. Anche prima che i dati vengano identificati, estratti o puliti, i data scientist e gli stakeholder aziendali possono collaborare per definire l'esatto problema di business, informando le domande e i parametri dei dati per un progetto. Gli analisti potrebbero anche aver bisogno di svolgere più ricerche per capire appieno il contesto aziendale.
2. Selezione dei dati: una volta definito l'ambito del problema, per i data scientist è più facile identificare quale set di dati li aiuterà a rispondere alle domande pertinenti per l'azienda e, insieme Loro al team IT, possono determinare dove archiviare e proteggere i dati.
3. Preparazione dei dati: i dati pertinenti vengono raccolti e puliti per rimuovere qualsiasi rumore, come duplicati, valori mancanti e outlier. A seconda del set di dati, è possibile eseguire un ulteriore passaggio di gestione dei dati per ridurre il numero di dimensioni, poiché troppe funzioni possono rallentare i calcoli successivi.
I data scientist cercano di mantenere i predittori più importanti per garantire una precisione ottimale all'interno di qualsiasi modello. Una data science responsabile significa pensare al modello oltre al codice e alle prestazioni ed è fortemente influenzata dai dati utilizzati e dalla loro affidabilità.
4. Costruzione di modelli e pattern mining: a seconda del tipo di analisi, i data scientist possono studiare eventuali tendenze o relazioni interessanti tra i dati, come modelli sequenziali, regole di associazione o correlazioni. Mentre i modelli ad alta frequenza hanno applicazioni più ampie, a volte le deviazioni nei dati possono essere più interessanti, evidenziando aree di potenziale frode. I modelli predittivi possono aiutare a valutare le tendenze o i risultati futuri. Nei sistemi più sofisticati, i modelli predittivi possono effettuare previsioni in tempo reale per rispondere rapidamente ai cambiamenti del mercato.
Anche gli algoritmi di deep learning possono essere utilizzati per classificare o raggruppare un set di dati in base ai dati disponibili. Se i dati di input sono etichettati (ad esempio nell'apprendimento supervisionato), è possibile utilizzare un modello di classificazione per categorizzare i dati o, in alternativa, applicare una regressione per prevedere la probabilità di un particolare incarico. Se il set di dati non è etichettato (cioè, apprendimento non supervisionato), i singoli punti dati nel set di addestramento vengono confrontati per rilevare le similitudini sottostanti, raggruppandoli in base a tali caratteristiche.
5. Valutazione dei risultati e implementazione delle conoscenze: quando i dati vengono aggregati, possono essere preparati per essere presentati, spesso utilizzando tecniche di visualizzazione dei dati, in modo da valutarli e interpretarli. Idealmente, i risultati finali sono validi, nuovi, utili e comprensibili. Quando questi criteri vengono soddisfatti, i decisori possono utilizzare queste conoscenze per implementare nuove strategie e raggiungere gli obiettivi prefissati.