My IBM Accedi Iscriviti
Cos'è il data mining?

Cos'è il data mining?

Esplora la soluzione di data mining di IBM Iscriviti per ricevere gli aggiornamenti sull'AI
Pittogrammi di nuvole, grafici e grafici a torta

Ultimo aggiornamento: 28 giugno 2024
Autore: Jim Holdsworth

Cos'è il data mining?

Cos'è il data mining?

Il data mining è l'uso del machine learning e dell'analisi statistica per scoprire modelli e altre informazioni preziose da grandi set di dati.

Data l'evoluzione del machine learning (ML), del data warehousing e la crescita dei big data, l'adozione del data mining, nota anche come Knowledge discovery nei database (KDD), è aumentata rapidamente nel corso degli ultimi decenni. Tuttavia, sebbene questa tecnologia si evolva continuamente per gestire i dati su larga scala, i leader potrebbero comunque riscontrare difficoltà di scalabilità e automazione.

Le tecniche di data mining alla base dell'analisi dei dati possono essere utilizzate per due scopi principali. Possono descrivere il set di dati di destinazione o prevedere i risultati utilizzando algoritmi di machine learning.

Questi metodi vengono utilizzati per organizzare e filtrare i dati, facendo emergere le informazioni più utili riguardo a frodi, comportamenti degli utenti, colli di bottiglia e persino alle violazioni di sicurezza. L'utilizzo degli algoritmi ML e dell'intelligenza artificiale (IA) consente l'automazione dell'analisi, cosa che può accelerare notevolmente il processo.

Se utilizzato insieme a strumenti di data analytics e visualizzazione, come Apache Spark, il software di data mining diventa più chiaro, e l'estrazione di insight rilevanti può essere effettuata più rapidamente che mai. I progressi nell'AI continuano ad accelerarne l'adozione in tutti i settori.

AI generativa e apprendimento automatico (ML) per le imprese

Scopri come incorporare in tutta sicurezza l’AI generativa e il machine learning nella tua azienda.

Vantaggi e sfide

Vantaggi e sfide

Vantaggi

Scopri insight e tendenze nascoste: il data mining utilizza dati non elaborati e crea ordine nel caos, permettendoti di ottenere una visione di insieme organizzata. Ciò può tradursi in una pianificazione più approfondita tra le varie funzioni e i vari settori aziendali, come pubblicità, finanza, governo, sanità, risorse umane (HR), produzione, marketing, ricerca, vendite e gestione della supply chain (SCM).

Risparmia sul budget: analizzando i dati sulle prestazioni provenienti da più fonti, è possibile identificare i colli di bottiglia nei processi aziendali per accelerarne la risoluzione e aumentare l'efficienza.

Risolvi più sfide: il data mining è uno strumento versatile. I dati provenienti da quasi tutte le origini e da qualsiasi aspetto di un'organizzazione possono essere analizzati per scoprire modelli e modi migliori di condurre il business. Quasi tutti i reparti di un'organizzazione che raccolgono e analizzano i dati possono trarre vantaggio dal data mining.

Le sfide

Complessità e rischio: per ottenere insight utili sono necessari dati validi, oltre a esperti con competenze nella codifica. Conoscere i linguaggi di data mining, come Python, R e SQL, è molto utile. Un approccio non sufficientemente cauto al data mining può portare a risultati fuorvianti o pericolosi. Alcuni dati di consumo utilizzati nel data mining potrebbero essere informazioni di identificazione personale (PII), che devono essere gestite con attenzione per evitare problemi legali o di pubbliche relazioni.

Costi: per ottenere i migliori risultati, spesso è necessaria una raccolta ampia e profonda di set di dati. Se un'organizzazione ha bisogno di raccogliere nuove informazioni, creare una pipeline di dati è una nuova spesa, così come lo è l'acquisto dei dati da una fonte esterna.

Incertezza: anche il più grande sforzo di data mining meglio eseguito può produrre risultati poco chiari, senza portare alcun vantaggio sostanziale. Dati imprecisi possono portare a insight errati, vuoi perché sono stati selezionati dati sbagliati o perché la pre-elaborazione non è stata gestita correttamente. Altri rischi includono errori di modellazione o dati obsoleti provenienti da un mercato in rapida evoluzione.

Un altro potenziale problema è che i risultati potrebbero sembrare validi quando in sono randomici e non affidabili. È importante ricordare che "correlazione non equivale a causalità". Un famoso esempio di "dragaggio dei dati", che vede un'apparente correlazione e ne esagera l'importanza, è stato recentemente presentato dal blogger Tyler Vigen: "Il prezzo delle azioni di Amazon.com è estremamente simile al numero di bambini chiamati 'Stevie' tra il 2002 al 2022".1 Ovviamente, chiamare un bambino "Stevie" non influenza il prezzo azionario e viceversa. Le applicazioni di data mining trovano i pattern, ma il giudizio umano è ancora significativo.

Data mining, text mining e process mining

Data mining, text mining e process mining

Il data mining è il processo generale di identificazione dei modelli e di estrazione di insight utili da grandi insiemi di dati. Può essere utilizzato per valutare sia i dati strutturati che quelli non strutturati per identificare nuove informazioni, ed è comunemente usato dai team di marketing e vendita per analizzare i comportamenti dei consumatori. Ad esempio, i metodi di data mining possono essere utilizzati per osservare e prevedere comportamenti come tasso di abbandono dei clienti, rilevamento delle frodi, market basket analysis e altro ancora.

Il text mining, noto anche come text data mining, è un sottocampo del data mining, pensato per trasformare il testo non strutturato in un formato strutturato in modo da identificare modelli significativi e generare nuovi insight. I dati non strutturati possono includere testi provenienti da fonti come post sui social media, recensioni di prodotti, articoli, e-mail o formati rich media come file video e audio. Gran parte dei dati pubblicamente disponibili in tutto il mondo sono non strutturati, il che rende il text mining una pratica preziosa.

Il process mining si trova all'intersezione tra business process management (BPM) e data mining. Il process mining offre un modo per applicare gli algoritmi ai dati di log degli eventi per identificare tendenze, modelli e dettagli su come si svolgono i processi, e applica la data science per scoprire i colli di bottiglia, per poi convalidare e migliorare i workflow.

In genere, il BPM raccoglie i dati in modo più informale tramite workshop e interviste, quindi utilizza il software per documentare tale workflow come una mappa di processo. Poiché i dati che informano queste mappe di processo sono spesso qualitativi, il process mining apporta un approccio più quantitativo a un problema di processo, descrivendo in dettaglio il processo effettivo attraverso i dati degli eventi.

I sistemi informativi, come gli strumenti ERP (Enterprise Resource Planning) o CRM (Customer Relationship Management), forniscono una traccia di audit dei processi dai dati di log. Il process mining utilizza questi dati provenienti dai sistemi IT per assemblare un modello o un grafico di processo. A seguire, le organizzazioni possono esaminare il processo end-to-end con i dettagli e le eventuali variazioni delineate.

Come funziona il data mining

Come funziona il data mining

Il processo di data mining prevede varie fasi, dalla raccolta dei dati alla visualizzazione, per estrarre informazioni preziose da grandi set di dati. Le tecniche di data mining possono essere utilizzate per generare descrizioni e previsioni su un insieme di dati target.

I data scientist, o specialisti di business intelligence (BI), descrivono i dati attraverso l'osservazione di modelli, associazioni e correlazioni. Inoltre, classificano e raggruppano i dati tramite metodi di classificazione e regressione e identificano i valori anomali per casi d'uso, come nel caso del rilevamento dello spam.

Il data mining solitamente comprende cinque passaggi principali: definizione degli obiettivi, selezione dei dati, preparazione dei dati, creazione di modelli di dati e pattern mining e valutazione dei risultati.

1. Stabilire gli obiettivi aziendali: questa può essere la parte più difficile del processo di data mining e, nonostante la sua importanza, molte organizzazioni vi dedicano troppo poco tempo. Anche prima che i dati vengano identificati, estratti o puliti, i data scientist e gli stakeholder aziendali possono collaborare per definire l'esatto problema di business, informando le domande e i parametri dei dati per un progetto. Gli analisti potrebbero anche aver bisogno di svolgere più ricerche per capire appieno il contesto aziendale.

2. Selezione dei dati: una volta definito l'ambito del problema, per i data scientist è più facile identificare quale set di dati li aiuterà a rispondere alle domande pertinenti per l'azienda e, insieme Loro al team IT, possono determinare dove archiviare e proteggere i dati.

3. Preparazione dei dati: i dati pertinenti vengono raccolti e puliti per rimuovere qualsiasi rumore, come duplicati, valori mancanti e outlier. A seconda del set di dati, è possibile eseguire un ulteriore passaggio di gestione dei dati per ridurre il numero di dimensioni, poiché troppe funzioni possono rallentare i calcoli successivi.

I data scientist cercano di mantenere i predittori più importanti per garantire una precisione ottimale all'interno di qualsiasi modello. Una data science responsabile significa pensare al modello oltre al codice e alle prestazioni ed è fortemente influenzata dai dati utilizzati e dalla loro affidabilità.

4. Costruzione di modelli e pattern mining: a seconda del tipo di analisi, i data scientist possono studiare eventuali tendenze o relazioni interessanti tra i dati, come modelli sequenziali, regole di associazione o correlazioni. Mentre i modelli ad alta frequenza hanno applicazioni più ampie, a volte le deviazioni nei dati possono essere più interessanti, evidenziando aree di potenziale frode. I modelli predittivi possono aiutare a valutare le tendenze o i risultati futuri. Nei sistemi più sofisticati, i modelli predittivi possono effettuare previsioni in tempo reale per rispondere rapidamente ai cambiamenti del mercato.

Anche gli algoritmi di deep learning possono essere utilizzati per classificare o raggruppare un set di dati in base ai dati disponibili. Se i dati di input sono etichettati (ad esempio nell'apprendimento supervisionato), è possibile utilizzare un modello di classificazione per categorizzare i dati o, in alternativa, applicare una regressione per prevedere la probabilità di un particolare incarico. Se il set di dati non è etichettato (cioè, apprendimento non supervisionato), i singoli punti dati nel set di addestramento vengono confrontati per rilevare le similitudini sottostanti, raggruppandoli in base a tali caratteristiche.

5. Valutazione dei risultati e implementazione delle conoscenze: quando i dati vengono aggregati, possono essere preparati per essere presentati, spesso utilizzando tecniche di visualizzazione dei dati, in modo da valutarli e interpretarli. Idealmente, i risultati finali sono validi, nuovi, utili e comprensibili. Quando questi criteri vengono soddisfatti, i decisori possono utilizzare queste conoscenze per implementare nuove strategie e raggiungere gli obiettivi prefissati.

Tecniche di data mining

Tecniche di data mining

Ecco alcuni dei tipi di data mining più diffusi:

Regole di associazione: una regola di associazione è un metodo condizionale basato su regole per trovare relazioni tra variabili in un set di dati. I punti di forza delle relazioni si misurano in base al sostegno e alla fiducia. Il livello di fiducia si basa sulla frequenza con cui le affermazioni "if" o "then" sono vere. La misura di supporto è la frequenza con cui gli elementi correlati vengono mostrati nei dati. 

Questi metodi sono spesso utilizzati per la market basket analysis, consentendo alle aziende di comprendere meglio le relazioni tra prodotti diversi, per esempio quelli che vengono spesso acquistati insieme. Capire le abitudini dei clienti consente alle aziende di sviluppare strategie di cross-selling e motori di raccomandazione migliori.

Classificazione
: le classi di oggetti sono predefinite, a seconda delle necessità dell'organizzazione, con definizioni delle caratteristiche che gli oggetti hanno in comune. In questo modo è possibile raggruppare i dati sottostanti per semplificare l'analisi.

Ad esempio, un'azienda di prodotti di consumo può esaminare la sua strategia di emissione dei coupon esaminando i coupon riscattati in passato insieme ai dati di vendita, alle statistiche di inventario e a tutti i dati dei consumatori a disposizione per trovare la migliore strategia per le campagne future.

Clustering
: il clustering è strettamente correlato alla classificazione e presenta diverse somiglianze, ma fornisce anche più raggruppamenti basati sulle differenze. Le classificazioni preimpostate per un produttore di detergenti possono includere detersivo, candeggina, ammorbidente per bucato, detergente per pavimenti e cera per pavimenti, mentre il raggruppamento potrebbe creare gruppi che includono prodotti per il bucato e cura dei pavimenti.

Albero decisionale: 
questa tecnica di data mining utilizza l'analisi di classificazione o regressione per classificare o prevedere i potenziali risultati in base a un set di decisioni. Come suggerisce il nome, l'albero decisionale utilizza una visualizzazione ad albero per rappresentare i potenziali risultati di queste decisioni.

K-nearest neighbor (KNN): noto anche come algoritmo KNN, il K-nearest neighbor è un algoritmo non parametrico che classifica i punti dati in base alla loro vicinanza e all'associazione con altri dati disponibili. Questo algoritmo presuppone che punti dati simili si trovino uno vicino all'altro. Di conseguenza, cerca di calcolare la distanza tra i punti dati, solitamente attraverso la distanza euclidea, e quindi assegna una categoria in base alla categoria o alla media più frequente.

Reti neurali: 
principalmente utilizzate per gli algoritmi di deep learning, le reti neurali elaborano i dati di addestramento imitando l'interconnessione del cervello umano attraverso strati di nodi. Ciascun nodo è costituito da input, pesi, distorsioni (soglia) e output.

Se il valore di output supera la soglia impostata, "innesca" o attiva il nodo, passando i dati al livello successivo della rete. Le reti neurali apprendono questa funzione di mappatura attraverso l'apprendimento supervisionato, regolandosi in base alla funzione di perdita attraverso il processo di discesa del gradiente. Quando la funzione di costo è pari o vicina allo zero, un'organizzazione saprà che il modello è quello giusto per fornire la risposta corretta.

Analisi predittiva: Combinando il data mining con tecniche di modellazione statistica e machine learning, i dati storici possono essere analizzati utilizzando l'analisi predittiva per creare modelli grafici o matematici destinati a identificare modelli, prevedere eventi e risultati futuri e identificare rischi e opportunità.

Analisi di regressione
: questa tecnica scopre le relazioni nei dati prevedendo i risultati in base a variabili predeterminate. Può includere alberi decisionali e regressione multivariata e lineare. I risultati possono essere classificati in base alla vicinanza della relazione, per aiutare a determinare quali dati sono più o meno significativi. Un esempio potrebbe essere un produttore di bevande analcoliche che stima l'inventario di bevande necessario prima dell'arrivo del estivo previsto.

Casi d'uso del data mining

Casi d'uso del data mining

Le tecniche di data mining sono ampiamente adottate dai team di business intelligence e analytics dei dati, perché permettono loro di estrarre conoscenze per la loro organizzazione e il loro settore. Alcuni casi d'uso del data mining includono: 

Rilevamento delle anomalie
Anche se spesso i pattern nei dati possono fornire ai team insight preziosi, anche l'osservazione delle anomalie è vantaggiosa, perché aiuta le organizzazioni a rilevare frodi, intrusioni di rete e difetti nei prodotti. Sebbene questo sia un caso d'uso ben noto all'interno delle banche e di altri istituti finanziari, anche le aziende basate su SaaS hanno iniziato ad adottare queste pratiche per eliminare gli account falsi dai loro set di dati. Il rilevamento delle anomalie può anche essere un'opportunità per trovare strategie nuove e inedite o mercati target che sono stati trascurati in passato.

Valutazione del rischio
Le organizzazioni possono individuare e determinare in modo più accurato la scala del rischio con il data mining. Pattern e anomalie possono essere scoperti nei campi della cybersecurity, della finanza e nell'ambito legale per individuare sviste o minacce.

Focus sui mercati target
Effettuando ricerche in più database per trovare relazioni strette, il data mining può collegare con precisione i comportamenti e il background dei clienti con le vendite di articoli specifici, permettendo di creare campagne più mirate per aumentare le vendite.

Miglioramento del servizio clienti
I problemi dei clienti possono essere scoperti e risolti prima se l'intera somma delle azioni dei clienti (in loco, online, tramite le app mobili o su un telefono) può essere esaminata con il data mining. Gli agenti del servizio clienti possono avere accesso a informazioni più complete e approfondite sui clienti che servono.

Aumento dell'operatività delle apparecchiature
I dati operativi possono essere estratti da attrezzature industriali per prevedere le prestazioni e i tempi di inattività futuri e consentire la pianificazione della manutenzione protettiva.

Ottimizzazione delle operazioni
Il process mining utilizza tecniche di data mining per ridurre i costi tra le funzioni operative, consentendo alle organizzazioni di lavorare in modo più efficiente. Questa pratica aiuta a identificare costosi colli di bottiglia e migliorare il processo decisionale per i dirigenti aziendali.

Casi d'uso nel settore

Casi d'uso nel settore

Servizio clienti
Il data mining può creare un'origine dei dati più completa per il servizio clienti, aiutando a determinare quali fattori soddisfano maggiormente i clienti e quali fattori causano attrito o insoddisfazione.

Istruzione
Gli istituti scolastici hanno iniziato a raccogliere dati per comprendere la popolazione studentesca e quali ambienti favoriscono il successo. Poiché i corsi utilizzano spesso piattaforme online, possono utilizzare varie dimensioni e metriche per osservare e valutare le prestazioni, come le sequenze di tasti, i profili degli studenti, le lezioni frequentate e il tempo trascorso.

Finanza
Nella loro ricerca del rischio, gli istituti finanziari e le banche spesso vogliono "pescare a strascico" per catturare tutti i fattori che potrebbero avere un impatto negativo sul flusso di cassa e sul recupero. Gli strumenti di data mining possono essere utili per trovare e soppesare una combinazione di fattori che indicano un rischio buono o cattivo.

Sanità
Il data mining è uno strumento utile per la diagnosi di condizioni mediche, compresa la lettura di scansioni e immagini, e per aiutare a suggerire trattamenti terapeutici.

Risorse umane
Le organizzazioni possono ottenere nuovi insight sulle prestazioni e sulla soddisfazione dei dipendenti analizzando molteplici fattori e trovando i pattern. I dati possono includere data di inizio, mandato, promozioni, stipendio, formazione, peer performance, consegna dei lavori, utilizzo dei sussidi e trasferte.

Produzione
Dalle materie prime alla consegna finale, tutti gli aspetti del processo di produzione possono essere analizzati per migliorare le prestazioni. Qual è il costo dei materiali e quali opzioni esistono? Quanto è efficiente la produzione? Dove sono i colli di bottiglia? Quali sono i problemi di qualità e dove si presentano, sia internamente che con i clienti?

Retail
Estraendo i dati e le azioni dei clienti, i rivenditori possono identificare le campagne, i prezzi, le promozioni, le offerte di prodotti speciali e i cross-selling e gli up-selling più produttivi.

Vendite e marketing
Le aziende raccolgono enormi quantità di dati sui loro clienti attuali e potenziali. Osservando i dati demografici dei consumatori, le risposte dei media e il comportamento dei clienti, le aziende possono utilizzare i dati per ottimizzare le loro campagne di marketing, migliorando la segmentazione, il targeting e i programmi di fidelizzazione dei clienti, contribuendo a produrre un maggiore ritorno sull'investimento (ROI) sugli sforzi di marketing. Anche le analisi predittive possono aiutare i team a stabilire le aspettative con i propri stakeholder, fornendo stime sui rendimenti per eventuali aumenti o riduzioni degli investimenti di marketing.

Social media
L'analisi dei dati degli utenti può aiutare a scoprire nuove opportunità editoriali o nuove fonti di entrate pubblicitarie per specifici target di pubblico.

Gestione della supply chain (SCM)
Utilizzando il data mining, i product manager possono prevedere meglio la domanda, aumentare la produzione, adeguare i fornitori o adattare gli sforzi di marketing. I responsabili della supply chain possono pianificare meglio spedizioni e magazzini.

Soluzioni correlate

Soluzioni correlate

Piattaforma di Enterprise Search

Trova risposte e insight fondamentali tra i tuoi dati aziendali utilizzando la tecnologia di ricerca aziendale basata su AI.

Scopri IBM Watson Discovery
IBM Db2 Warehouse

Un data warehouse sul cloud completamente gestito, elastico, creato per analytics e AI ad alte prestazioni.

Esplora IBM Db2 Warehouse on Cloud
IBM SPSS Modeler

Importa grandi volumi di dati da fonti eterogenee per rivelare modelli e tendenze nei dati nascosti.

Prova la versione di prova gratuita di 30 giorni
Risorse

Risorse

Tecniche di data mining

Identifica i modelli e le tendenze con l’analytics predittivo e le tecniche chiave.

3 nuovi passaggi nel processo di data mining per garantire un'AI affidabile

Esplora come mitigare i bias quando si creano modelli di machine learning.

Fai il passo successivo

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno strumento aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una quantità di dati minima.

Esplora watsonx.ai Prenota una demo live
Note a piè di pagina 

¹ "Spurious Correlations" (link esterno a ibm.com), Tyler Vigen.