Cos'è il data mining?

Lo skyline della città di Toronto durante il giorno e visto dal lago Ontario, Canada

Autori

Staff Writer

IBM Think

Cos'è il data mining?

Il data mining è l'uso del machine learning e dell'analisi statistica per scoprire modelli e altre informazioni preziose da grandi set di dati.

Data l'evoluzione del machine learning (ML), del data warehousing e la crescita dei big data, l'adozione del data mining, nota anche come Knowledge discovery nei database (KDD), è aumentata rapidamente nel corso degli ultimi decenni. Tuttavia, sebbene questa tecnologia si evolva continuamente per gestire i dati su larga scala, i leader potrebbero comunque riscontrare difficoltà di scalabilità e automazione.

Le tecniche di data mining alla base dell'analisi dei dati possono essere utilizzate per due scopi principali. Possono descrivere il set di dati di destinazione o prevedere i risultati utilizzando algoritmi di machine learning.

Questi metodi vengono utilizzati per organizzare e filtrare i dati, facendo emergere le informazioni più utili riguardo a frodi, comportamenti degli utenti, colli di bottiglia e persino alle violazioni di sicurezza. L'utilizzo degli algoritmi ML e dell'intelligenza artificiale (IA) consente l'automazione dell'analisi, cosa che può accelerare notevolmente il processo.

Se utilizzato insieme a strumenti di data analytics e visualizzazione, come Apache Spark, il software di data mining diventa più chiaro, e l'estrazione di insight rilevanti può essere effettuata più rapidamente che mai. I progressi nell'AI continuano ad accelerarne l'adozione in tutti i settori.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Vantaggi e sfide del data mining

Vantaggi

Scopri insight e tendenze nascoste: il data mining utilizza dati non elaborati e crea ordine nel caos, permettendoti di ottenere una visione di insieme organizzata. Ciò può tradursi in una pianificazione più approfondita tra le varie funzioni e i vari settori aziendali, come pubblicità, finanza, governo, sanità, risorse umane (HR), produzione, marketing, ricerca, vendite e gestione della supply chain (SCM).

Risparmia sul budget: analizzando i dati sulle prestazioni provenienti da più fonti, è possibile identificare i colli di bottiglia nei processi aziendali per accelerarne la risoluzione e aumentare l'efficienza.

Risolvi più sfide: il data mining è uno strumento versatile. I dati provenienti da quasi tutte le origini e da qualsiasi aspetto di un'organizzazione possono essere analizzati per scoprire modelli e modi migliori di condurre il business. Quasi tutti i reparti di un'organizzazione che raccolgono e analizzano i dati possono trarre vantaggio dal data mining.

Sfide

Complessità e rischio: per ottenere insight utili, sono necessari dati validi, oltre a esperti con competenze di codifica. Conoscere i linguaggi di data mining, come Python, R e SQL, è molto utile. Un approccio non sufficientemente cauto al data mining può portare a risultati fuorvianti o pericolosi. Alcuni dati di consumo utilizzati nel data mining potrebbero essere informazioni di identificazione personale (PII), che devono essere gestite con attenzione per evitare problemi legali o di pubbliche relazioni.

Costi: per ottenere i migliori risultati, spesso è necessaria una raccolta ampia e profonda di set di dati. Se un’organizzazione ha bisogno di raccogliere nuove informazioni, creare una pipeline di dati è una nuova spesa, così come lo è l’acquisto dei dati da una fonte esterna.

Incertezza: anche il più grande sforzo di data mining meglio eseguito può produrre risultati poco chiari, senza portare alcun vantaggio sostanziale. Dati imprecisi possono portare a insight errati, vuoi perché sono stati selezionati dati sbagliati o perché la pre-elaborazione non è stata gestita correttamente.

Altri rischi includono errori di modellazione o dati obsoleti provenienti da un mercato in rapida evoluzione.

Un altro potenziale problema è che i risultati potrebbero sembrare validi quando in realtà sono casuali e non affidabili. È importante ricordare che “correlazione non equivale a causalità”. Un famoso esempio di “dragaggio dei dati”, che vede un’apparente correlazione e ne esagera l’importanza, è stato recentemente presentato dal blogger Tyler Vigen: “Il prezzo delle azioni di Amazon.com è estremamente simile al numero di bambini chiamati ‘Stevie’ tra il 2002 al 2022”.1 Ovviamente, chiamare un bambino “Stevie” non influenza il prezzo azionario e viceversa.

Le applicazioni di data mining trovano i pattern, ma il giudizio umano è ancora significativo.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda tutti gli episodi di Mixture of Experts

Data mining, text mining e process mining

Il data mining è il processo generale di identificazione dei modelli e di estrazione di insight utili da grandi insiemi di dati. Può essere utilizzato per valutare sia i dati strutturati che quelli non strutturati per identificare nuove informazioni, ed è comunemente usato dai team di marketing e vendita per analizzare i comportamenti dei consumatori.

Ad esempio, i metodi di data mining possono essere utilizzati per osservare e prevedere comportamenti come tasso di abbandono dei clienti, rilevamento delle frodi, market basket analysis e altro ancora.

Il text mining, noto anche come text data mining, è un sottocampo del data mining, pensato per trasformare il testo non strutturato in un formato strutturato in modo da identificare modelli significativi e generare nuovi insight. I dati non strutturati possono includere testi provenienti da fonti come post sui social media, recensioni di prodotti, articoli, e-mail o formati rich media come file video e audio.

Gran parte dei dati pubblicamente disponibili in tutto il mondo sono non strutturati, il che rende il text mining una pratica preziosa.

Il process mining si trova all’intersezione tra business process management (BPM) e data mining.

Il process mining offre un modo per applicare gli algoritmi ai dati di log degli eventi per identificare tendenze, modelli e dettagli su come si svolgono i processi, e applica la data science per scoprire i colli di bottiglia, per poi convalidare e migliorare i workflow.

In genere, il BPM raccoglie i dati in modo più informale tramite workshop e interviste, quindi utilizza il software per documentare tale workflow come una mappa di processo. Poiché i dati che informano queste mappe di processo sono spesso qualitativi, il process mining apporta un approccio più quantitativo a un problema di processo, descrivendo in dettaglio il processo effettivo attraverso i dati degli eventi.

I sistemi informativi, come gli strumenti ERP (Enterprise Resource Planning) o CRM (Customer Relationship Management), forniscono una traccia di audit dei processi dai dati di log. Il process mining utilizza questi dati provenienti dai sistemi IT per assemblare un modello o un grafico di processo. A seguire, le organizzazioni possono esaminare il processo end-to-end con i dettagli e le eventuali variazioni delineate.

Come funziona il data mining

Il processo di data mining prevede varie fasi, dalla raccolta dei dati alla visualizzazione, per estrarre informazioni preziose da grandi set di dati. Le tecniche di data mining possono essere utilizzate per generare descrizioni e previsioni su un insieme di dati target.

I data scientist, o specialisti di business intelligence (BI), descrivono i dati attraverso l’osservazione di modelli, associazioni e correlazioni. Inoltre, classificano e raggruppano i dati tramite metodi di classificazione e regressione e identificano i valori anomali per casi d’uso, come nel caso del rilevamento dello spam.

Il data mining solitamente comprende cinque passaggi principali: definizione degli obiettivi, selezione dei dati, preparazione dei dati, creazione di modelli di dati e pattern mining e valutazione dei risultati.

1. Stabilire gli obiettivi aziendali: questa può essere la parte più difficile del processo di data mining e, nonostante la sua importanza, molte organizzazioni vi dedicano troppo poco tempo. Anche prima che i dati vengano identificati, estratti o puliti, i data scientist e gli stakeholder aziendali possono collaborare per definire l’esatto problema di business, informando le domande e i parametri dei dati per un progetto. Gli analisti potrebbero anche aver bisogno di svolgere più ricerche per capire appieno il contesto aziendale.

2. Selezione dei dati: una volta definito l’ambito del problema, per i data scientist è più facile identificare quale set di dati li aiuterà a rispondere alle domande pertinenti per l’azienda e, insieme al team IT, loro possono determinare dove archiviare e proteggere i dati.

3. Preparazione dei dati: i dati pertinenti vengono raccolti e puliti per rimuovere qualsiasi rumore, come duplicati, valori mancanti e outlier. A seconda del set di dati, è possibile eseguire un ulteriore passaggio di gestione dei dati per ridurre il numero di dimensioni, poiché troppe funzioni possono rallentare i calcoli successivi.

I data scientist cercano di mantenere i predittori più importanti per garantire una precisione ottimale all’interno di qualsiasi modello. Una data science responsabile significa pensare al modello oltre al codice e alle prestazioni ed è fortemente influenzata dai dati utilizzati e dalla loro affidabilità.

4. Costruzione di modelli e pattern mining: a seconda del tipo di analisi, i data scientist possono studiare eventuali tendenze o relazioni interessanti tra i dati, come modelli sequenziali, regole di associazione o correlazioni.

Mentre i modelli ad alta frequenza hanno applicazioni più ampie, a volte le deviazioni nei dati possono essere più interessanti, evidenziando aree di potenziale frode. I modelli predittivi possono aiutare a valutare le tendenze o i risultati futuri. Nei sistemi più sofisticati, questi modelli possono effettuare previsioni in tempo reale per rispondere rapidamente ai cambiamenti del mercato.

Anche gli algoritmi di deep learning possono essere utilizzati per classificare o raggruppare un set di dati in base ai dati disponibili. Se i dati di input sono etichettati (ad esempio nell’apprendimento supervisionato), è possibile utilizzare un modello di classificazione per categorizzare i dati o, in alternativa, applicare una regressione per prevedere la probabilità di un particolare incarico.

Se il set di dati non è etichettato (cioè, apprendimento non supervisionato), i singoli punti dati nel set di addestramento vengono confrontati per rilevare le similitudini sottostanti, raggruppandoli in base a tali caratteristiche.

5. Valutazione dei risultati e implementazione delle conoscenze: quando i dati vengono aggregati, possono essere preparati per essere presentati, spesso utilizzando tecniche di visualizzazione dei dati, in modo da valutarli e interpretarli. Idealmente, i risultati finali sono validi, nuovi, utili e comprensibili.

Quando questi criteri vengono soddisfatti, i decisori possono utilizzare queste conoscenze per implementare nuove strategie e raggiungere gli obiettivi prefissati.

Tecniche di data mining

Ecco alcuni dei tipi di data mining più diffusi:

Regole di associazione: un metodo condizionale basato su regole per trovare relazioni tra variabili in un set di dati. I punti di forza delle relazioni si misurano in base al sostegno e alla fiducia. Il livello di fiducia si basa sulla frequenza con cui le affermazioni “if” o “then” sono vere. La misura di supporto è la frequenza con cui gli elementi correlati vengono mostrati nei dati.

Questi metodi sono spesso utilizzati per la market basket analysis e consentono alle aziende di comprendere meglio le relazioni tra prodotti diversi, per esempio quelli che vengono spesso acquistati insieme. Capire le abitudini dei clienti consente alle aziende di sviluppare strategie di cross-selling e motori di raccomandazione migliori.

Classificazione: le classi di oggetti sono predefinite, a seconda delle necessità dell’organizzazione, con definizioni delle caratteristiche che hanno in comune. In questo modo, è possibile raggruppare i dati sottostanti per semplificare l’analisi.

Ad esempio, un’azienda di prodotti di consumo può esaminare la sua strategia di emissione dei coupon esaminando i coupon riscattati in passato insieme ai dati di vendita, alle statistiche di inventario e a tutti i dati dei consumatori a disposizione per trovare la migliore strategia per le campagne future.

Clustering: il clustering è strettamente correlato alla classificazione e presenta diverse somiglianze, ma fornisce anche più raggruppamenti basati sulle differenze.

Le classificazioni preimpostate per un produttore di detergenti possono includere detersivo, candeggina, ammorbidente per bucato, detergente per pavimenti e cera per pavimenti, mentre il clustering potrebbe creare gruppi che includono prodotti per il bucato e cura dei pavimenti.

Albero decisionale: questa tecnica di data mining utilizza l’analisi di classificazione o regressione per classificare o prevedere i potenziali risultati in base a un set di decisioni. Come suggerisce il nome, l’albero decisionale utilizza una visualizzazione ad albero per rappresentare i potenziali risultati di queste decisioni.

K-nearest neighbor (KNN): noto anche come algoritmo KNN, il K-nearest neighbor è un algoritmo non parametrico che classifica i punti dati in base alla loro vicinanza e all’associazione con altri dati disponibili. Questo algoritmo presuppone che punti dati simili si trovino uno vicino all’altro. Di conseguenza, cerca di calcolare la distanza tra i punti dati, solitamente attraverso la distanza euclidea, e quindi assegna una categoria in base alla categoria o alla media più frequente.

Reti neurali: principalmente utilizzate per gli algoritmi di deep learning, le reti neurali elaborano i dati di addestramento imitando l’interconnessione del cervello umano attraverso strati di nodi. Ciascun nodo è costituito da input, pesi, distorsioni (soglia) e output. Se il valore di output supera la soglia impostata, “innesca” o attiva il nodo, passando i dati al livello successivo della rete.

Le reti neurali apprendono questa funzione di mappatura attraverso l’apprendimento supervisionato, regolandosi in base alla funzione di perdita attraverso il processo di discesa del gradiente. Quando la funzione di costo è pari o vicina allo zero, un’organizzazione saprà che il modello è quello giusto per fornire la risposta corretta.

Analisi predittiva: Combinando il data mining con tecniche di modellazione statistica e machine learning, i dati storici possono essere analizzati utilizzando l’analisi predittiva per creare modelli grafici o matematici destinati a identificare modelli, prevedere eventi e risultati futuri e identificare rischi e opportunità.

Analisi di regressione: questa tecnica scopre le relazioni nei dati prevedendo i risultati in base a variabili predeterminate. Può includere alberi decisionali e regressione multivariata e lineare. I risultati possono essere classificati in base alla vicinanza della relazione, per aiutare a determinare quali dati sono più o meno significativi. Un esempio potrebbe essere un produttore di bevande analcoliche che stima l’inventario di bevande necessario prima dell’arrivo del estivo previsto.

Casi d'uso del data mining

Le tecniche di data mining sono ampiamente adottate dai team di business intelligence e analytics dei dati, perché permettono loro di estrarre conoscenze per la loro organizzazione e il loro settore. Alcuni casi d'uso del data mining includono:

Rilevamento delle anomalie

Anche se spesso i pattern nei dati possono fornire ai team insight preziosi, anche l’osservazione delle anomalie è vantaggiosa, perché aiuta le organizzazioni a rilevare frodi, intrusioni di rete e difetti nei prodotti. Sebbene questo sia un caso d’uso ben noto all’interno delle banche e di altri istituti finanziari, anche le aziende basate su SaaS hanno iniziato ad adottare queste pratiche per eliminare gli account falsi dai loro set di dati.

Il rilevamento delle anomalie può anche essere un’opportunità per trovare strategie nuove e inedite o mercati target che sono stati trascurati in passato.

Valutazione dei rischi

Le organizzazioni possono individuare e determinare in modo più accurato la scala del rischio con il data mining. Pattern e anomalie possono essere scoperti nei campi della cybersecurity, della finanza e nell'ambito legale per individuare sviste o minacce.

Focus sui mercati target

Effettuando ricerche in più database per individuare relazioni strette, il data mining può collegare con precisione i comportamenti e i background dei clienti alle vendite di articoli specifici. Ciò può facilitare campagne più mirate per incrementare le vendite.

Miglioramento del servizio clienti

I problemi dei clienti possono essere scoperti e risolti prima, se l’intera somma delle loro azioni (in loco, online, tramite le app mobili o su un telefono) può essere esaminata con il data mining. Gli agenti del servizio clienti possono avere accesso a informazioni più complete e approfondite sui clienti che servono.

Aumento del tempo di attività delle attrezzature

I dati operativi possono essere estratti da attrezzature industriali per prevedere le prestazioni e i tempi di inattività futuri e consentire la pianificazione della manutenzione protettiva.

Ottimizzazione delle operazioni

Il process mining utilizza tecniche di data mining per ridurre i costi tra le funzioni operative, permettendo alle organizzazioni di operare in modo più efficiente. Questa pratica aiuta a identificare costosi colli di bottiglia e migliorare il processo decisionale per i dirigenti aziendali.

Casi d'uso nel settore

Servizio clienti

Il data mining può creare un'origine dei dati più completa per il servizio clienti, aiutando a determinare quali fattori soddisfano maggiormente i clienti e quali fattori causano attrito o insoddisfazione.

Formazione

Gli istituti scolastici hanno iniziato a raccogliere dati per comprendere la popolazione studentesca e quali ambienti favoriscono il successo. Poiché i corsi utilizzano spesso piattaforme online, possono utilizzare varie dimensioni e metriche per osservare e valutare le prestazioni, come le sequenze di tasti, i profili degli studenti, le lezioni frequentate e il tempo trascorso.

Finanza

Nella loro ricerca del rischio, spesso gli istituti finanziari e le banche vogliono "pescare a strascico" per catturare tutti i fattori che potrebbero avere un impatto negativo sul flusso di cassa e sul recupero. Gli strumenti di data mining possono essere utili per trovare e soppesare una combinazione di fattori che indicano un rischio buono o cattivo.

Assistenza sanitaria

Il data mining è uno strumento utile per la diagnosi di condizioni mediche, compresa la lettura di scansioni e immagini, e per aiutare a suggerire trattamenti terapeutici.

Risorse umane

Le organizzazioni possono ottenere nuovi insight sulle prestazioni e sulla soddisfazione dei dipendenti analizzando molteplici fattori e trovando i pattern. I dati possono includere data di inizio, mandato, promozioni, stipendio, formazione, peer performance, consegna dei lavori, utilizzo dei sussidi e trasferte.

Produzione industriale

Dalle materie prime alla consegna finale, tutti gli aspetti del processo di produzione possono essere analizzati per migliorare le prestazioni. Qual è il costo dei materiali e quali opzioni esistono? Quanto è efficiente la produzione? Dove sono i colli di bottiglia? Quali sono i problemi di qualità e dove si presentano, sia internamente che con i clienti?

Retail

Estraendo i dati e le azioni dei clienti, i rivenditori possono identificare le campagne, i prezzi, le promozioni, le offerte di prodotti speciali e i cross-selling e gli up-selling più produttivi.

Vendite e marketing

Le aziende raccolgono enormi quantità di dati sui propri clienti e potenziali clienti. Osservando i dati demografici dei consumatori, le risposte dei media e il comportamento dei clienti, le aziende possono utilizzare i dati per ottimizzare le loro campagne di marketing, migliorando la segmentazione, il targeting e i programmi di fidelizzazione dei clienti, contribuendo a produrre un maggiore ritorno sull’investimento (ROI) sugli sforzi di marketing.

Anche le analisi predittive possono aiutare i team a stabilire le aspettative con i propri stakeholder, fornendo stime sui rendimenti per eventuali aumenti o riduzioni degli investimenti di marketing.

Social media

L'analisi dei dati degli utenti può aiutare a scoprire nuove opportunità editoriali o nuove fonti di entrate pubblicitarie per specifici destinatari target.

Gestione della catena di supply chain (SCM)

Utilizzando il data mining, i product manager possono prevedere meglio la domanda, aumentare la produzione, modificare i fornitori o adattare le attività di marketing. I responsabili della supply chain possono pianificare meglio spedizioni e magazzini.

Rendering 3D di una spirale di diverse icone allineate, come una fotocamera, una manopola del volume e una lavagnetta

Scarica il nostro ebook per passaggi attuabili per rendere i dati della tua organizzazione AI-ready.

Risorse

Podcast con Cassie Kozyrkov: I dati giusti, le decisioni giuste

Podcast: Decision Intelligence: scelte ponderate e basate sui dati

Scopri il concetto di intelligenza decisionale e come il processo decisionale basato sui dati possa creare un impatto reale all’interno della tua azienda

Rendering 3D di due righe di diverse icone come una fotocamera, una manopola del volume e una cartellina

Libera la potenza dell'AI per un'integrazione dei dati ottimale

Scopri come un approccio unificato all’integrazione dei dati basato su AI può aiutarti a lavorare più velocemente, ridurre la complessità e sbloccare tutto il potenziale dei tuoi dati

Rendering 3D di varie linee con diverse icone come una fotocamera, una manopola del volume e una lavagnetta

L'AI è valida solo con dati validi

Scopri un framework che può aiutare le organizzazioni a gestire e preparare dati di qualità per soddisfare i requisiti dei casi d'uso dell'AI.

IBM è stata nominata leader nel Gartner Magic Quadrant for Data Integration Tools 2025

Accedi al report completo per scoprire perché IBM è riconosciuta come leader

IDC nomina IBM un leader

Scarica il report per scoprire perché IBM è riconosciuta come leader per le piattaforme software di integrazione dei dati a livello mondiale

Rendering 3D di diverse icone allineate, come la fotocamera, la manopola del volume e gli appunti

Colmare il divario nelle competenze di ingegneria dei dati

Scopri in esclusiva 3 stili di authoring che consentono a ogni utente, indipendentemente dal livello di competenza, di costruire pipeline, accelerando la delivery e garantendo che i team dei dati possano soddisfare le crescenti esigenze aziendali.

IBM è stata nominata leader in data science e machine learning

Scopri come IBM offre soluzioni flessibili e focalizzate sull’AI che consentono a data scientist e ingegneri del machine learning di creare, distribuire e governare applicazioni di AI di grande impatto all’interno delle loro aziende.

Sblocca i tuoi dati non strutturati per aumentare la precisione dell'AI

Scopri come automatizzare e scalare l’accesso ai dati, l’arricchimento, l’archiviazione e la distribuzione di dati strutturati e non strutturati AI-ready, per alimentare un’AI generativa accurata e differenziata.

Soluzioni correlate

Strumenti e soluzioni di data science

Usa strumenti e soluzioni di data science per scoprire modelli e creare previsioni utilizzando dati, algoritmi, tecniche di machine learning e AI.

Esplora le soluzioni di data science

IBM Cognos Analytics

Introduzione a Cognos Analytics 12.0, insight basati sull'AI per prendere decisioni migliori.

Esplora Cognos Analytics

Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics

Fasi successive

Usa strumenti e soluzioni di data science per scoprire modelli e creare previsioni utilizzando dati, algoritmi, tecniche di machine learning e AI.

Cos'è il data mining?

Autori

Cos'è il data mining?

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Grazie per aver effettuato l'iscrizione!

Vantaggi e sfide del data mining

Vantaggi

Sfide

Decoding AI: Weekly News Roundup

Data mining, text mining e process mining

Come funziona il data mining

Tecniche di data mining

Casi d'uso del data mining

Rilevamento delle anomalie

Valutazione dei rischi

Focus sui mercati target

Miglioramento del servizio clienti

Aumento del tempo di attività delle attrezzature

Ottimizzazione delle operazioni

Casi d'uso nel settore

Servizio clienti

Formazione

Finanza

Assistenza sanitaria

Risorse umane

Produzione industriale

Retail

Vendite e marketing

Social media

Gestione della catena di supply chain (SCM)

Risorse