Cosa si intende con "rilevamento anomalie"?

Data di pubblicazione: 12 dicembre 2023
Collaboratori: Joel Barnard, Cole Stryker

Il rilevamento delle anomalie, o rilevamento degli outlier, è l'identificazione di osservazioni, eventi o punti dati che si discostano da ciò che è usuale, standard o previsto, rendendolo incoerente con il resto di un set di dati.

Il rilevamento delle anomalie ha una lunga storia nel campo delle statistiche, dove analisti e scienziati studiavano i grafici alla ricerca di eventuali elementi che apparivano anomali. Oggi, il rilevamento delle anomalie sfrutta l'intelligenza artificiale (IA) e l'apprendimento automatico (ML) per identificare automaticamente i cambiamenti imprevisti nel comportamento normale di un set di dati.

I dati anomali possono segnalare incidenti critici che si verificano sotto il cofano, come un guasto all'infrastruttura, un cambiamento di rotta da una fonte a monte o minacce alla sicurezza. Le anomalie possono anche evidenziare opportunità di ottimizzazione dell'architettura o miglioramento delle strategie di marketing.

Il rilevamento delle anomalie ha una gamma di casi d'uso in vari settori. Ad esempio, viene utilizzato nella finanza per il rilevamento di frodi, nel settore manifatturiero per identificare difetti o malfunzionamenti delle apparecchiature, nella sicurezza informatica per rilevare attività di rete insolite e nel settore sanitario per identificare condizioni anomale dei pazienti.

L'individuazione di valori anomali può essere difficile perché le anomalie sono spesso rare e le caratteristiche del comportamento normale possono essere complesse e dinamiche. Dal punto di vista aziendale, è essenziale identificare le anomalie effettive anziché i falsi positivi o il rumore dei dati.

Una guida per i leader dei dati

Scopri come utilizzare i database giusti per le applicazioni, l’analytics e l’AI generativa.

Contenuti correlati

Registrati per ricevere l'ebook sui workflow con l'AI responsabile

Perché il rilevamento delle anomalie è importante?

Le anomalie dei dati possono avere un impatto significativo sul campo della data science, causando conclusioni errate o fuorvianti. Ad esempio, un singolo valore anomalo può distorcere in modo significativo la media di un set di dati, rendendolo una rappresentazione imprecisa dei dati. Inoltre, le anomalie dei dati possono influire sulle prestazioni degli algoritmi di apprendimento automatico, in quanto possono far sì che il modello si adatti al rumore anziché al pattern sottostante nei dati.

Identificare e gestire le anomalie dei dati è fondamentale per diversi motivi:

Migliore qualità dei dati: l'identificazione e la gestione delle anomalie dei dati possono migliorare significativamente la qualità dei dati, essenziale per un'analisi accurata e affidabile dei dati. Affrontando le anomalie dei dati, gli analisti possono ridurre rumori ed errori nel set di dati, assicurando che i dati siano più rappresentativi dei veri modelli sottostanti.

Miglioramento del processo decisionale: il processo decisionale basato sui dati si fonda su un'analisi dei dati accurata e affidabile per prendere decisioni informate. Identificando e gestendo le anomalie dei dati, gli analisti possono garantire che i loro risultati siano più affidabili, portando a decisioni più informate e a risvolti migliori.

Prestazioni di machine learning ottimizzate: le anomalie dei dati possono influire in modo significativo sulle prestazioni degli algoritmi di machine learning, in quanto possono causare la stima del rumore anziché del modello sottostante nei dati. Identificando e gestendo anomalie dei dati, gli analisti possono ottimizzare le prestazioni dei loro modelli di machine learning, garantendo loro previsioni precise e affidabili.

Tipi di anomalie

Un sistema di rilevamento delle anomalie può scoprire due tipi generali di anomalie: involontarie e intenzionali.

Le anomalie involontarie sono punti dati che deviano dalla norma a causa di errori o rumore nel processo di raccolta dei dati. Questi errori possono essere sistematici o casuali, originati da problemi quali sensori difettosi o errori umani durante l'immissione dei dati. Anomalie involontarie possono distorcere il set di dati, rendendo difficile ricavare informazioni accurate.

Le anomalie intenzionali sono punti dati che deviano dalla norma a causa di azioni o eventi specifici. Queste anomalie possono fornire insight preziosi sul set di dati, in quanto possono evidenziare eventi o tendenze unici. Ad esempio, un improvviso picco delle vendite durante le festività natalizie potrebbe essere considerato un'anomalia intenzionale, poiché si discosta dal tipico modello di vendita ma è previsto a causa di un evento del mondo reale.

Anomalie dei dati delle serie temporali

In termini di dati aziendali, esistono tre serie temporali principali: anomalie dei punti, anomalie contestuali e anomalie collettive.

Le anomalie puntuali, note anche come outlier globali, sono singoli punti di dati che esistono ben al di fuori del resto del set di dati. Possono essere intenzionali o non intenzionali e possono derivare da errori, rumore o eventi unici. Un esempio di anomalia puntuale è un prelievo dal conto corrente bancario che è significativamente più grande di tutti i prelievi precedenti dell'utente.

Le anomalie contestuali sono punti dati che deviano dalla norma all'interno di un contesto specifico. Queste anomalie non sono necessariamente outlier se considerate isolatamente, ma diventano anomale se osservate all'interno del loro contesto specifico.

Ad esempio, considera il consumo energetico domestico. Se si verifica un improvviso aumento del consumo di energia a mezzogiorno, quando in genere nessun membro della famiglia è a casa, l'anomalia sarebbe contestuale. Questo dato potrebbe non essere un valore anomalo se paragonato al consumo di energia al mattino o alla sera (quando le persone sono solitamente a casa), ma è anomalo nel contesto dell’ora del giorno in cui si verifica.

Le anomalie collettive coinvolgono una serie di istanze di dati che insieme si discostano dalla norma, anche se singole istanze possono apparire normali. Un esempio di questo tipo di anomalia potrebbe essere un set di dati sul traffico di rete che mostri un improvviso aumento del traffico da più indirizzi IP contemporaneamente.

Metodi di rilevamento delle anomalie

L'utilizzo di un sistema di rilevamento delle anomalie per rilevare le anomalie dei dati è un aspetto critico dell'analisi dei dati, garantendo che i risultati siano accurati e affidabili. Nella creazione di un sistema di rilevamento delle anomalie è possibile utilizzare vari metodi di rilevamento delle anomalie.

Visualizzazione

La visualizzazione è un potente strumento per rilevare le anomalie dei dati, in quanto consente ai data scientist di identificare rapidamente potenziali outlier e modelli nei dati. Tracciando i dati utilizzando diagrammi e grafici, gli analisti possono ispezionare visivamente il set di dati alla ricerca di punti dati o tendenze insoliti.

Test statistici

I test statistici possono essere utilizzati dai data scientist per rilevare anomalie dei dati confrontando i dati osservati con la distribuzione o il modello previsto.

Ad esempio, il test Grubbs può essere utilizzato per identificare outlier in un set di dati confrontando ciascun punto dati con la media e la deviazione standard dei dati. Analogamente, il test Kolmogorov-Smirnov può essere utilizzato per determinare se un set di dati segue una distribuzione specifica, ad esempio una distribuzione normale.

Algoritmi di machine learning

Gli algoritmi di apprendimento automatico possono essere utilizzati per rilevare le anomalie dei dati apprendendo il modello sottostante nei dati e quindi identificando eventuali deviazioni da tale modello. Alcuni degli algoritmi di rilevamento delle anomalie di apprendimento automatico (ML) più comuni includono:

Decision Trees: un tipo di albero decisionale, l'Isolation Forest, è un metodo di apprendimento assimilabile che isola le anomalie selezionando casualmente una funzione e selezionando poi casualmente un valore suddiviso tra i valori massimi e minimi della funzione selezionata.
One-Class Support Vector Machine (SVM): One-Class SVM è un algoritmo di classificazione addestrato solo sulle istanze "normali", con l'obiettivo di creare un confine che comprenda i dati normali. Le istanze che non rientrano in questo limite sono considerate anomalie.
k-Nearest Neighbors (k-NN): k-NN è un algoritmo semplice che classifica un punto dati in base alla classe maggioritaria dei suoi vicini k. Le istanze che hanno un numero significativamente inferiore di vicini della stessa classe possono essere considerate anomalie.
Naive Bayesian: questi metodi funzionano definendo la probabilità che un evento si verifichi sulla base della presenza di fattori contribuenti e del rilevamento delle relazioni con la stessa causa principale.
Autoencoder: un tipo di rete neurale che utilizza dati con indicazione di data e ora per prevedere i modelli di dati e identificare le anomalie che non sono allineate con i dati cronologici.
Fattore outlier locale (LOF): LOF è un algoritmo basato sulla densità che misura la deviazione della densità locale di un punto dati rispetto ai vicini. I punti con densità significativamente inferiore rispetto ai vicini sono considerati outlier.
K-Means Clustering: k-means è una tecnica di clustering che analizza la distanza media dei punti dati non etichettati e quindi aiuta a raggruppare gli stessi in gruppi specifici.

Tecniche di rilevamento delle anomalie

Un algoritmo di rilevamento delle anomalie può imparare a identificare i modelli e rilevare i dati anomali usando varie tecniche di training di Machine Learning. La quantità di dati etichettati, se presenti, nel set di dati di addestramento di un team di dati determina quale delle principali tecniche di rilevamento delle anomalie verrà utilizzata: senza supervisione, supervisionata o semi-supervisionata.

Rilevamento anomalie senza supervisione

Con tecniche di rilevamento delle anomalie senza supervisione , i data engineer addestrano un modello fornendogli set di dati non etichettati che utilizza per scoprire autonomamente modelli o anomalie. Sebbene queste tecniche siano di gran lunga le più comunemente utilizzate grazie alla loro applicazione più ampia e rilevante, richiedono enormi quantità di dati e potenza di calcolo. L'apprendimento automatico non supervisionato si trova più spesso negli scenari di deep learning che si basano su reti neurali artificiali.

Rilevamento delle anomalie supervisionato

Le tecniche di rilevamento delle anomalie supervisionato utilizzano un algoritmo addestrato su un set di dati etichettato che include istanze normali e anomale. A causa della generale indisponibilità dei dati di addestramento etichettati e della natura intrinseca squilibrata delle classi, queste tecniche di rilevamento delle anomalie vengono utilizzate raramente.

Rilevamento anomalie semi-supervisionato

Le tecniche semi-supervisionate massimizzano gli attributi positivi sia del rilevamento delle anomalie senza supervisione che del rilevamento delle anomalie supervisionato. Fornendo un algoritmo con una parte di dati etichettati, è possibile addestrarlo parzialmente. I tecnici dei dati utilizzano quindi l'algoritmo parzialmente addestrato per etichettare autonomamente un set di dati più ampio, definito "pseudo-etichettatura". Supponendo che si dimostrino affidabili, questi punti dati appena etichettati vengono combinati con il set di dati originale per mettere a punto l’algoritmo.

Trovare la giusta combinazione di machine learning supervisionato e non supervisionato è fondamentale per l'automazione dell'apprendimento automatico. Idealmente, la stragrande maggioranza delle classificazioni dei dati verrebbe eseguita senza interazione umana e senza supervisione. Detto questo, gli ingegneri dei dati dovrebbero comunque essere in grado di alimentare gli algoritmi con dati di addestramento che contribuiscano a creare linee di base per l'attività ordinaria. Un approccio semi-supervisionato consente di scalare il rilevamento delle anomalie con la flessibilità di stabilire regole manuali relative a anomalie specifiche.

Casi d'uso per il rilevamento dell'anomalia

Rilevazione di frodi

I modelli di rilevamento delle anomalie sono ampiamente utilizzati nei settori bancario, assicurativo e del commercio di azioni per identificare attività fraudolente in tempo reale, come transazioni non autorizzate, riciclaggio di denaro, frodi con carte di credito, false dichiarazioni dei redditi e modelli commerciali anomali.

Cybersecurity

I sistemi di rilevamento delle intrusioni (IDS) e altre tecnologie di cybersecurity utilizzano il rilevamento di anomalie per aiutare a identificare attività utente insolite o modelli di traffico di rete, indicando potenziali minacce alla sicurezza o attacchi come infezioni da malware o accesso non autorizzato.

Produzione e controllo qualità

Spesso vengono impiegati algoritmi di rilevamento delle anomalie insieme alla computer vision per identificare i difetti nei prodotti o negli imballaggi analizzando i dati delle telecamere ad alta risoluzione, dei sensori e delle metriche di produzione.

Gestione dei sistemi IT

La rilevazione di anomalie può essere utilizzata per monitorare le prestazioni dei sistemi IT e mantenere il funzionamento regolare delle operazioni. identificando modelli insoliti nei registri del server e ricostruendo i guasti da modelli ed esperienze passate per prevedere potenziali problemi o guasti.

Energia, trasporti e infrastrutture critiche

Identificando le irregolarità nei dati provenienti dai sensori dell'Internet of Things (IoT) e dai dispositivi della tecnologia operativa (OT), il rilevamento delle anomalie può aiutare a prevedere i guasti delle apparecchiature o le esigenze di manutenzione in settori come l'aviazione, l'energia e i trasporti. Se utilizzato per monitorare i modelli di consumo energetico e identificare le anomalie nell'utilizzo, il rilevamento delle anomalie può portare a una gestione più efficiente dell'energia e al rilevamento precoce dei guasti delle attrezzature.

Retail ed e-commerce

I commercianti utilizzano modelli di rilevamento delle anomalie per identificare modelli insoliti nel comportamento dei clienti, il che può aiutarli a individuare le frodi, prevedere il tasso di abbandono dei clienti e migliorare le strategie di marketing. Nell'e-commerce, il rilevamento delle anomalie viene applicato per identificare recensioni false, acquisizioni di account, comportamenti di acquisto anomali e altri indicatori di frode o criminalità informatica.

Prodotti correlati

IBM Databand

IBM Databand è un software di osservabilità per pipeline di dati e warehouse che raccoglie automaticamente i metadati per creare linee di base cronologiche, rilevare anomalie e valutare gli avvisi per correggere i problemi di qualità dei dati.

Esplora Databand

IBM DataStage

Supportando i modelli ETL ed ELT, IBM^® DataStage^® offre un'integrazione dati flessibile e quasi in tempo reale, sia on-premise che nel cloud.

Esplora DataStage

IBM Knowledge Catalog

Catalogo intelligente di dati per l'era dell'AI, IBM^® Knowledge Catalog ti consente di accedere, rendere accurati, categorizzare e condividere i dati, gli asset di conoscenza e le loro relazioni, ovunque si trovino.

Esplora il catalogo conoscenze

Risorse

Utilizzo del rilevamento delle anomalie di Databand per rispettare le scadenze di consegna dei dati

In questo articolo, scopri come il rilevamento delle anomalie di Databand aiuta i team di dati a identificare i problemi della pipeline di dati più rapidamente in modo che possano svolgere un lavoro migliore nel soddisfare gli SLA dei dati impostati.

Apprendimento supervisionato e non supervisionato

Esplora le basi di due approcci di data science: supervisionati e non supervisionati. Scopri quale approccio è il più adatto alla tua situazione.

Come garantire qualità, valore e affidabilità dei dati

Garantire dati di alta qualità è responsabilità degli ingegneri di dati e dell’intera organizzazione. Questo post descrive l’importanza della qualità dei dati, come controllare e monitorare i dati e come ottenere il consenso dai principali stakeholder.

Fai il passo successivo

Implementa oggi stesso l'osservabilità proattiva dei dati con IBM Databand, in modo da individuare un problema di integrità dei dati prima che lo facciano i tuoi utenti.

Esplora Databand

Prenota una demo live