Cosa si intende con "rilevamento anomalie"?
Esplora Databand
Disegno che mostra le fonti di dati che portano alla schermata

Pubblicato: 12 dicembre 2023
Collaboratori: Joel Barnard

Cosa si intende con "rilevamento anomalie"?

Il rilevamento delle anomalie, o rilevamento dei valori anomali, è l'identificazione di un'osservazione, di un evento o di un punto dati che si discosta da ciò che è standard o previsto, rendendolo incoerente con il resto del set di dati.

Il rilevamento delle anomalie ha una lunga storia nel campo delle statistiche, dove analisti e scienziati studiavano i grafici alla ricerca di eventuali elementi che apparivano anomali. Oggi, il rilevamento delle anomalie sfrutta l'intelligenza artificiale (IA) e l'apprendimento automatico (ML) per identificare automaticamente i cambiamenti imprevisti nel comportamento normale di un set di dati.

I dati anomali possono segnalare incidenti critici che si verificano sotto il cofano, come un guasto all'infrastruttura, un cambiamento di rotta da una fonte a monte o minacce alla sicurezza. Le anomalie possono anche evidenziare opportunità di ottimizzazione dell'architettura o miglioramento delle strategie di marketing.

Il rilevamento delle anomalie ha una gamma di casi d'uso in vari settori. Ad esempio, viene utilizzato nella finanza per il rilevamento di frodi, nel settore manifatturiero per identificare difetti o malfunzionamenti delle apparecchiature, nella sicurezza informatica per rilevare attività di rete insolite e nel settore sanitario per identificare condizioni anomale dei pazienti.

L'individuazione di valori anomali può essere difficile perché le anomalie sono spesso rare e le caratteristiche del comportamento normale possono essere complesse e dinamiche. Dal punto di vista aziendale, è essenziale identificare le anomalie effettive anziché i falsi positivi o il rumore dei dati.

Prenota subito una demo di IBM Databand

Scopri in che modo l'osservabilità proattiva dei dati può aiutarti a rilevare prima gli incidenti che riguardano i dati e a risolverli più rapidamente.

Contenuti correlati

Iscriviti alla newsletter IBM

Perché il rilevamento delle anomalie è importante?

Le anomalie dei dati possono avere un impatto significativo sul campo della data science, causando conclusioni errate o fuorvianti. Ad esempio, un singolo valore anomalo può distorcere in modo significativo la media di un set di dati, rendendolo una rappresentazione imprecisa dei dati. Inoltre, le anomalie dei dati possono influire sulle prestazioni degli algoritmi di apprendimento automatico, in quanto possono far sì che il modello si adatti al rumore anziché al pattern sottostante nei dati.

Identificare e gestire le anomalie dei dati è fondamentale per diversi motivi: 

Migliore qualità dei dati: l'identificazione e la gestione delle anomalie dei dati possono migliorare significativamente la qualità dei dati, essenziale per un'analisi accurata e affidabile dei dati. Affrontando le anomalie dei dati, gli analisti possono ridurre rumori ed errori nel set di dati, assicurando che i dati siano più rappresentativi dei veri modelli sottostanti.

Miglioramento del processo decisionale: il processo decisionale basato sui dati si fonda su un'analisi dei dati accurata e affidabile per prendere decisioni informate. Identificando e gestendo le anomalie dei dati, gli analisti possono garantire che i loro risultati siano più affidabili, portando a decisioni più informate e a risvolti migliori.

Prestazioni di machine learning ottimizzate: le anomalie dei dati possono influire in modo significativo sulle prestazioni degli algoritmi di machine learning, in quanto possono causare la stima del rumore anziché del modello sottostante nei dati. Identificando e gestendo anomalie dei dati, gli analisti possono ottimizzare le prestazioni dei loro modelli di machine learning, garantendo loro previsioni precise e affidabili.

Tipi di anomalie

I tipi di anomalie dei dati che un sistema di rilevamento delle anomalie può rilevare rientrano in due tipologie generali: involontarie e intenzionali.

Le anomalie involontarie sono punti dati che deviano dalla norma a causa di errori o rumore nel processo di raccolta dei dati. Questi errori possono essere sistematici o casuali, originati da problemi quali sensori difettosi o errori umani durante l'immissione dei dati. Anomalie involontarie possono distorcere il set di dati, rendendo difficile ricavare informazioni accurate.

D'altro canto, le anomalie intenzionali sono punti dati che deviano dalla norma a causa di azioni o eventi specifici. Queste anomalie possono fornire informazioni preziose sul set di dati, in quanto possono evidenziare eventi o tendenze unici.

Ad esempio, un improvviso picco delle vendite durante le festività natalizie potrebbe essere considerato un'anomalia intenzionale, poiché si discosta dal tipico modello di vendita ma è previsto a causa di un evento del mondo reale.

In termini di dati aziendali, esistono tre serie temporali principali: anomalie dei punti, anomalie contestuali e anomalie collettive.

Le anomalie puntuali, note anche come valori anomali globali, sono singoli punti dati che esistono ben al di fuori del resto del set di dati. Possono essere intenzionali o non intenzionali e possono derivare daerrori, rumori o eventi unici.

Un esempio di anomalia puntuale è un prelievo dal conto corrente bancario che è significativamente più grande di tutti i prelievi precedenti dell'utente.   

Le anomalie contestuali sono punti dati che si discostano dalla norma all'interno di un contesto specifico. Queste anomalie non sono necessariamente valori anomali se considerate isolatamente, ma diventano anomale se osservate all'interno del loro contesto specifico.

Ad esempio, considera il consumo energetico domestico. Se si verifica un improvviso aumento del consumo di energia a mezzogiorno, quando in genere nessun membro della famiglia è a casa, l'anomalia sarebbe contestuale. Questo dato potrebbe non essere un valore anomalo se paragonato al consumo di energia al mattino o alla sera (quando le persone sono solitamente a casa), ma è anomalo nel contesto dell’ora del giorno in cui si verifica.

Le anomalie collettive coinvolgono una serie di istanze di dati che insieme si discostano dalla norma, anche se singole istanzepossono apparire normali.

Un esempio di questo tipo di anomalia potrebbe essere un set di dati sul traffico di rete che mostri un improvviso aumento del traffico da più indirizzi IP contemporaneamente.

Metodi di rilevamento delle anomalie

L'utilizzo di un sistema di rilevamento delle anomalie per rilevare le anomalie dei dati è un aspetto critico dell'analisi dei dati, garantendo che i risultati siano accurati e affidabili. Nella creazione di un sistema di rilevamento delle anomalie è possibile utilizzare vari metodi di rilevamento delle anomalie:

La visualizzazione è un potente strumento per rilevare le anomalie dei dati, in quanto consente ai data scientist di identificare rapidamente potenziali valori anomali e modelli nei dati. Tracciando i dati utilizzando diagrammi e grafici, gli analisti possono ispezionare visivamente il set di dati alla ricerca di punti dati o tendenze insoliti.

I test statistici possono essere utilizzati dagli scienziati per rilevare anomalie dei dati confrontando i dati osservati con la distribuzione o il modello previsto.

Ad esempio, il test Grubbs può essere utilizzato per identificare outlier in un set di dati confrontando ciascun punto dati con la media e la deviazione standard dei dati. Analogamente, il test Kolmogorov-Smirnov può essere utilizzato per determinare se un set di dati segue una distribuzione specifica, ad esempio una distribuzione normale.

Gli algoritmi di apprendimento automatico possono essere utilizzati per rilevare le anomalie dei dati apprendendo il modello sottostante nei dati e quindi identificando eventuali deviazioni da tale modello. Alcuni degli algoritmi di rilevamento delle anomalie ML più comuni includono:

  • Alberi decisionali: un tipo di albero decisionale, l'Isolation Forest, è un metodo di apprendimento assimilabile che isola le anomalie selezionando casualmente una feature e selezionando poi casualmente un valore suddiviso tra i valori massimi e minimi della feature selezionata.

  • One-Class Support Vector Machine (SVM): One-Class SVM è un algoritmo di classificazione addestrato solo sulle istanze " normali ", con l'obiettivo di creare un confine che comprenda i dati normali. Le istanze che non rientrano in questo limite sono considerate anomalie.

  • k-Nearest Neighbors (k-NN): k-NN è un algoritmo semplice che classifica un punto dati in base alla classe maggioritaria dei suoi vicini k. Le istanze che hanno un numero significativamente inferiore di vicini della stessa classe possono essere considerate anomalie.

  • Naive Bayesian: questi metodi funzionano definendo la probabilità che un evento si verifichi sulla base della presenza di fattori contribuenti e del rilevamento delle relazioni con la stessa causa primaria.

  • Autoencoder: Un tipo di rete neurale che utilizza dati con timestamp per prevedere i modelli di dati e identificare le anomalie che non sono allineate con i dati cronologici. 

  • Fattore outlier locale (LOF): LOF è un algoritmo basato sulla densità che misura la deviazione della densità locale di un punto dati rispetto ai vicini. I punti con densità significativamente inferiore rispetto ai vicini sono considerati outlier.

  • K-Means Clustering: K-Means è una tecnica di clustering che analizza la distanza media dei punti dati non etichettati e quindi aiuta a raggruppare gli stessi in gruppi specifici. 
Tecniche di rilevamento delle anomalie

Un algoritmo di rilevamento delle anomalie può imparare a identificare i modelli e rilevare i dati anomali usando varie tecniche di training di Machine Learning. La quantità di dati etichettati, se presenti, nel set di dati di addestramento di un team di dati determina quale delle principali tecniche di rilevamento delle anomalie verrà utilizzata: senza supervisione, supervisionata o semi-supervisionata.

Con tecniche di rilevamento delle anomalie senza supervisione, i data engineer addestrano un modello fornendogli set di dati non etichettati che utilizza per scoprire autonomamente modelli o anomalie. Sebbene queste tecniche siano di gran lunga le più comunemente utilizzate grazie alla loro applicazione più ampia e rilevante, richiedono enormi quantità di dati e potenza di calcolo. L'apprendimento automatico non supervisionato si trova più spesso negli scenari di apprendimento profondo, che si basano su reti neurali artificiali.

Le tecniche di rilevamento delle anomalie supervisionato utilizzano un algoritmo addestrato su un set di dati etichettato che include istanze normali e anomale. A causa della generale indisponibilità dei dati di addestramento etichettati e della natura intrinseca squilibrata delle classi, queste tecniche di rilevamento delle anomalie vengono utilizzate raramente. 

Le tecniche semi-supervisionate massimizzano gli attributi positivi sia del rilevamento delle anomalie senza supervisione che del rilevamento delle anomalie supervisionato. Fornendo un algoritmo con una parte di dati etichettati, è possibile addestrarlo parzialmente. I tecnici dei dati utilizzano quindi l'algoritmo parzialmente addestrato per etichettare autonomamente un set di dati più ampio, definito "pseudo-etichettatura". Supponendo che si dimostrino affidabili, questi punti dati appena etichettati vengono combinati con il set di dati originale per mettere a punto l’algoritmo.

Trovare la giusta combinazione di machine learning supervisionato e non supervisionato è fondamentale per l'automazione dell'apprendimento automatico. Idealmente, la stragrande maggioranza delle classificazioni dei dati verrebbe eseguita senza interazione umana e senza supervisione. Detto questo, gli ingegneri dei dati dovrebbero comunque essere in grado di alimentare gli algoritmi con dati di addestramento che contribuiscano a creare linee di base per l'attività ordinaria. Un approccio semi-supervisionato consente di scalare il rilevamento delle anomalie con la flessibilità di stabilire regole manuali relative a anomalie specifiche.

Casi d'uso per il rilevamento dell'anomalia

I modelli di rilevamento delle anomalie sono ampiamente utilizzati nei settori bancario, assicurativo e del commercio di azioni per identificare attività fraudolente in tempo reale, come transazioni non autorizzate, riciclaggio di denaro, frodi con carte di credito, false dichiarazioni dei redditi e modelli commerciali anomali.

Nella sicurezza informatica, un sistema di rilevamento delle intrusioni (IDS) utilizza il rilevamento di anomalie per aiutare a identificare attività insolite o sospette nel traffico di rete, indicando potenziali minacce alla sicurezza o attacchi come infezioni da malware o accesso non autorizzato.

Viene utilizzato nel settore sanitario per identificare condizioni insolite dei pazienti o anomalie nei dati medici, aiutando a rilevare malattie, monitorare la salute dei pazienti e curare i pazienti in modo più efficace.

Nel settore manifatturiero, gli algoritmi di rilevamento delle anomalie, insieme alla visione artificiale, vengono impiegati per identificare i difetti nei prodotti o negli imballaggi analizzando i filmati delle telecamere ad alta risoluzione, i dati dei sensori e le metriche di produzione.

Viene utilizzato per monitorare le prestazioni dei sistemi IT e mantenere le operazioni senza intoppi identificando modelli insoliti nei registri del server e ricostruendo i guasti da modelli ed esperienze passate per prevedere potenziali problemi o guasti.

Il rilevamento dell'anomalia aiuta a prevedere i guasti alle apparecchiature o le esigenze di manutenzione in settori come l'aviazione, l'energia e il trasporto. I sensori alimentati dall'IoT vengono utilizzati per raccogliere dati dalle apparecchiature industriali, identificare le deviazioni e prevedere guasti futuri.

Viene utilizzato per monitorare i modelli di consumo energetico e identificare le anomalie nell'utilizzo, il che può portare a una gestione più efficiente dell'energia e al rilevamento precoce dei guasti delle apparecchiature.

Nell'e-commerce, il rilevamento delle anomalie viene applicato per identificare attività fraudolente, come recensioni false, acquisizione di account o comportamenti di acquisto anomali.

Le aziende utilizzano inoltre modelli di rilevamento delle anomalie per identificare modelli insoliti nel comportamento dei clienti, aiutarli a individuare le frodi, prevedere il tasso di abbandono dei clienti e migliorare le strategie di marketing.

Prodotti correlati
IBM Databand

IBM® Databand® è un software di osservabilità per pipeline di dati e warehouse che raccoglie automaticamente i metadati per creare linee di base cronologiche, rilevare anomalie e valutare gli avvisi per correggere i problemi di qualità dei dati.

Esplora Databand

IBM DataStage

Supportando i modelli ETL ed ELT, IBM® DataStage® offre un'integrazione dati flessibile e quasi in tempo reale, sia on-premise che nel cloud.

Esplora DataStage

IBM Knowledge Catalog

Catalogo intelligente di dati per l'era dell'AI, IBM® Knowledge Catalog ti consente di accedere, rendere accurati, categorizzare e condividere i dati, gli asset di conoscenza e le loro relazioni, ovunque si trovino.

Esplora il catalogo conoscenze
Risorse Utilizzo del rilevamento delle anomalie di Databand per rispettare le scadenze di consegna dei dati

In questo articolo, scopri come il rilevamento delle anomalie di Databand aiuta i team di dati a identificare i problemi della pipeline di dati più rapidamente in modo che possano svolgere un lavoro migliore nel soddisfare gli SLA dei dati impostati.

Apprendimento supervisionato e non supervisionato

Esplora le basi di due approcci di data science: supervisionati e non supervisionati. Scopri quale approccio è il più adatto alla tua situazione.

Come garantire qualità, valore e affidabilità dei dati

Garantire dati di alta qualità è responsabilità degli ingegneri di dati e dell'intera organizzazione. Questo post descrive l'importanza della qualità dei dati, come controllare e monitorare i dati e come ottenere il consenso dai principali stakeholder.

Fasi successive

Implementa oggi stesso l'osservabilità proattiva dei dati con IBM Databand, in modo da individuare un problema di integrità dei dati prima che lo facciano i tuoi utenti.

Esplora Databand