Was ist Anomalieerkennung?
Databand erkunden
Zeichnung, die die Datenquellen auf dem Bildschirm zeigt

Veröffentlicht: 12. Dezember 2023
Mitwirkende: Joel Barnard

Was ist Anomalieerkennung?

Bei der Erkennung von Anomalien oder Sonderfällen handelt es sich um die Identifizierung einer Beobachtung, eines Ereignisses oder eines Datenpunkts, der von der Norm oder den Erwartungen abweicht und somit inkonsistent mit dem Rest des Datensatzes ist.

Die Erkennung von Anomalien hat eine lange Geschichte im Bereich der Statistik, wo Analysten und Wissenschaftler Diagramme auf anormale Elemente hin untersuchten. Heute nutzt die Anomalieerkennung künstliche Intelligenz (KI) und maschinelles Lernen (ML), um unerwartete Änderungen im normalen Verhalten eines Datensatzes automatisch zu erkennen.

Anomale Daten können auf kritische Vorfälle hinweisen, die im Verborgenen stattfinden, wie z. B. ein Ausfall der Infrastruktur, eine wesentliche Änderung durch eine vorgelagerte Quelle oder eine sicherheitsrelevante Bedrohung. Anomalien können auch Möglichkeiten zur Optimierung der Architektur oder zur Verbesserung der Marketingstrategien aufzeigen.

Die Erkennung von Anomalien hat eine Reihe von Anwendungsfällen in verschiedenen Branchen. Sie wird beispielsweise im Finanzwesen zur Aufdeckung von Betrug, in der Fertigung zur Erkennung von Defekten oder Fehlfunktionen von Geräten, im Bereich der Cybersicherheit zur Erkennung ungewöhnlicher Netzwerkaktivitäten und im Gesundheitswesen zur Erkennung anormaler Patientenzustände eingesetzt.

Die Erkennung von Sonderfällen kann eine Herausforderung sein, da Anomalien oft selten sind und die Merkmale des normalen Verhaltens komplex und dynamisch sein können. Aus geschäftlicher Sicht ist es von entscheidender Bedeutung, tatsächliche Anomalien zu erkennen und nicht etwa falsch positive Ergebnisse oder Datenrauschen.

Buchen Sie noch heute eine IBM Databand-Demo

Erfahren Sie, wie Sie mit proaktiver Datenbeobachtbarkeit Probleme mit Daten früher erkennen und schneller lösen können.

Ähnliche Inhalte

IBM Newsletter abonnieren

Warum ist die Erkennung von Anomalien wichtig?

Datenanomalien können im Bereich der Data Science erhebliche Auswirkungen haben und zu falschen oder irreführenden Schlussfolgerungen führen. So kann beispielsweise ein einzelner Sonderfall den Mittelwert eines Datensatzes erheblich verzerren, sodass dieser eine ungenaue Darstellung der Daten darstellt. Darüber hinaus können sich Datenanomalien auf die Leistung von Algorithmen für maschinelles Lernen auswirken, da sie dazu führen können, dass sich das Modell dem Rauschen anpasst und nicht dem zugrunde liegenden Muster in den Daten.

Die Erkennung und Behandlung von Datenanomalien ist aus mehreren Gründen von entscheidender Bedeutung: 

Verbesserte Datenqualität: Die Erkennung und Behandlung von Datenanomalien kann die Datenqualität erheblich verbessern, was für eine genaue und zuverlässige Datenanalyse unerlässlich ist. Durch die Beseitigung von Datenanomalien können Analysten das Rauschen und die Fehler in den Datensätzen reduzieren und so sicherstellen, dass die Daten repräsentativer für die wahren zugrunde liegenden Muster sind.

Verbesserte Entscheidungsfindung: Die datengestützte Entscheidungsfindung beruht auf einer genauen und zuverlässigen Datenanalyse, die als Grundlage für Entscheidungen dient. Durch die Identifizierung und Behandlung von Datenanomalien können Analysten sicherstellen, dass ihre Ergebnisse vertrauenswürdiger sind, was zu besser informierten Entscheidungen und besseren Ergebnissen führt.

Optimierte Leistung beim maschinellen Lernen: Datenanomalien können die Leistung von Algorithmen für maschinelles Lernen erheblich beeinträchtigen, da sie dazu führen können, dass sich das Modell an das Rauschen und nicht an das zugrunde liegende Muster in den Daten anpasst. Durch die Identifizierung und Behandlung von Datenanomalien können Analysten die Leistung ihrer maschinellen Lernmodelle optimieren und sicherstellen, dass diese genaue und zuverlässige Vorhersagen liefern.

Arten von Anomalien

Die Arten von Datenanomalien, die ein System zur Erkennung von Anomalien erkennen kann, lassen sich in zwei allgemeine Typen einteilen: unbeabsichtigte und beabsichtigte.

Unbeabsichtigte Anomalien sind Datenpunkte, die aufgrund von Fehlern oder Rauschen im Datenerfassungsprozess von der Norm abweichen. Diese Fehler sind entweder systematischer oder zufälliger Natur und können z. B. durch fehlerhafte Sensoren oder menschliches Versagen bei der Dateneingabe verursacht werden. Unbeabsichtigte Anomalien können den Datensatz verzerren, was es schwierig macht, genaue Erkenntnisse abzuleiten.

Andererseits sind absichtliche Anomalien Datenpunkte, die aufgrund bestimmter Aktionen oder Ereignisse von der Norm abweichen. Diese Anomalien können wertvolle Erkenntnisse über den Datensatz liefern, da sie einzigartige Vorkommnisse oder Trends hervorheben können.

Eine plötzliche Verkaufsspitze während der Ferienzeit könnte beispielsweise als absichtliche Anomalie betrachtet werden, da sie vom typischen Verkaufsmuster abweicht, aber aufgrund eines realen Ereignisses erwartet wird.

Bei Geschäftsdaten gibt es im Wesentlichen drei Arten von Zeitreihenanomalien: Punktanomalien, kontextbezogene Anomalien und kollektive Anomalien.

Punktanomalien, die auch als globale Sonderfälle bezeichnet werden, sind einzelne Datenpunkte, die weit vom Rest des Datensatzes entfernt sind. Sie können entweder beabsichtigt oder unbeabsichtigt sein und können aus Fehlern, Rauschen oder einmaligen Ereignissen resultieren.

Ein Beispiel für eine Punktanomalie ist eine Abhebung von einem Bankkonto, die deutlich höher ist als alle vorherigen Abhebungen des Nutzers.   

Kontextbezogene Anomalien sind Datenpunkte, die innerhalb eines bestimmten Kontexts von der Norm abweichen. Diese Anomalien sind nicht unbedingt Sonderfälle, wenn sie isoliert betrachtet werden, sondern werden zu Anomalien, wenn sie in ihrem spezifischen Kontext betrachtet werden.

Nehmen Sie zum Beispiel den Energieverbrauch zu Hause. Wenn es zur Mittagszeit, wenn normalerweise keine Familienmitglieder zu Hause sind, einen plötzlichen Anstieg des Energieverbrauchs gibt, wäre die Anomalie kontextbezogen. Dieser Datenpunkt ist vielleicht kein Sonderfall, wenn man ihn mit dem Energieverbrauch am Morgen oder Abend vergleicht (wenn die Menschen normalerweise zu Hause sind), aber er ist ungewöhnlich im Zusammenhang mit der Tageszeit, zu der er auftritt.

Bei kollektiven Anomalien handelt es sich um eine Reihe von Dateninstanzen, die zusammen von der Norm abweichen, auch wenn einzelne Instanzen normal erscheinen können.

Ein Beispiel für diese Art von Anomalie wäre ein Datensatz zum Netzwerkverkehr, der einen plötzlichen Anstieg des Datenverkehrs von mehreren IP-Adressen zur gleichen Zeit zeigt.

Methoden zur Erkennung von Anomalien

Die Verwendung eines Systems zur Erkennung von Datenanomalien ist ein entscheidender Aspekt der Datenanalyse, um sicherzustellen, dass die Ergebnisse genau und zuverlässig sind. Beim Aufbau eines Systems zur Erkennung von Anomalien können verschiedene Methoden verwendet werden:

Visualisierung ist ein leistungsfähiges Werkzeug zur Erkennung von Datenanomalien, da Data Scientists damit schnell mögliche Sonderfälle und Muster in den Daten erkennen können. Durch die Darstellung der Daten in Diagrammen und Grafiken können Analysten den Datensatz visuell auf ungewöhnliche Datenpunkte oder Trends untersuchen.

Statistische Tests können von Data Scientists verwendet werden, um Datenanomalien zu erkennen, indem die beobachteten Daten mit der erwarteten Verteilung oder dem erwarteten Muster verglichen werden.

Der Grubbs-Test kann zum Beispiel verwendet werden, um Sonderfälle in einem Datensatz zu identifizieren, indem jeder Datenpunkt mit dem Mittelwert und der Standardabweichung der Daten verglichen wird. In ähnlicher Weise kann der Kolmogorov-Smirnov-Test verwendet werden, um festzustellen, ob ein Datensatz einer bestimmten Verteilung folgt, z. B. einer Normalverteilung.

Algorithmen des maschinellen Lernens können zur Erkennung von Datenanomalien eingesetzt werden, indem sie das zugrundeliegende Muster in den Daten lernen und dann Abweichungen von diesem Muster identifizieren. Einige der gängigsten ML-Algorithmen zur Erkennung von Anomalien sind:

  • Entscheidungsbäume: Isolation Forest, eine Art von Entscheidungsbaum, ist eine Ensemble-Lernmethode, die Anomalien isoliert, indem sie zufällig ein Merkmal auswählt und dann zufällig einen Split-Wert zwischen dem Maximal- und dem Minimalwert des ausgewählten Merkmals auswählt.

  • One-Class Support Vector Machine (SVM): Die One-Class SVM ist ein Klassifizierungsalgorithmus, der nur auf die „normalen“ Instanzen trainiert wird und darauf abzielt, eine Eingrenzung zu schaffen, die die normalen Daten einschließt. Instanzen, die außerhalb dieser Grenze liegen, werden als Anomalien betrachtet.

  • k-Nearest Neighbors (k-NN): k-NN ist ein einfacher Algorithmus, der einen Datenpunkt auf der Grundlage der Mehrheitsklasse seiner k nächsten Nachbarn klassifiziert. Instanzen, die deutlich weniger Nachbarn der gleichen Klasse haben, können als Anomalien betrachtet werden.

  • Naiv-Bayes: Bei diesen Methoden wird die Wahrscheinlichkeit des Eintretens eines Ereignisses auf der Grundlage des Vorhandenseins von beitragenden Faktoren und der Erkennung von Beziehungen mit derselben Grundursache definiert.

  • Autoencoder: Eine Art neuronales Netzwerk, das zeitgestempelte Daten verwendet, um Datenmuster vorherzusagen und Anomalien zu erkennen, die nicht mit den historischen Daten übereinstimmen. 

  • Local Outlier Factor (LOF): LOF ist ein dichtebasierter Algorithmus, der die lokale Dichteabweichung eines Datenpunkts im Verhältnis zu seinen benachbarten Datenpunkten misst. Punkte mit deutlich geringerer Dichte als ihre Nachbarn werden als Sonderfälle betrachtet.

  • k-means clustering: k-means ist eine Clustering-Technik, die den mittleren Abstand der unbeschrifteten Datenpunkte analysiert und dann hilft, diese in bestimmte Gruppen einzuteilen. 
Techniken zur Erkennung von Anomalien

Ein Algorithmus zur Erkennung von Anomalien kann lernen, Muster zu erkennen und auffällige Daten mithilfe verschiedener Trainingsmethoden für maschinelles Lernen zu entdecken. Die Menge der gelabelten Daten im Trainingsdatensatz eines Datenteams bestimmt, welche der wichtigsten Techniken zur Erkennung von Anomalien verwendet werden – unbeaufsichtigt, überwacht oder halbüberwacht.

Bei unüberwachten Techniken zur Erkennung von Anomalien trainieren Dateningenieure ein Modell, indem sie ihm unbeschriftete Datensätze zur Verfügung stellen, anhand derer es selbständig Muster oder Anomalien entdeckt. Obwohl diese Techniken aufgrund ihrer breiteren und relevanteren Anwendung bei weitem am häufigsten verwendet werden, erfordern sie massive Datensätze und Rechenleistung. Unüberwachtes maschinelles Lernen findet man am häufigsten in Deep-Learning-Szenarien, die auf künstlichen neuronalen Netzwerken basieren.

Überwachte Techniken zur Erkennung von Anomalien verwenden einen Algorithmus, der auf einem markierten Datensatz trainiert wird, der sowohl normale als auch anomale Instanzen enthält. Da im Allgemeinen keine gelabelten Trainingsdaten zur Verfügung stehen und die Kategorien von Natur aus unausgewogen sind, werden diese Techniken zur Erkennung von Anomalien nur selten eingesetzt. 

Halbüberwachte Techniken maximieren die positiven Eigenschaften sowohl der unbeaufsichtigten als auch der überwachten Erkennung von Anomalien. Indem man einem Algorithmus einen Teil der markierten Daten zur Verfügung stellt, kann er teilweise trainiert werden. Dateningenieure verwenden dann den teilweise trainierten Algorithmus, um einen größeren Datensatz selbstständig zu beschriften. Dies wird als „Pseudo-Labeling“ bezeichnet. Wenn sie sich als zuverlässig erweisen, werden diese neu beschrifteten Datenpunkte mit dem Originaldatensatz kombiniert, um eine Feinabstimmung des Algorithmus vorzunehmen.

Die richtige Kombination aus überwachtem und unüberwachtem maschinellen Lernen ist für die Automatisierung des maschinellen Lernens entscheidend. Im Idealfall würde die überwiegende Mehrheit der Datenklassifizierungen ohne menschliche Interaktion auf unüberwachte Weise erfolgen. Dennoch sollten Dateningenieure in der Lage sein, Algorithmen mit Trainingsdaten zu füttern, die dabei helfen, Basisdaten für den Normalbetrieb zu erstellen. Ein halb-überwachter Ansatz ermöglicht eine skalierende Erkennung von Anomalien mit der Flexibilität, manuelle Regeln für bestimmte Anomalien aufzustellen.

Anwendungsfälle für die Erkennung von Anomalien

Modelle zur Erkennung von Anomalien werden in der Banken-, Versicherungs- und Aktienhandelsbranche häufig eingesetzt, um betrügerische Aktivitäten in Echtzeit zu erkennen, z. B. nicht autorisierte Transaktionen, Geldwäsche, Kreditkartenbetrug, gefälschte Steuererklärungen und anormale Handelsmuster.

Im Bereich der Cybersicherheit nutzt ein Intrusion Detection System (IDS) die Anomalieerkennung, um ungewöhnliche oder verdächtige Aktivitäten im Netzwerkverkehr zu erkennen, die auf potenzielle Sicherheitsbedrohungen oder Angriffe wie Malware-Infektionen oder unbefugten Zugriff hinweisen.

Das System wird in der Gesundheitsbranche eingesetzt, um ungewöhnliche Patientenzustände oder Anomalien in medizinischen Daten zu erkennen. Es hilft dabei, Krankheiten zu erkennen, den Gesundheitszustand von Patienten zu überwachen und Patienten effektiver zu behandeln.

In der Fertigung werden Algorithmen zur Erkennung von Anomalien zusammen mit Computer Vision eingesetzt, um durch die Analyse von hochauflösendem Kamerabildmaterial, Sensordaten und Produktionsmetriken Fehler in Produkten oder Verpackungen zu erkennen.

Sie werden eingesetzt, um die Leistung von IT-Systemen zu überwachen und einen reibungslosen Betrieb aufrechtzuerhalten, indem ungewöhnliche Muster in Serverprotokollen identifiziert und Fehler aus Mustern und früheren Erfahrungen rekonstruiert werden, um mögliche Probleme oder Ausfälle vorherzusagen.

Die Anomalieerkennung hilft bei der Vorhersage von Geräteausfällen oder Wartungsbedarf in Branchen wie Luftfahrt, Energiewirtschaft und Transportwesen. IoT-gestützte Sensoren werden eingesetzt, um Daten von Industrieanlagen zu sammeln, Abweichungen zu erkennen und künftige Ausfälle vorherzusagen.

Sie wird verwendet, um Energieverbrauchsmuster zu überwachen und Anomalien in der Nutzung zu erkennen. Dies kann zu einem effizienteren Energiemanagement und zur Früherkennung von Geräteausfällen beitragen.

Im E-Commerce wird Anomalieerkennung eingesetzt, um betrügerische Aktivitäten wie gefälschte Bewertungen, Kontoübernahmen oder abnormales Kaufverhalten zu ermitteln.

Unternehmen nutzen auch Modelle zur Erkennung von Anomalien, um ungewöhnliche Muster im Kundenverhalten zu erkennen. Dies hilft bei der Aufdeckung von Betrug, der Vorhersage von Kundenabwanderung und der Verbesserung von Marketingstrategien.

Weiterführende Produkte
IBM Databand

IBM Databand ist eine Beobachtbarkeitssoftware für Data-Pipelines und -Warehouses, die Metadaten automatisch erfasst, um historische Baselines zu erstellen, Unregelmäßigkeiten zu erkennen und Warnungen zu sichten, um Probleme mit der Datenqualität zu beheben.

Databand erkunden

IBM DataStage

IBM DataStage unterstützt ETL- und ELT-Muster und ermöglicht eine flexible und nahezu Echtzeit-Datenintegration sowohl On-Premise als auch in der Cloud.

Mehr zu DataStage

IBM Knowledge Catalog

IBM Knowledge Catalog ist ein intelligenter Datenkatalog für das Zeitalter der KI, mit dem Sie Daten, Wissensressourcen und ihre Beziehungen abrufen, kuratieren, kategorisieren und teilen können – wo auch immer sie sich befinden.

Mehr zum Knowledge Catalog
Ressourcen Verwendung der Anomalieerkennung von Databand zur Einhaltung von Datenlieferfristen

In diesem Artikel erfahren Sie, wie die Anomalieerkennung von Databand Datenteams dabei hilft, Probleme in der Datenpipeline schneller zu erkennen, damit sie die festgelegten Daten-SLAs besser einhalten können.

Überwachtes versus unüberwachtes Lernen

Lernen Sie die Grundlagen von zwei datenwissenschaftlichen Ansätzen kennen: überwacht und unüberwacht. Finden Sie heraus, welcher Ansatz für Ihre Situation der richtige ist.

Sicherstellung von Datenqualität, Wert und Zuverlässigkeit

Die Sicherstellung qualitativ hochwertiger Daten liegt in der Verantwortung der Datenspezialisten und des gesamten Unternehmens. In diesem Beitrag erfahren Sie, wie wichtig Datenqualität ist, wie Sie Ihre Daten prüfen und überwachen und wie Sie sich die Unterstützung der wichtigsten Stakeholder sichern können.

Machen Sie den nächsten Schritt

Implementieren Sie noch heute die proaktive Datenbeobachtbarkeit mit IBM Databand, damit Sie ein Problem mit dem Allgemeinzustand ihrer Daten erkennen können, bevor es Ihren Benutzern auffällt.

Databand erkunden