Startseite
Themen
Was ist Anomaly Detection?
Veröffentlicht: 12. Dezember 2023
Mitwirkende: Joel Barnard, Cole Stryker
Bei der Anomaly Detection oder Erkennung von Sonderfällen handelt es sich um die Identifizierung von Beobachtungen, Ereignissen oder Datenpunkten, die von der Norm oder den Erwartungen abweichen und somit inkonsistent mit dem Rest des Datensatzes sind.
Anomaly Detection hat eine lange Geschichte im Bereich der Statistik, wo Analysten und Wissenschaftler Diagramme auf anormale Elemente hin untersuchten. Heute nutzt Anomaly Detection künstliche Intelligenz (KI) und maschinelles Lernen (ML), um unerwartete Änderungen im normalen Verhalten eines Datensatzes automatisch zu erkennen.
Anomale Daten können auf kritische Vorfälle hinweisen, die im Verborgenen stattfinden, wie z. B. ein Ausfall der Infrastruktur, eine wesentliche Änderung durch eine vorgelagerte Quelle oder eine sicherheitsrelevante Bedrohung. Anomalien können auch Möglichkeiten zur Optimierung der Architektur oder zur Verbesserung der Marketingstrategien aufzeigen.
Anomaly Detection hat eine Reihe von Anwendungsfällen in verschiedenen Branchen. Sie wird beispielsweise im Finanzwesen zur Aufdeckung von Betrug, in der Fertigung zur Erkennung von Defekten oder Fehlfunktionen von Geräten, im Bereich der Cybersicherheit zur Erkennung ungewöhnlicher Netzwerkaktivitäten und im Gesundheitswesen zur Erkennung anormaler Patientenzustände eingesetzt.
Die Erkennung von Sonderfällen kann eine Herausforderung sein, da Anomalien oft selten sind und die Merkmale des normalen Verhaltens komplex und dynamisch sein können. Aus geschäftlicher Sicht ist es von entscheidender Bedeutung, tatsächliche Anomalien zu erkennen und nicht etwa falsch positive Ergebnisse oder Datenrauschen.
Erfahren Sie, wie Sie die richtigen Datenbanken für Anwendungen, Analysen und generative KI nutzen.
Datenanomalien können im Bereich der Data Science erhebliche Auswirkungen haben und zu falschen oder irreführenden Schlussfolgerungen führen. So kann beispielsweise ein einzelner Sonderfall den Mittelwert eines Datensatzes erheblich verzerren, sodass dieser eine ungenaue Darstellung der Daten darstellt. Darüber hinaus können sich Datenanomalien auf die Leistung von Algorithmen für maschinelles Lernen auswirken, da sie dazu führen können, dass sich das Modell dem Rauschen anpasst und nicht dem zugrunde liegenden Muster in den Daten.
Die Erkennung und Behandlung von Datenanomalien ist aus mehreren Gründen von entscheidender Bedeutung:
Verbesserte Datenqualität: Die Erkennung und Behandlung von Datenanomalien kann die Datenqualität erheblich verbessern, was für eine genaue und zuverlässige Datenanalyse unerlässlich ist. Durch die Beseitigung von Datenanomalien können Analysten das Rauschen und die Fehler in den Datensätzen reduzieren und so sicherstellen, dass die Daten repräsentativer für die wahren zugrunde liegenden Muster sind.
Verbesserte Entscheidungsfindung: Die datengestützte Entscheidungsfindung beruht auf einer genauen und zuverlässigen Datenanalyse, die als Grundlage für Entscheidungen dient. Durch die Identifizierung und Behandlung von Datenanomalien können Analysten sicherstellen, dass ihre Ergebnisse vertrauenswürdiger sind, was zu besser informierten Entscheidungen und besseren Ergebnissen führt.
Optimierte Leistung beim maschinellen Lernen: Datenanomalien können die Leistung von Algorithmen für maschinelles Lernen erheblich beeinträchtigen, da sie dazu führen können, dass sich das Modell an das Rauschen und nicht an das zugrunde liegende Muster in den Daten anpasst. Durch die Identifizierung und Behandlung von Datenanomalien können Analysten die Leistung ihrer maschinellen Lernmodelle optimieren und sicherstellen, dass diese genaue und zuverlässige Vorhersagen liefern.
Ein System zur Erkennung von Anomalien kann zwei allgemeine Arten von Anomalien aufdecken: unbeabsichtigte und beabsichtigte.
Unbeabsichtigte Anomalien sind Datenpunkte, die aufgrund von Fehlern oder Rauschen im Datenerfassungsprozess von der Norm abweichen. Diese Fehler sind entweder systematischer oder zufälliger Natur und können z. B. durch fehlerhafte Sensoren oder menschliches Versagen bei der Dateneingabe verursacht werden. Unbeabsichtigte Anomalien können den Datensatz verzerren, was es schwierig macht, genaue Erkenntnisse abzuleiten.
Beabsichtigte Anomalien sind Datenpunkte, die aufgrund bestimmter Aktionen oder Ereignisse von der Norm abweichen. Diese Anomalien können wertvolle Erkenntnisse über den Datensatz liefern, da sie einzigartige Vorkommnisse oder Trends hervorheben können. Eine plötzliche Verkaufsspitze während der Ferienzeit könnte beispielsweise als absichtliche Anomalie betrachtet werden, da sie vom typischen Verkaufsmuster abweicht, aber aufgrund eines realen Ereignisses erwartet wird.
Bei Geschäftsdaten gibt es im Wesentlichen drei Arten von Zeitreihenanomalien: Punktanomalien, kontextbezogene Anomalien und kollektive Anomalien.
Punktuelle Anomalien, auch als globale Sonderfälle bezeichnet, sind einzelne Datenpunkte, die weit außerhalb des restlichen Datensatzes liegen. Sie können entweder beabsichtigt oder unbeabsichtigt sein und können aus Fehlern, Rauschen oder einmaligen Ereignissen resultieren. Ein Beispiel für eine Punktanomalie ist eine Abhebung von einem Bankkonto, die deutlich höher ist als alle vorherigen Abhebungen des Nutzers.
Kontextbezogene Anomalien sind Datenpunkte, die innerhalb eines bestimmten Kontexts von der Norm abweichen. Diese Anomalien sind nicht unbedingt Sonderfälle, wenn sie isoliert betrachtet werden, sondern werden zu Anomalien, wenn sie in ihrem spezifischen Kontext betrachtet werden.
Nehmen Sie zum Beispiel den Energieverbrauch zu Hause. Wenn es zur Mittagszeit, wenn normalerweise keine Familienmitglieder zu Hause sind, einen plötzlichen Anstieg des Energieverbrauchs gibt, wäre die Anomalie kontextbezogen. Dieser Datenpunkt ist vielleicht kein Sonderfall, wenn man ihn mit dem Energieverbrauch am Morgen oder Abend vergleicht (wenn die Menschen normalerweise zu Hause sind), aber er ist ungewöhnlich im Zusammenhang mit der Tageszeit, zu der er auftritt.
Bei kollektiven Anomalien handelt es sich um eine Reihe von Dateninstanzen, die zusammen von der Norm abweichen, auch wenn einzelne Instanzen normal erscheinen können. Ein Beispiel für diese Art von Anomalie wäre ein Datensatz zum Netzwerkverkehr, der einen plötzlichen Anstieg des Datenverkehrs von mehreren IP-Adressen zur gleichen Zeit zeigt.
Die Verwendung eines Systems zur Erkennung von Datenanomalien ist ein entscheidender Aspekt der Datenanalyse, um sicherzustellen, dass die Ergebnisse genau und zuverlässig sind. Beim Aufbau eines Systems zur Erkennung von Anomalien können verschiedene Methoden verwendet werden.
Visualisierung ist ein leistungsfähiges Werkzeug zur Erkennung von Datenanomalien, da Data Scientists damit schnell mögliche Sonderfälle und Muster in den Daten erkennen können Durch die Darstellung der Daten in Diagrammen und Grafiken können Analysten den Datensatz visuell auf ungewöhnliche Datenpunkte oder Trends untersuchen.
Statistische Tests können von Data Scientists verwendet werden, um Datenanomalien zu erkennen, indem die beobachteten Daten mit der erwarteten Verteilung oder dem erwarteten Muster verglichen werden.
Der Grubbs-Test kann zum Beispiel verwendet werden, um Sonderfälle in einem Datensatz zu identifizieren, indem jeder Datenpunkt mit dem Mittelwert und der Standardabweichung der Daten verglichen wird. In ähnlicher Weise kann der Kolmogorov-Smirnov-Test verwendet werden, um festzustellen, ob ein Datensatz einer bestimmten Verteilung folgt, z. B. einer Normalverteilung.
Algorithmen für maschinellen Lernens können zur Erkennung von Datenanomalien eingesetzt werden, indem sie das zugrundeliegende Muster in den Daten lernen und dann Abweichungen von diesem Muster identifizieren. Einige der gängigsten ML-Algorithmen zur Erkennung von Anomalien sind:
Ein Algorithmus zur Erkennung von Anomalien kann lernen, Muster zu erkennen und auffällige Daten mithilfe verschiedener Trainingsmethoden für maschinelles Lernen zu entdecken. Die Menge der gelabelten Daten im Trainingsdatensatz eines Datenteams bestimmt, welche der wichtigsten Techniken zur Erkennung von Anomalien verwendet werden – unbeaufsichtigt, überwacht oder halbüberwacht.
Bei unüberwachten Anomalie-Erkennungstechniken trainieren Dateningenieure ein Modell, indem sie ihm unbeschriftete Datensätze zur Verfügung stellen, anhand derer es selbst Muster oder Anomalien entdeckt. Obwohl diese Techniken aufgrund ihrer breiteren und relevanteren Anwendung bei weitem am häufigsten verwendet werden, erfordern sie massive Datensätze und Rechenleistung. Unsupervised Machine Learning findet man am häufigsten in Deep-Learning-Szenarien, die auf künstlichen neuronalen Netzwerken basieren.
Supervised Anomaly Detection Techniken verwenden einen Algorithmus, der auf einem markierten Datensatz trainiert wird, der sowohl normale als auch anomale Instanzen enthält. Da im Allgemeinen keine gelabelten Trainingsdaten zur Verfügung stehen und die Kategorien von Natur aus unausgewogen sind, werden diese Techniken zur Erkennung von Anomalien nur selten eingesetzt.
Semi-supervised Techniken maximieren die positiven Eigenschaften sowohl der unsupervised als auch der supervised Anomaly Detection. Indem man einem Algorithmus einen Teil der markierten Daten zur Verfügung stellt, kann er teilweise trainiert werden. Dateningenieure verwenden dann den teilweise trainierten Algorithmus, um einen größeren Datensatz selbstständig zu beschriften. Dies wird als „Pseudo-Labeling“ bezeichnet. Wenn sie sich als zuverlässig erweisen, werden diese neu beschrifteten Datenpunkte mit dem Originaldatensatz kombiniert, um eine Feinabstimmung des Algorithmus vorzunehmen.
Die richtige Kombination aus supervised und unsupervised Machine Learning ist für die Automatisierung des maschinellen Lernens entscheidend. Im Idealfall würde die überwiegende Mehrheit der Datenklassifizierungen ohne menschliche Interaktion auf unüberwachte Weise erfolgen. Dennoch sollten Dateningenieure in der Lage sein, Algorithmen mit Trainingsdaten zu füttern, die dabei helfen, Basisdaten für den Normalbetrieb zu erstellen. Ein semi-supervised Ansatz ermöglicht eine skalierende Anomaly Detection mit der Flexibilität, manuelle Regeln für bestimmte Anomalien aufzustellen.
Anomaly Detection Modelle werden in der Banken-, Versicherungs- und Aktienhandelsbranche häufig eingesetzt, um betrügerische Aktivitäten in Echtzeit zu erkennen, z. B. nicht autorisierte Transaktionen, Geldwäsche, Kreditkartenbetrug, gefälschte Steuererklärungen und anormale Handelsmuster.
Intrusion Detection Systeme (IDS) und andere Cybersicherheitstechnologien nutzen die Erkennung von Anomalien, um ungewöhnliche oder verdächtige Benutzeraktivitäten oder Netzwerkverkehrsmuster zu identifizieren, die auf potenzielle Sicherheitsbedrohungen oder Angriffe wie Malware-Infektionen oder unbefugten Zugriff hinweisen.
Algorithmen zur Erkennung von Anomalien werden oft zusammen mit der Computer Vision eingesetzt, um Fehler in Produkten oder Verpackungen durch die Analyse von hochauflösendem Kamerabildmaterial, Sensordaten und Produktionsmetriken zu erkennen.
Die Anomalieerkennung wird eingesetzt, um die Leistung von IT-Systemen zu überwachen und einen reibungslosen Betrieb aufrechtzuerhalten, indem ungewöhnliche Muster in Serverprotokollen identifiziert und Fehler aus Mustern und früheren Erfahrungen rekonstruiert werden, um mögliche Probleme oder Ausfälle vorherzusagen.
Durch die Erkennung von Unregelmäßigkeiten in Sensordaten aus dem Internet der Dinge (IoT) und Geräten der Betriebstechnik (OT) können mithilfe der Anomalieerkennung Geräteausfälle oder Wartungsbedarf in Branchen wie der Luftfahrt, der Energieversorgung und dem Transportwesen vorhergesagt werden. Wenn sie zur Überwachung von Energieverbrauchsmustern und zur Erkennung von Anomalien bei der Nutzung eingesetzt wird, kann die Anomalieerkennung zu einem effizienteren Energiemanagement und zur frühzeitigen Erkennung von Geräteausfällen führen.
Händler nutzen Anomaly Detection Modelle, um ungewöhnliche Muster im Kundenverhalten zu erkennen. Dies hilft bei der Aufdeckung von Betrug, der Vorhersage von Kundenabwanderung und der Verbesserung von Marketingstrategien. Im E-Commerce wird die Anomalieerkennung eingesetzt, um gefälschte Bewertungen, Kontoübernahmen, ungewöhnliches Kaufverhalten und andere Anzeichen von Betrug oder Cyberkriminalität zu ermitteln.
IBM Databand ist eine Beobachtbarkeitssoftware für Data-Pipelines und -Warehouses, die Metadaten automatisch erfasst, um historische Baselines zu erstellen, Unregelmäßigkeiten zu erkennen und Warnungen zu sichten, um Probleme mit der Datenqualität zu beheben.
IBM DataStage unterstützt ETL- und ELT-Muster und ermöglicht eine flexible und nahezu Echtzeit-Datenintegration sowohl On-Premise als auch in der Cloud.
IBM Knowledge Catalog ist ein intelligenter Datenkatalog für das Zeitalter der KI, mit dem Sie Daten, Wissensressourcen und ihre Beziehungen abrufen, kuratieren, kategorisieren und teilen können – wo auch immer sie sich befinden.
In diesem Artikel erfahren Sie, wie die Anomalieerkennung von Databand Datenteams dabei hilft, Probleme in der Datenpipeline schneller zu erkennen, damit sie die festgelegten Daten-SLAs besser einhalten können.
Lernen Sie die Grundlagen von zwei datenwissenschaftlichen Ansätzen kennen: überwacht und unüberwacht. Finden Sie heraus, welcher Ansatz für Ihre Situation der richtige ist.
Die Sicherstellung qualitativ hochwertiger Daten liegt in der Verantwortung der Datenspezialisten und des gesamten Unternehmens. In diesem Beitrag erfahren Sie, wie wichtig Datenqualität ist, wie Sie Ihre Daten prüfen und überwachen und wie Sie sich die Unterstützung der wichtigsten Stakeholder sichern können.