Da Unternehmen immer größere Datensätze erfassen, die potenzielle Erkenntnisse zur Geschäftsaktivität bieten, ist das Erkennen von anomalen Daten oder Sonderfällen in diesen Datensätzen von entscheidender Bedeutung, um Ineffizienzen, seltene Ereignisse, die Ursache von Problemen oder Möglichkeiten zur betrieblichen Verbesserung zu erkennen. Aber was ist eine Anomalie und warum ist es wichtig, sie zu erkennen?
Die verschiedenen Arten von Anomalien variieren je nach Unternehmen und Geschäftsfunktion. Die Erkennung von Anomalien beschreibt einfach, „normale“ Muster und Metriken, basierend auf Geschäftsfunktionen und Zielen, zu definieren und Datenpunkte zu identifizieren, die außerhalb des normalen Verhaltens eines Betriebs liegen. Zum Beispiel kann ein überdurchschnittlicher Traffic auf einer Website oder Anwendung für einen bestimmten Zeitraum auf eine Cybersicherheitsbedrohung hinweisen. In diesem Fall benötigen Sie ein System, das automatisch Warnmeldungen zur Betrugserkennung auslöst. Es könnte auch nur ein Zeichen dafür sein, dass eine bestimmte Marketinginitiative funktioniert. Anomalien sind nicht von Natur aus schlecht, aber sich ihrer bewusst zu sein und über Daten zu verfügen, um sie in einen Kontext zu setzen, ist ein wesentlicher Bestandteil des Verständnisses und des Schutzes Ihres Unternehmens.
Die Herausforderung für IT-Abteilungen, die im Bereich Data Science arbeiten, besteht darin, die Erweiterung und sich ständig ändernde Datenpunkte sinnvoll zu gestalten. In diesem Blog erfahren Sie, wie maschinelle Lerntechniken, die auf künstlicher Intelligenz basieren, eingesetzt werden, um anomales Verhalten mithilfe von drei verschiedenen Methoden zur Erkennung von Anomalien zu ermitteln: überwachte Anomalieerkennung, unüberwachte Anomalieerkennung und halbüberwachte Anomalieerkennung.
Überwachte Lerntechniken verwenden reale Eingabe- und Ausgabedaten, um Anomalien zu erkennen. Bei diesen Systemen zur Erkennung von Anomalien muss ein Datenanalyst Datenpunkte entweder als normal oder abnormal kennzeichnen, um sie als Trainingsdaten verwenden zu können. Ein maschinelles Lernmodell, das mit gekennzeichneten Daten trainiert wurde, ist in der Lage, Sonderfälle anhand der angegebenen Beispiele zu erkennen. Diese Art des maschinellen Lernens ist bei der Erkennung bekannter Sonderfälle nützlich, aber nicht in der Lage, unbekannte Anomalien zu entdecken oder zukünftige Probleme vorherzusagen.
Zu den gängigen Algorithmen des maschinellen Lernens für überwachtes Lernen gehören:
Unüberwachte Lerntechniken erfordern keine gekennzeichneten Daten und können komplexere Datensätze verarbeiten. Unüberwachtes Lernen wird durch Deep Learning und Neural Networks oder Auto-Encoder unterstützt, welche die Art und Weise nachahmen, wie biologische Neuronen sich gegenseitig Signale senden. Diese leistungsstarken Tools können anhand von Eingabedaten Muster erkennen und Annahmen darüber treffen, welche Daten als normal wahrgenommen werden.
Diese Techniken können einen großen Beitrag zur Entdeckung unbekannter Anomalien leisten und die Arbeit der manuellen Durchsicht großer Datensätze reduzieren. Data Scientists sollten jedoch die Ergebnisse überwachen, die durch unüberwachtes Lernen erfasst wurden. Da diese Techniken von den eingegebenen Daten ausgehen, können sie Anomalien falsch kennzeichnen.
Zu den Algorithmen des maschinellen Lernens für unstrukturierte Daten gehören:
K-Means: Bei diesem Algorithmus handelt es sich um eine Datenvisualisierungstechnik, die Datenpunkte durch eine mathematische Gleichung mit der Absicht verarbeitet, ähnliche Datenpunkte zu gruppieren. „Mittelwerte“ oder Durchschnittsdaten beziehen sich auf die Punkte in der Mitte des Clusters, mit denen alle anderen Daten verbunden sind. Mittels Datenanalyse können diese Cluster verwendet werden, um Muster zu finden und Rückschlüsse auf Daten zu ziehen, die sich als ungewöhnlich erweisen.
Isolation Forest: Diese Art von Algorithmus zur Erkennung von Anomalien verwendet nicht überwachte Daten. Im Gegensatz zu Techniken zur überwachten Anomalieerkennung, die von markierten normalen Datenpunkten ausgehen, versucht diese Technik im ersten Schritt, Anomalien zu isolieren. Ähnlich wie ein „Random Forest“ werden „Decision Trees“ erstellt, die die Datenpunkte kartografieren und nach dem Zufallsprinzip ein Gebiet zur Analyse auswählen. Dieser Vorgang wird wiederholt, und jeder Punkt erhält eine Anomaliebewertung zwischen 0 und 1, basierend auf seiner Position zu den anderen Punkten. Werte unter 0,5 gelten im Allgemeinen als normal, während Werte, die diesen Schwellenwert überschreiten, mit größerer Wahrscheinlichkeit anomal sind. Isolation Forest Modelle finden Sie in der kostenlosen maschinellen Lernbibliothek für Python, scikit-learn (Link befindet sich außerhalb von ibm.com).
One-Class Support Vector Machine (SVM): Diese Technik zur Erkennung von Anomalien verwendet Trainingsdaten, um Grenzen für das zu ziehen, was als normal angesehen wird. Geclusterte Punkte innerhalb der festgelegten Grenzen gelten als normal und diejenigen außerhalb werden als Anomalien gekennzeichnet.
Halbüberwachte Methoden zur Anomalieerkennung kombinieren die Vorteile der beiden vorherigen Methoden. Ingenieure können unüberwachte Lernmethoden anwenden, um das Funktionslernen zu automatisieren und mit unstrukturierten Daten zu arbeiten. Durch die Kombination mit menschlicher Aufsicht haben sie jedoch die Möglichkeit, zu überwachen und zu kontrollieren, welche Art von Mustern das Modell lernt. Dies trägt normalerweise dazu bei, die Vorhersagen des Modells genauer zu machen.
Lineare Regression: Dieses prädiktive Tool für maschinelles Lernen verwendet sowohl abhängige als auch unabhängige Variablen. Die unabhängige Variable wird als Basis verwendet, um den Wert der abhängigen Variable durch eine Reihe statistischer Gleichungen zu bestimmen. Diese Gleichungen verwenden gelabelte und nicht gelabelte Daten, um zukünftige Ergebnisse vorherzusagen, wenn nur ein Teil der Informationen bekannt ist.
Die Erkennung von Anomalien ist ein wichtiges Instrument zur Aufrechterhaltung von Geschäftsfunktionen in verschiedenen Branchen. Die Verwendung von überwachten, nicht überwachten und halbüberwachten Lernalgorithmen hängt von der Art der erfassten Daten und der zu lösenden betrieblichen Herausforderung ab. Beispiele für die Erkennung von Anomalien sind:
Die Verwendung von gelabelten Daten aus den Gesamtverkäufen eines Vorjahres kann helfen, zukünftige Verkaufsziele vorherzusagen. Es kann auch dabei helfen, Benchmarks für bestimmte Vertriebsmitarbeiter zu setzen, die auf ihrer bisherigen Leistung und den allgemeinen Unternehmensbedürfnissen basieren. Da alle Verkaufsdaten bekannt sind, können Muster analysiert werden, um Erkenntnisse zu Produkten, Marketing und Saisonalität zu erhalten.
Durch die Verwendung historischer Daten können überwachte Lernalgorithmen bei der Vorhersage von Wettermustern helfen. Durch die Analyse aktueller Daten zu Luftdruck, Temperatur und Windgeschwindigkeiten können Meteorologen genauere Vorhersagen erstellen, die sich ändernde Bedingungen berücksichtigen.
Diese Art von Systemen gibt es in Form von Software oder Hardware, die den Netzwerkverkehr auf Anzeichen von Sicherheitsverletzungen oder bösartigen Aktivitäten überwachen. Algorithmen für maschinelles Lernen können so trainiert werden, dass sie potenzielle Angriffe auf ein Netzwerk in Echtzeit erkennen und so Benutzerdaten und Systemfunktionen schützen.
Diese Algorithmen können eine Visualisierung der normalen Leistung auf der Grundlage von Zeitreihendaten erstellen, die Datenpunkte in festgelegten Intervallen über einen längeren Zeitraum analysieren. Spitzen im Netzverkehr oder unerwartete Muster können als potenzielle Sicherheitsverletzungen gekennzeichnet und untersucht werden.
Die Sicherstellung, dass die Maschinen ordnungsgemäß funktionieren, ist für die Herstellung von Produkten, die Optimierung der Qualitätssicherung und die Aufrechterhaltung der Lieferketten entscheidend . Algorithmen für unüberwachtes Lernen können für die vorausschauende Wartung verwendet werden, indem sie ungelabelte Daten von an Geräten angebrachten Sensoren aufnehmen und Vorhersagen über mögliche Ausfälle oder Fehlfunktionen treffen. Auf diese Weise können Unternehmen Reparaturen durchführen, bevor es zu einem kritischen Ausfall kommt, wodurch die Ausfallzeiten der Maschinen reduziert werden.
Mithilfe von Algorithmen des maschinellen Lernens können Mediziner Bilder beschriften, die bekannte Krankheiten oder Störungen enthalten. Da die Bilder jedoch von Person zu Person unterschiedlich sind, ist es unmöglich, alle etwaigen Anlässe zur Sorge zu benennen. Nach dem Training können diese Algorithmen Patienteninformationen verarbeiten, in nicht beschrifteten Bildern Rückschlüsse ziehen und mögliche Anlässe zur Sorge angeben.
Prognostizierende Algorithmen funktionieren mit halbüberwachtem Lernen, das sowohl gelabelte als auch nicht gelabelte Daten zur Betrugserkennung benötigt. Da die Kreditkartenaktivitäten eines Benutzers gekennzeichnet sind, lassen sich damit ungewöhnliche Ausgabenmuster erkennen.
Lösungen zur Betrugserkennung verlassen sich jedoch nicht nur auf Transaktionen, die zuvor als betrügerisch gekennzeichnet wurden, sie können auch Annahmen anhand des Benutzerverhaltens treffen, einschließlich des aktuellen Standorts, des Anmeldegeräts und anderer Faktoren, für die nicht gelabelte Daten erforderlich sind.
Die Anomalieerkennung wird durch Lösungen und Tools unterstützt, die eine bessere Beobachtbarkeit der Leistungsdaten ermöglichen. Diese Tools ermöglichen es, Anomalien schnell zu identifizieren und Probleme zu verhindern und zu beheben. IBM Instana Observability nutzt künstliche Intelligenz und maschinelles Lernen, um allen Teammitgliedern ein detailliertes und kontextualisiertes Bild der Leistungsdaten zu vermitteln, um Fehler genauer vorherzusagen und proaktiv zu beheben.
IBM watsonx.ai ist ein leistungsstarkes generatives KI-Tool, das große Datensätze analysieren kann, um aussagekräftige Erkenntnisse zu gewinnen. Durch schnelle und umfassende Analysen erkennt IBM watson.ai Muster und Trends, anhand derer aktuelle Anomalien ermittelt und Vorhersagen über zukünftige Sonderfälle getroffen werden. Watson.ai kann branchenübergreifend für eine Vielzahl von Geschäftsanforderungen eingesetzt werden.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io