Unüberwachte Lerntechniken erfordern keine gekennzeichneten Daten und können komplexere Datensätze verarbeiten. Unüberwachtes Lernen wird durch Deep Learning und Neural Networks oder Auto-Encoder unterstützt, welche die Art und Weise nachahmen, wie biologische Neuronen sich gegenseitig Signale senden. Diese leistungsstarken Tools können anhand von Eingabedaten Muster erkennen und Annahmen darüber treffen, welche Daten als normal wahrgenommen werden.
Diese Techniken können einen großen Beitrag zur Entdeckung unbekannter Anomalien leisten und die Arbeit der manuellen Durchsicht großer Datensätze reduzieren. Data Scientists sollten jedoch die Ergebnisse überwachen, die durch unüberwachtes Lernen erfasst wurden. Da diese Techniken von den eingegebenen Daten ausgehen, können sie Anomalien falsch kennzeichnen.
Zu den Algorithmen des maschinellen Lernens für unstrukturierte Daten gehören:
K-Means: Bei diesem Algorithmus handelt es sich um eine Datenvisualisierungstechnik, die Datenpunkte durch eine mathematische Gleichung mit der Absicht verarbeitet, ähnliche Datenpunkte zu gruppieren. „Mittelwerte“ oder Durchschnittsdaten beziehen sich auf die Punkte in der Mitte des Clusters, mit denen alle anderen Daten verbunden sind. Mittels Datenanalyse können diese Cluster verwendet werden, um Muster zu finden und Rückschlüsse auf Daten zu ziehen, die sich als ungewöhnlich erweisen.
Isolation Forest: Diese Art von Algorithmus zur Erkennung von Anomalien verwendet nicht überwachte Daten. Im Gegensatz zu Techniken zur überwachten Anomalieerkennung, die von markierten normalen Datenpunkten ausgehen, versucht diese Technik im ersten Schritt, Anomalien zu isolieren. Ähnlich wie ein „Random Forest“ werden „Decision Trees“ erstellt, die die Datenpunkte kartografieren und nach dem Zufallsprinzip ein Gebiet zur Analyse auswählen. Dieser Vorgang wird wiederholt, und jeder Punkt erhält eine Anomaliebewertung zwischen 0 und 1, basierend auf seiner Position zu den anderen Punkten. Werte unter 0,5 gelten im Allgemeinen als normal, während Werte, die diesen Schwellenwert überschreiten, mit größerer Wahrscheinlichkeit anomal sind. Isolation Forest Modelle finden Sie in der kostenlosen Bibliothek für maschinelles Lernen für Python, scikit-learn.
One-Class Support Vector Machine (SVM): Diese Technik zur Erkennung von Anomalien verwendet Trainingsdaten, um Grenzen für das zu ziehen, was als normal angesehen wird. Geclusterte Punkte innerhalb der festgelegten Grenzen gelten als normal und diejenigen außerhalb werden als Anomalien gekennzeichnet.