Screening von Feldern und Datensätzen

In den vorgelagerten Phasen einer Analyse können mehrere Modellierungsknoten verwendet werden, um Felder und Datensätze zu finden, die voraussichtlich bei der Modellierung relevant sind. Sie können den Merkmalauswahlknoten verwenden, um Felder per Screening zu untersuchen und nach Wichtigkeit zu ordnen, und den Anomalieerkennungsknoten, um ungewöhnliche Datensätze zu finden, die nicht den bekannten Mustern "normaler" Daten entsprechen.

Der Merkmalauswahlknoten sichtet die Eingabefelder, um auf der Grundlage einer Reihe von Kriterien (z. B. dem Prozentsatz der fehlenden Werte) zu entscheiden, ob diese entfernt werden sollen. Anschließend erstellt er eine Wichtigkeitsrangfolge der verbleibenden Eingaben in Bezug auf ein angegebenes Ziel. Beispiel: Angenommen, Sie haben ein Dataset mit Hunderten potenzieller Eingaben. Welche davon sind voraussichtlich für die Modellierung von medizinischen Behandlungsergebnissen von Bedeutung?

Der Knoten "Anomalieerkennung" ermittelt ungewöhnliche Fälle bzw. "Ausreißer", die nicht den Mustern von "normalen" Daten entsprechen. Mit diesem Knoten können Ausreißer ermittelt werden, selbst wenn sie keinem bereits bekannten Muster entsprechen und selbst wenn Sie nicht genau wissen, wonach Sie suchen.

Beachten Sie, dass bei der Anomalieerkennung ungewöhnliche Datensätze oder Fälle mithilfe einer Clusteranalyse ermittelt werden, die auf der im Modell ausgewählten Menge an Feldern beruht - ohne Berücksichtigung eines speziellen Zielfelds (abhängigen Felds) und unabhängig davon, ob diese Felder für das Muster relevant sind, das Sie vorherzusagen versuchen. Aus diesem Grund sollten Sie die Anomalieerkennung in Kombination mit der Merkmalauswahl oder einem anderen Verfahren für Screening und Rangordnung von Feldern verwenden. Beispielsweise können Sie mithilfe der Merkmalauswahl die wichtigsten Felder in Bezug auf ein bestimmtes Ziel ermitteln und anschließend mit der Anomalieerkennung die Datensätze finden, die in Bezug auf diese Felder besonders ungewöhnlich sind. (Eine alternative Vorgehensweise besteht darin, ein Entscheidungsbaummodell zu erstellen und anschließend alle falsch klassifizierten Datensätze als potenzielle Anomalien zu untersuchen. Diese Methode lässt sich jedoch nicht so leicht reproduzieren bzw. in größerem Maßstab automatisieren.)