Verteilungsanpassung

Eine statistische Verteilung ist die theoretische Häufigkeit für das Vorkommen von Werten, die eine Variable annehmen kann. Im Simulationsanpassungsknoten wird ein Set theoretischer statistischer Verteilungen mit jedem Datenfeld verglichen. Die Verteilungen, die für die Anpassung zur Verfügung stehen, werden im Thema Verteilungen beschrieben. Die Parameter der theoretischen Verteilung werden so angepasst, dass sich entsprechend einer Messung der Anpassungsgüte (Anderson-Darling-Kriterium oder Kolmogorov-Smirnov-Kriterium) die beste Anpassung an die Daten ergibt. Die Ergebnisse der Verteilungsanpassung durch den Simulationsanpassungsknoten zeigen, welche Verteilungen angepasst wurden, die besten Schätzungen der Parameter für die einzelnen Verteilungen und wie gut jede Verteilung an die Daten angepasst ist. Während der Verteilungsanpassung werden auch Korrelationen zwischen Feldern mit numerischen Speichertypen und Kontingenzen zwischen Feldern mit einer kategorialen Verteilung berechnet. Die Ergebnisse der Verteilungsanpassung werden für die Erstellung eines Simulationsgenerierungsknotens verwendet.

Bevor Verteilungen an Ihre Daten angepasst werden, werden die ersten 1000 Datensätze auf fehlende Werte überprüft. Wenn zu viele Werte fehlen, ist keine Verteilungsanpassung möglich. Ist dies der Fall, müssen Sie entscheiden, ob eine der folgenden Optionen angemessen ist:
  • Verwenden Sie einen vorgeordneten Knoten, um Datensätze mit fehlenden Werten zu entfernen.
  • Verwenden Sie einen vorgeordneten Knoten, um Werte für fehlende Werte zu imputieren.
Die Verteilungsanpassung schließt benutzerdefiniert fehlende Werte nicht aus. Wenn Ihre Daten 'benutzerdefiniert fehlende' Werte aufweisen und diese Werte aus der Verteilungsanpassung ausgeschlossen werden sollen, sollten Sie diese Werte als 'systemdefiniert fehlend' festlegen.

Die Rolle eines Felds wird nicht berücksichtigt, wenn die Verteilungen angepasst werden. Felder mit der Rolle Ziel werden beispielsweise genauso wie Felder mit den Rollen Eingabe, Keine, Beide, Partition, Aufteilen, Häufigkeit und ID behandelt.

Felder werden während der Verteilungsanpassung entsprechend ihrem Speichertyp und Messniveau unterschiedlich behandelt. Die Behandlung von Feldern während der Verteilungsanpassung wird in der folgenden Tabelle beschrieben.

Tabelle 1. Verteilungsanpassung entsprechend Speichertyp und Messniveau von Feldern
Speichertyp     Messniveau      
  Stetig Kategorial Flag Nominal Ordinal Ohne Typ
Zeichenfolge Unmöglich   Kategoriale Verteilungen, Dice-Verteilungen und feste Verteilungen werden angepasst.      
Ganzzahl            
Reelle Zahl            
Zeit Alle Verteilungen werden angepasst. Korrelationen und Kontingenzen werden berechnet.   Die kategoriale Verteilung wird angepasst. Korrelationen werden nicht berechnet.   Binomial-, negative Binomial- und Poisson-Verteilungen werden angepasst und Korrelationen werden berechnet. Feld wird ignoriert und nicht an den Simulationsgenerierungsknoten übergeben.
Datum            
Zeitmarke            
Unbekannt     Entsprechender Speichertyp wird aus den Daten bestimmt.      

Felder mit dem Messniveau "ordinal" werden wie stetige Felder behandelt und werden in die Korrelationstabelle im Simulationsgenerierungsknoten eingefügt. Wenn eine andere Verteilung als eine Binomial-, negative Binomial- oder Poisson-Verteilung an ein ordinales Feld angepasst werden soll, müssen Sie das Messniveau des Felds in "stetig" ändern. Wenn Sie zuvor für jeden Wert eines ordinalen Felds eine Beschriftung definiert haben und dann das Messniveau in "stetig" ändern, gehen die Beschriftungen verloren.

Felder mit Einzelwerten werden während der Verteilungsanpassung nicht anders als Felder mit mehreren Werten behandelt. Felder mit dem Speichertyp "Zeit", "Datum" oder "Zeitmarke" werden als numerische Felder behandelt.

Anpassen von Verteilungen an Aufteilungsfelder

Wenn Ihre Daten ein Aufteilungsfeld enthalten und die Verteilungsanpassung für jede Aufteilung gesondert ausgeführt werden soll, müssen Sie die Daten mithilfe eines vorgeordneten Umstrukturierungsknotens transformieren. Generieren Sie mithilfe des Umstrukturierungsknotens für jeden Wert des Aufteilungsfelds ein neues Feld. Diese umstrukturierten Daten können dann für die Verteilungsanpassung im Simulationsanpassungsknoten verwendet werden.