Diagramm, Abschnitt
Je nach Diagramm, das Sie anzeigen wollen, enthält der Abschnitt 'Diagramm' das Diagramm 'Zuwachs', das Diagramm 'Relative Abweichung' oder das Diagramm 'Relative kumulative Abweichung'.
Außerdem enthält er die Tabelle Kurvenkenndaten.
Im Abschnitt 'Diagramm' der Sicht 'Zuwachs/Relative Abweichung' sehen Sie die Qualität eines Modells im Vergleich zur Nichtverwendung eines Modells und zur Qualität des optimalen Modells.
Wenn Sie kein Modell verwenden, werden die Datensätze nach Zufall ausgewählt. Nach Zufall ausgewählte Datensätze werden durch die Zufallskurve angezeigt.
- Zufallskurve
- Die Zufallskurve verläuft linear. Die zufällige Sortierung wird vorausgesetzt. Daher wird erwartet, dass der Prozentsatz der Sätze, die tatsächlich den ausgewählten Zielfeldwert aufweisen, bei allen Datenuntermengen identisch ist.
- Optimale Kurve
- Die optimale Kurve verläuft schrittweise linear. Es wird angenommen, dass die Datensätze perfekt sortiert sind, sodass alle Sätze, die den ausgewählten Zielfeldwert tatsächlich enthalten, vor den Sätzen auftreten, die den ausgewählten Zielfeldwert nicht enthalten.
Die optimale Kurve ist in einem Modell unter Umständen nicht verfügbar.
- Modellkurve
- In der Modellkurve sind die Datensätze nach den Werten der Konfidenz sortiert, die das Modell zur Verfügung stellt.
Das Vergleichen verschiedener Graphen in einem Diagramm ist eine sehr gute Methode, die Qualität verschiedener Modelle auf den ersten Blick zu erkennen. Das gilt insbesondere, wenn Graphen auf der Grundlage von verschiedenen Datensätzen berechnet werden, ein Datensatz für die Erstellung des Modells, der andere Datensatz zum Testen des Modells.
Sie können zu einem anderen Diagramm wechseln, indem Sie beispielsweise in der Menüleiste des Visualizers auf Ansicht = > Lift klicken.
- Kurvenlayout
- Diese Spalte zeigt die unterschiedliche Darstellung der Kurven in dem Diagramm.
- Modellname
- Diese Spalte zeigt den Namen des aktuellen Modells an.
Wenn Sie dem Diagramm Kurven eines anderen Modells hinzugefügt haben, werden die Namen dieser Modelle und ihre entsprechenden Attribute der Tabelle hinzugefügt.
- Zielfeld
- Diese Spalte zeigt den Namen des Zielfelds.
- Rangordnungsqualität
- Diese Spalte zeigt die Gesamtrangordnungsqualität des Modells. Es ist die Beziehung zwischen dem Bereich zwischen der Modellkurve und der Zufallskurve und dem Bereich zwischen der optimalen Kurve und der Zufallskurve.Der Wert für die Rangordnungsqualität ist eine reelle Zahl. Sie können das Rangordnungsverhalten verschiedener Modelle durch diese Zahl vergleichen.
- 1 wird einem optimalen Modell zugeordnet. In einem optimalen Modell sind die Sätze nach ihren tatsächlichen Werten sortiert. Positive Werte zeigen an, dass das Modell besser als ein Zufallsmodell ist.
- 0 wird für Modelle zurückgegeben, die nicht besser sind als eine Zufallsreihenfolge.
- Negative Werte zeigen an, dass die Reihenfolge schlechter als die Zufallsreihenfolge ist.
- -1 bedeutet, dass die Reihenfolge im umgekehrten Verhältnis zu den tatsächlichen Werten steht.
- Datenname
- Der Name der Daten, mit denen das Modell bewertet wird.
- Dataset
- Der Zweck, für den die Daten verwendet werden. Sie können Daten für folgende Zwecke verwenden:
- Training
- Die Daten werden als Beispiel verwendet, um den Fehler einer Vorhersagefunktion zu minimieren. Das Modell wird diesen Beispielfällen entsprechend optimal angepasst.
- Gültigkeitsprüfung
- Die Daten werden während der Trainingsphase verwendet, um Übertrainieren zu vermeiden. Diese Daten werden nicht für die Näherung verwendet. Diese Daten beeinflussen das Modell jedoch auf andere Weise, z. B. zum Prunen eines Entscheidungsbaums oder zur Begrenzung der Anzahl Iterationen.
Qualitätswerte der Gültigkeitsprüfungsdaten sind eine recht gute Richtlinie, weil sie die Modellerzeugung nur marginal beeinflussen.
- Testen
- Testdaten sind unabhängig. Sie spielen während der Trainingsphase keine Rolle. Mit diesen Daten wird die Qualität eines Modells bestimmt.
Anhand der Testdaten können Sie die Modellqualität am besten bestimmen, weil diese Daten dem Algorithmus während des Trainings nicht gezeigt werden.
- Sichtbar
- Diese Spalte enthält ein Kontrollkästchen. Durch Aus- bzw. Abwahl dieses Kontrollkästchens können Sie die Zufallskurve oder die optimale Kurve des aktuellen Modells anzeigen bzw. verdecken. Sie können auch die Kurven von Modellen verdecken oder anzeigen, die Sie dem Diagramm u. U. durch Anklicken von Hinzufügen... hinzugefügt haben.