Beispiel: Boxplot
Ein Boxplot ist eine weitere sinnvolle Visualisierung, um darzustellen, wie die Daten verteilt sind. Ein Boxplot enthält mehrere statistische Messgrößen, die wir nach der Erstellung der Visualisierung kennenlernen werden.
Hinweis: In diesem Beispiel wird die Datendatei Employee data verwendet.
- Fügen Sie einen Diagrammtafelknoten hinzu und öffnen Sie ihn zur Bearbeitung.
- Wählen Sie auf der Registerkarte "Basis" die Optionen Gender (Geschlecht) und Current Salary (Aktuelles Gehalt) aus. (Wenn Sie bei gedrückter Steuertaste klicken, können Sie mehrere Felder bzw. Variablen auswählen.)
- Wählen Sie Boxplot.
- Klicken Sie auf Ausführen.

Machen wir uns zunächst mit den einzelnen Bereichen des Boxplots vertraut:
- Die dunkle Linie in der Mitte der Boxen ist der Median des Gehalts (salary), Die Hälfte der Fälle bzw. Zeilen besitzt einen höheren Wert als der Median und die andere Hälfte einen geringeren Wert. Wie der Mittelwert ist der Median eine Messgröße für Lagemaße. Im Gegensatz zum Mittelwert haben Fälle bzw. Zeilen mit Extremwerten weniger Einfluss auf den Median. In diesem Beispiel ist der Median kleiner als der Mittelwert (siehe Beispiel: Balkendiagramm mit Auswertungsstatistik). Der Unterschied zwischen dem Mittelwert und dem Median deutet an, dass einige Fälle bzw. Zeilen mit Extremwerten den Mittelwert anheben. Das heißt, es gibt ein paar Angestellte, die große Gehälter beziehen.
- Im unteren Bereich der Box wird das 25. Perzentil dargestellt. 25 Prozent der Fälle/Zeilen haben Werte unter dem 25. Perzentil. Im oberen Bereich der Box wird das 75. Perzentil dargestellt. 25 Prozent der Fälle/Zeilen haben Werte über dem 75. Perzentil. Das bedeutet, dass 50 % der Fälle/Zeilen innerhalb der Box liegen. Die Box ist für Frauen wesentlich kürzer als für Männer. Das deutet darauf hin, dass das Gehalt (salary) bei Frauen weniger variiert als bei Männern. Der obere und untere Bereich der Box werden häufig als Hinges bezeichnet.
- Die T-Balken, die von den Boxen ausgehen, werden als Fühler oder Whisker bezeichnet. Die Länge beträgt das 1,5-Fache der Höhe der Box oder falls keine Fälle bzw. Zeilen mit Werten in diesem Bereich vorhanden sind, wird die Länge durch den maximalen bzw. minimalen Wert festgelegt. Bei einer Normalverteilung der Daten wird erwartet, dass circa 95 % der Daten innerhalb der Fühler liegen. In diesem Beispiel sind die Fühler bei Frauen kürzer als bei den Männern. Auch das deutet darauf hin, dass das Gehalt (salary) bei Frauen weniger variiert als bei Männern.
- Die Punkte sind Ausreißer. Ausreißer sind Werte, die nicht innerhalb der Fühler liegen. Ausreißer sind Extremwerte. Die Sterne sind extreme Ausreißer. Das sind all jene Fälle/Zeilen, deren Werte mehr als dreimal so groß sind wie die Höhe der Boxen. Es sind mehrere Ausreißer bei Frauen und Männern vorhanden. Berücksichtigen Sie, dass der Mittelwert größer als der Median ist. Der höhere Mittelwert wird von diesen Ausreißern verursacht.