Boxplots

Ein Boxplot ist eine grafische Zusammenfassung der folgenden fünf Punkte:

  • Minimum (= 0%-Quantil)
  • 25%-Quantil
  • Median (= 50%-Quantil)
  • 75%-Quantil
  • Maximum (= 100%-Quantil)
Klausuraufgaben

Da man das Minimum, den Median und das Maximum als 0%-, 50%- bzw. 100%-Quantil ausdrücken kann, zeigt der Boxplot eigentlich nur fünf häufig verwendete, interessante Quantile. Dabei ist die Box und ihre sogenannten "Whiskers", die Striche außerhalb der Boxen, wie folgt aufgebaut:

Die Box spannt sich vom 25%-Quantil bis zum 75%-Quantil auf, in ihr ist der Median durch einen Querstrich markiert. Außerhalb der Boxen spannen sich nach oben und unten die Whiskers zum Minimum bzw. Maximum der Datenreihe.

Es gibt eine Ausnahme, in der die Whiskers meistens nicht bis zum Minimum bzw. Maximum gezeichnet werden. "Meistens", weil dieses Vorgehen nirgends festgelegt ist, und nur eine Art Quasi-Standard ist. Falls die Whiskers länger sind als das 1.5-fache der Box (d.h. der 1.5-fache Interquartilsabstand), werden sie nicht bis zum letzten Punkt gezeichnet, sondern nur bis zum letzten Punkt der weniger als das 1.5-fache des Interquartilsabstands von der Box entfernt ist. Alle Datenpunkte, die dann ausserhalb der Whiskers liegen, werden als Ausreißer separat eingezeichnet.

Am Boxplot kann man auch zwei Streuungsmaße ablesen: Die Spannweite ist nämlich der Abstand zwischen den beiden Whiskers (bzw. zwischen den äußersten Ausreißern). Der Interquartilsabstand, der ja als x_{0.75} - x_{0.25} definiert wurde, ist genau die Breite der Box.

Beispielaufgabe

Um einen Boxplot von Hand zu zeichnen, benötigen wir nur die sogenannte Fünf-Punkte-Zusammenfassung einer Datenreihe. Diese wollen wir jetzt anhand von Beispieldaten berechnen.

Nehmen wir an, wir bekommen einen Datensatz mit n=20 befragten Autofahrern. Die Personen haben uns gesagt, wie oft sie in ihrem Leben schon geblitzt wurden. Wir bekamen von den Personen die folgenden Antworten:

1 4 3 3 7 1 0 9 2 3 1 1 2 0 5 0 0 1 0 2

Wir brauchen also als allererstes für die Box das 25%- und das 75%-Quantil sowie den Median. Dazu sortieren wir die Liste zuerst:

0 0 0 0 0 1 1 1 1 1 2 2 2 3 3 3 4 5 7 9

Der Median ist für 20 Elemente definiert als \frac{1}{2} (x_{(10)} + x_{(11)}), also 1.5. Die Quantile sind x_{0.25} = \frac{1}{2} (x_{(np)} + x_{(np+1)}) = \frac{1}{2} (x_{(5)} + x_{(6)}) = 0.5, und x_{0.75} = 3. Die Box erstreckt sich also von 0.5 zu 3, mit dem Median-strich bei 1.5.

Für die Whisker müssen wir nachsehen: Das Minimum der Daten ist 0. Der Whisker streckt sich bis zum Minimum, falls es nicht weiter als 1.5\cdot IQR von der Box (also von x_{0.25}) entfernt ist. IQR steht hier für interquartile range, also den Interquartilsabstand, oder x_{0.75}-x_{0.25}. Der ist bei uns 2.5. Und das Minimum ist nicht weiter als 1.5\cdot 2.5 von 0.5 entfernt: Daher geht der untere Whisker bis zum Minimum 0.

Das Maximum der Daten liegt bei 9. Das ist 9-3=6 von der Box entfernt. Geteilt durch die IQR ergibt das 6/2.5 = 2.4. Das bedeutet, dass das Maximum die 2.4-fache IQR als Abstand zur Box hat, und das ist mehr als das 1.5-fache. Der Whisker geht daher bis zum größten Datenpunkt, der kleiner als 1.5\cdot IQR von der Box entfernt ist. Das wäre bei uns der Punkt, der (von unten) am nähesten an 3 + 1.5\cdot 2.5, also 6.75 liegt. Das ist 5; und genau so weit geht unser oberer Whisker. Alle Werte, die darüber liegen (die sogenannten Ausreißer), werden noch als einzelne Punkte eingezeichnet.

Der dazugehörige Boxplot sieht so aus:

boxplot1

Ein Boxplot. Man sieht die Daten hier aufgeteilt in vier Viertel: Das untere Viertel der Daten geht (inklusive) von 0 bis 0.5, das zweite Viertel von 0.5 bis 1.5, das dritte Viertel von 1.5 bis 3, und das letzte Viertel von 3 bis 9.

13 Gedanken zu „Boxplots

  1. Andre

    Hallo tolle Erklärung!
    Bei der Eingabe des Beispiels wird bei mir die Box bei 0,75 gestartet (obwohl das Mittel aus 0 und 1 bekanntlich 0,5 ist).
    Gibt es dafür eine Erklärung?
    Danke Vorab und viele Grüße
    Andre

    Antworten
    1. AlexAlex Beitragsautor

      Hallo,
      wo gibst du das Beispiel denn ein?

      Es gibt ein paar verschiedene Regeln, Quantile zu bestimmen, die zwischen zwei Zahlen liegen. Manche Programme verwenden da andere Schätzer als den Mittelwert zweier Zahlen. Die sind teilweise recht kompliziert. Schau mal hier unter "type 1" bis "type 9":

      https://stat.ethz.ch/R-manual/R-devel/library/stats/html/quantile.html

      Ich würde je nach Programm herausfinden welcher Algorithmus verwendet wird, und den dann einfach akzeptieren... 🙂

      VG,
      Alex

      Antworten
      1. Andre

        Hallo Alex, schnelle Antwort! Danke.
        In Excel gibt es die Möglichkeit für ein Boxplot, heißt dort Kastendiagramm.
        Auch bei der Berechnung vom 25% Quantil bekomme ich dort 0,75 angezeigt.
        Ist dir bekannt, wie das geändert werden kann?
        Gruß Andre

        Antworten
  2. Alex.

    Hi Alex,

    Was bedeutet es, wenn ich nur die Antenne ohne Box rausbekomme (Excel).

    Skala: 1-7
    MIN = 5
    Q1 = 6
    Median = 6
    Q3 = 6
    MAX = 7

    Wenn ich die Zahlen anschaue, ist das für mich logisch (Bauchgefühl), aber ich muss das natürlich im empirischen Teil wissenschaftlich er(klären) können.

    Kannst Du mir helfen?

    LG,

    Alex. (andra)

    Antworten
    1. AlexAlex Beitragsautor

      Naja, die Box geht von Q1 bis Q3. Also in deinem Fall von 6 bis 6. Die "Box" ist da also nur ein Strich 🙂

      Antworten
  3. Jocy

    Hi.
    Ich habe noch eine Frage zur Darstellung von Boxplots. Wenn ich diese für eine Arbeit verwende, muss ich dann die Ausreißer und Extremwerte im Diagramm anzeigen? Oder darf ich diese auch ausblenden (dies würde im Methodenteil natürlich vermerkt)?

    Mein Problem ist nämlich, dass ich in meinen Diagrammen zum Teil einzelne Ausreißer habe, die so extrem sind, dass dadurch der Rest meines Diagramms (aufgrund der riesigen Skalierung) uninterpretierbar ist. Da es sich jedoch um vollständig neue und bisher unbekannte Messparameter handelt, möchte ich auch keine Daten löschen, da es nicht klar ist ob es sich um Messfehler oder doch um mögliche (wenn auch extreme) Ausprägungen handelt.

    Ich bin für jede Hilfe dankbar.
    Viele Grüße
    Jocy

    Antworten
    1. AlexAlex Beitragsautor

      Ich denke, wenn du im Methodenteil (und am besten in der Bildunterschrift) erklärst wie der Boxplot gezeichnet wurde, ist das okay. (Ein benotender Betreuer könnte da aber natürlich eine andere Meinung haben).

      Bei extremen Ausreißern bietet sich übrigens oft auch eine Transformation der Daten an, z.B. indem du den Logarithmus verwendest.

      Viele Grüße,
      Alex

      Antworten
  4. Anna

    Hi,
    ist es theoretisch möglich, dass die Ausreißer so gravierend sind, dass sie die Quartilen und den Median derart verändern, dass das tatsächlich auftretende Maximum (abgesehen von Ausreißern) kleiner als die dritte Quartile ist?

    Danke im Voraus!

    Antworten
    1. AlexAlex Beitragsautor

      Uff, komplizierte Frage 🙂
      Die Antwort lautet "nein", aber die Erklärung dafür ist ein bisschen aufwändig.

      Mit "tatsächliches Maximum abgesehen von Ausreißern" meinst du das obere Ende des Whiskers, oder? Wenn ja:
      Da das dritte Quartil das obere Ende der Box ist, und das obere Ende des Whiskers ja im Falle hoher Ausreißer 1.5*IQR von der Box entfernt ist, ist es dann auch immer weiter weg als das dritte Quartil.

      Übrigens: Gravierende Ausreißer verändern den Median nicht. Sie würden nur den arithmetischen Mittelwert verändern.

      Viele Grüße,
      Alex

      Antworten
    1. AlexAlex Beitragsautor

      Man sucht den Datenpunkt, der von unten am nähesten an 6.75 ist. Da in den Daten keine 6 vorkommt sondern nur eine 5, ist es der. Wenn in den Daten z.B. eine 6.25 vorkommen würde, dann würde man die nehmen.

      Viele Grüße,
      Alex

      Antworten
  5. lisa

    Hallo,
    ich verstehe leider nicht, wie man auf den Wert 5 für den oberen Whisker kommt.
    Wäre es möglich, dies bitte ein wenig genauer zu erklären?
    Vielen lieben Dank!

    Antworten
    1. AlexAlex Beitragsautor

      Hi, ich habs jetzt ein bisschen ausführlicher erklärt. Welchen Satz bzw. Teil genau verstehst du denn nicht?

      Antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.