Archiv der Kategorie: Deskriptive

Phi-Koeffizient

Der \phi-Koeffizient ist ein Zusammenhangsmaß für zwei binäre (oder dichotome) Variablen, das heißt zwei Variablen, die jeweils nur zwei mögliche Ausprägungen haben. Die resultierenden Daten kann man in einer 2x2-Kreuztabelle zusammenfassen.

Klausuraufgaben

Als Beispiel sehen wir uns eine andere Darstellung der Daten aus dem Artikel zum \chi^2-Koeffizienten an: Wir betrachten für 180 Züge nur, ob sie (a) unter der Woche oder am Wochenende abfahren, und (b) ob sie pünktlich oder mit Verspätung abfahren. Wir fassen also die letzten beiden Spalten der Tabelle aus dem obigen Artikel zusammen, und erhalten diese Tabelle:

pünktlich verspätet Summe
Mo-Fr 58 62 120
Wochenende 32 28 60
Summe 90 90 180

Mit dem \phi-Koeffizienten beantworten wir nun die Frage, wie stark der Zusammenhang dieser beiden Variablen ist, ob es also am Wochenende unterschiedlich viele Verspätungen gibt wie unter der Woche.

Allgemein sieht eine 2x2-Kreuztabelle (siehe Artikel) wie folgt aus:

b_1 b_2 Summe
a_1 h_{11} h_{12} h_{1 \cdot}
a_2 h_{21} h_{22} h_{2 \cdot}
Summe h_{\cdot 1} h_{\cdot 2} n

Der \phi-Koeffizient berechnet sich nun wie folgt:

 \phi = \frac{h_{11}\cdot h_{22} - h_{12}\cdot h_{21}}{\sqrt{h_{1 \cdot} \cdot h_{2 \cdot} \cdot h_{\cdot 1} \cdot h_{\cdot 2} }}

Er kann (im Gegensatz zum \chi^2-Koeffizienten und dem Kontingenzkoeffizienten K) Werte von -1 bis 1 annehmen, nicht nur von 0 bis 1. Auch hier bedeutet ein Wert von \phi=0, dass kein Zusammenhang vorliegt. Je näher der Wert an -1 oder 1 rückt, desto stärker ist der Zusammenhang zwischen den beiden Variablen.

In unserem Beispiel setzen wir also ein:

 \phi = \frac{58 \cdot 28 - 62 \cdot 32}{\sqrt{120 \cdot 60 \cdot 90 \cdot 90}} = -0.0471

Wir erhalten einen Wert, der fast Null ist, können also sagen, dass wir hier keinen großartigen Zusammenhang gefunden haben.

Chi-Quadrat-Koeffizient und Kontingenzkoeffizient K

Zwei nominale oder ordinale Merkmale werden immer mit einer Kreuztabelle visualisiert. Im entsprechenden Artikel gibt es Beispieldaten für die Merkmale "Geschlecht" und "gewählte Partei". Um nun zu beschreiben, wie gross der Zusammenhang zwischen den beiden Variablen ist, gibt es drei Koeffizienten, die in diesem Artikel vorgestellt werden, wobei die drei Werte am besten nacheinander berechnet werden:

  1. Aus der Kreuztabelle berechnet man die Unabhängigkeitstabelle (manchmal auch Indifferenztabelle)
  2. Mithilfe derer berechnet man den \chi^2-Koeffizienten.
  3. Aus dem \chi^2-Koeffizienten berechnet man (falls gewünscht) den Kontingenzkoeffizienten K.
  4. Aus dem Kontingenzkoeffizienten K berechnet man schließlich (falls gewünscht) den korrigierten Kontingenzkoeffizienten K^*.
Klausuraufgaben

Wird also in einer Klausur nur nach dem \chi^2-Koeffizienten gefragt, führt man nur die ersten beiden Schritte aus. Wird stattdessen nur nach dem korrigierten Kontingenzkoeffizienten K^* gefragt, muss man alle vier Schritte berechnen.

Wir verwenden für die Berechnung als Beispiel eine Stichprobe von Verspätungen von Zügen. Es wurden für n=180 Züge gemessen, ob sie pünktlich, mit einer Verspätung von 1-15 Minuten, oder mit mehr als 15 Minuten Verspätung abgefahren sind. Zusätzlich wurde festgehalten, ob der Zug an einem Wochentag (Montag-Freitag) oder am Wochenende abgefahren ist:

pünktlich 1-15 Min. > 15 Min. Summe
Mo-Fr  58  46  16 120
Wochenende  32  14 14 60
Summe  90  60  30 180

Um nun zu überprüfen, wie stark der Zusammenhang zwischen dem Wochentag und der Verspätung ist, berechnen wir die Abweichung dieser echten Tabelle von der Unabhängigkeitstabelle:

1. Berechnen der Unabhängigkeitstabelle

Angenommen, man bekommt nicht die Tabelle wie oben angegeben, sondern nur die getrennten Häufigkeiten (in der Tabelle heißen sie Randhäufigkeiten) für die Verspätung, sowie für den Wochentag. Man kann sich dann nur die folgende Tabelle aufstellen:

pünktlich 1-15 Min. > 15 Min. Summe
Mo-Fr 120
Wochenende 60
Summe 90 60 30 180

Unter der Annahme, dass es nun gar keinen Zusammenhang zwischen den zwei Variablen "Wochentag" und "Verspätung" gibt, können wir die erwarteten Häufigkeiten e_{ij} für die Tabelle berechnen.

Ein Beispiel: Wir wissen, dass \frac{1}{3}, also 60 der 180 Züge am Wochenende abgefahren sind. Wir wissen auch, dass die Hälfte aller gemessenen Züge (90 von 180) pünktlich abgefahren sind. Wir würden daher erwarten, dass auch die Hälfte der 60 Züge vom Wochenende (also 30 von 60) pünktlich abgefahren sind. Die erwartete Anzahl im Feld e_{21} ist also 30.

Die Formel, die diesen Gedanken ausdrückt, lautet allgemein:

 e_{ij} = \frac{h_{i\cdot} \cdot h_{\cdot j}}{n}

Die Notationen h_{i\cdot} usw. sind im Artikel Kreuztabellen erklärt. Am oben schon berechneten Beispiel für das Feld e_{21} schreibt man die Formel aus zu e_{21} = \frac{h_{2\cdot} \cdot h_{\cdot 1}}{n} = \frac{60 \cdot 90}{180} = 30. So kann man nun alle erwarteten Häufigkeiten bestimmen, und landet am Ende bei der folgenden Unabhängigkeitstabelle:

pünktlich 1-15 Min. > 15 Min. Summe
Mo-Fr 60  40  20 120
Wochenende 30  20  10 60
Summe 90 60 30 180

In der Realität (und in Klausuren) können in den erwarteten Häufigkeiten auch Kommazahlen wie z.B. "32.4 Züge" herauskommen.

2. Berechnen des \chi^2-Koeffizienten

Der \chi^2-Koeffizient ist nun ein Wert, der entsteht indem man die Abweichungen der tatsächlichen Häufigkeiten von den erwarteten Häufigkeiten der Unabhängigkeitstabelle betrachtet. Es wurden zum Beispiel 58 Züge beobachtet, die unter der Woche (Mo-Fr) pünktlich abgefahren sind (das ist h_{11}). Unter totaler Unabhängigkeit würden wir e_{11} = \frac{120 \cdot 90}{180} = 60 Züge in dieser Zelle erwarten. Die Abweichung ist also in diesem Fall 2 Züge.

Um den \chi^2-Koeffizienten zu berechnen, wird diese Abweichung nun noch quadriert, und danach durch die jeweilige erwartete Häufigkeit geteilt. Wir enden also bei \frac{2^2}{60} = 0.0667.

Genau diese Berechnung (Abweichung \rightarrow quadrieren \rightarrow durch e_{ij} teilen) macht man nun für alle 6 Zellen in der Tabelle. Die resultierenden 6 Zahlen schreibt man auf - man kannn sie der Übersicht halber in eine neue Tabelle übertragen. Versucht es als Übung, und prüft, ob ihr diese Werte herausbekommt:

pünktlich 1-15 Min. > 15 Min.
Mo-Fr 0.0667 0.9 0.8
Wochenende 0.1333 1.8 1.6

Der \chi^2-Koeffizient ist nun die Summe all dieser Zahlen:

 \chi^2 = 0.0667 + 0.9 + 0.8 + 0.1333 + 1.8 + 1.6 = 5.3

Wenn \chi^2=0 ist, dann sind in jeder Zelle der Tabelle die tatsächlichen Häufigkeiten genau gleich der erwarteten Häufigkeiten. Das wäre also eine "perfekte" Unabhängigkeit. Je weiter sich der Wert von \chi^2 von 0 entfernt, desto eher sprechen die Daten für eine Abhängigkeit zwischen den beiden Variablen.

Die Formel für den \chi^2-Koeffizienten

Das, was in diesem Abschnitt gerade ausführlich erklärt wurde, kann man in eine Formel zusammenfassen. Der \chi^2-Koeffizient ist die Summe über alle Zeilen i und alle Spalten j, über die quadrierten und dividierten Abweichungen \frac{(h_{ij}-e_{ij})^2}{e_{ij}}. Es ist also

 \chi^2 = \sum_{i=1}^I \sum_{j=1}^J \frac{(h_{ij}-e_{ij})^2}{e_{ij}}

Die einzelnen Buchstaben sind im Artikel Kreuztabellen erklärt. Wenn man die erwarteten Häufigkeiten e_{ij} nun auch noch ausschreibt (sie sind ja e_{ij} = \frac{h_{i\cdot} \cdot h_{\cdot j}}{n}), kommt man zur oft gesehenen, aber sehr komplizierten Formel

 \chi^2 = \sum_{i=1}^I \sum_{j=1}^J \frac{(h_{ij}-\frac{h_{i\cdot} \cdot h_{\cdot j}}{n})^2}{\frac{h_{i\cdot} \cdot h_{\cdot j}}{n}}

Diese Formel fasst nun das gesamte Vorgehen bisher zusammen, sieht aber dafür eher furchteinflößend aus. Wer also mit dieser Formel Schwierigkeiten hat, findet es bestimmt hilfreich, sich das schrittweise Vorgehen einzuprägen oder intuitiv zu verstehen, warum \chi^2 auf diese Art bestimmt wird.

Wann ist \chi^2 gleich Null?

Der Wert für \chi^2 kann zwischen 0 und \infty liegen. Je näher die Häufigkeiten der echten Tabelle an den erwarteten Häufigkeiten liegen, desto kleiner wird der Wert für \chi^2.

Falls im Extremfall dieselbe Zahl in jeder Zelle steht, wie erwartet wurde, also h_{ij} = e_{ij} in jeder Zelle ist, dann sind die einzelnen Summanden für \chi^2 alle gleich Null, und somit der gesamte Wert für \chi^2 gleich Null. Dieser Fall tritt in der Praxis allerdings so gut wie nie auf, da es schon ein sehr großer Zufall sein müsste, genau die erwarteten Häufigkeiten zu beobachten.

3. Berechnen des Kontingenzkoeffizienten K

Der Nachteil des \chi^2-Koeffizienten ist nun, dass er Werte zwischen 0 und \infty angeben kann. Das bedeutet, dass man die tatsächliche Stärke des Zusammenhangs schlecht anhand des \chi^2-Wertes ablesen kann.

Der Kontingenzkoeffizient behebt diese Schwäche nun, denn er ist einfach eine normierte Version des \chi^2-Koeffizienten. Man berechnet ihn durch

 K = \sqrt{\frac{\chi^2}{\chi^2 + n}}

In unserem Beispiel haben wir die Verspätung für n=180 Züge gemessen, und oben einen \chi^2-Koeffizienten von \chi^2=5.3 bestimmt. Der Kontingenzkoeffizient in unserem Beispiel ist also

 K = \sqrt{\frac{5.3}{5.3+180}} = 0.169

4. Berechnen des korrigierten Kontingenzkoeffizienten K^*

Der Kontingenzkoeffizient K ist nun fast normiert - sein Wertebereich geht nicht von 0 bis 1, sondern von 0 bis \sqrt{\frac{c-1}{c}} (das ist ein Wert, der auf jeden Fall kleiner als 1 ist). c ist definiert als die Anzahl der Zeilen bzw. Spalten der Kreuztabelle, je nachdem welcher Wert kleiner ist. In mathematisch heißt das: c = \min(I, J). In unserem Beispiel ist c=2, da wir 2 Zeilen in der Kreuztabelle haben.

Um K jetzt endgültig in den Wertebereich von 0 und 1 zu normieren, gibt es den korrigierten Kontingenzkoeffizienten K^*. Er wird berechnet durch

 K^* = \sqrt{\frac{c}{c-1}} K

In unserem Fall ist K^* = \sqrt{\frac{I}{I-1}} \cdot K = \sqrt{\frac{2}{2-1}} \cdot 0.169= 0.239.

Da der Wert für K^* zwischen 0 (kein Zusammenhang) und 1 (großer Zusammenhang) liegen kann, deutet unser Wert von 0.239 hier auf einen eher geringen Zusammenhang hin.

Spearman-Korrelation / Rangkorrelation

Mit der Spearman-Korrelation misst man ebenso wie mit der Pearson-Korrelation den Zusammenhang zwischen zwei Variablen. Er nimmt ebenso Werte von -1 (perfekte negative Korrelation) bis +1 (perfekte positive Korrelation) an, und ist nahe bei 0, falls gar keine Korrelation vorliegt.

Klausuraufgaben

Der Spearman-Korrelationskoeffizient r_\text{Sp} wird auch Rangkorrelationskoeffizient genannt, weil nur er einen kleinen, aber entscheidenden Unterschied zum klassischen Pearson-Korrelationskoeffizienten r hat:

Die Korrelation wird nicht zwischen den Datenpunkten selbst, sondern zwischen ihren Rängen berechnet. Ein Beispiel veranschaulicht das schnell:

Beispiel: Alter vs. Performance beim 100m-Lauf

Wir möchten den Zusammenhang zwischen dem Alter einer Person und ihrer Performance beim 100-Meter-Sprint analysieren. Dazu messen wir von 6 Personen das Alter in Jahren, und die Zeit für 100 Meter in Sekunden:

Person i Alter x_i Zeit in Sekunden y_i
A 59 14.61
B 35 11.80
C 43 14.34
D 23 13.03
E 42 14.18
F 27 11.02

Wir können nun die klassische Pearson-Korrelation zwischen den Variablen "Alter" und "Zeit" berechnen:

r = \frac{\sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y})}{ \sqrt{\sum_{i=1}^n (x_i - \bar{x})^2} \cdot \sqrt{\sum_{i=1}^n (y_i - \bar{y})^2} }

Wer zur Übung nachrechnen will, das Ergebnis ist r = 0.73. Um für dieselben Daten nun die Spearman-Korrelation zu berechnen, betrachten wir für beide Merkmale nicht die tatsächlichen Werte "Alter" und "Zeit in Sekunden", sondern deren Ränge. Wir arbeiten also mit den Platzierungen auf der Siegertreppe statt mit der tatsächlichen Zeit, und ebenso mit dem "Platz" oder dem Rang des Alters.

In der Tabelle entstehen dafür zwei neue Spalten für die beiden Ränge. Die Ränge werden hier aufsteigend vergeben, was bedeutet dass die kleinste Zahl den Rang 1 erhält, usw.:

Person i Alter x_i Rang des Alters \text{rang}(x_i) Zeit in Sekunden y_i Platzierung \text{rang}(y_i)
A 59 6 14.61 6
B 35 3 11.80 2
C 43 5 14.34 5
D 23 1 13.03 3
E 42 4 14.18 4
F 27 2 11.02 1

Den Spearman-Korrelationskoeffizient erhält man nun, wenn man die Formel der Korrelation nicht auf die Variablen "Alter" und "Zeit" anwendet, sondern auf deren Ränge:

zweivariablen-spearman-bsp

Links ist das Alter und die Zeit für 100 Meter in einem Scatterplot dargestellt. Aus diesen Daten wird die Pearson-Korrelation r berechnet. Rechts sind die dazugehörigen Ränge (jeweils von 1 bis 6) dargestellt. Mit diesen Rängen berechnet man den Spearman-Korrelationskoeffizienten r_\text{Sp}.

Die Formel für die Spearman-Korrelation ist genau dieselbe wie für die Pearson-Korrelation, nur werden die Daten x_i und y_i mit ihren jeweiligen Rängen ersetzt:

r_\text{Sp} = \frac{\sum_{i=1}^n (\text{rang}(x_i) - \overline{\text{rang}(x)}) (\text{rang}(y_i) - \overline{\text{rang}(y)})}{ \sqrt{\sum_{i=1}^n (\text{rang}(x_i) - \overline{\text{rang}(x)})^2} \cdot \sqrt{\sum_{i=1}^n (\text{rang}(y_i) - \overline{\text{rang}(y)})^2} }

Es ist wichtig zu verstehen dass dieser Koeffizient genauso berechnet wird wie die Pearson-Korrelation, und der einzige Unterschied ist, dass die Ränge statt der Originaldaten verwendet werden. Die Formel und das Vorgehen sind aber genau dasselbe wie im Artikel zur Pearson-Korrelation beschrieben.

Zur Übung: Berechne nun die Spearman-Korrelation dieser Daten. Verwende dazu die Ränge \text{rang}(x_i) und \text{rang}(y_i) aus der obigen Tabelle. Für die Berechnung kannst du je nach Vorliebe Formel 1 oder Formel 2 aus dem Artikel zur Pearson-Korrelation verwenden. Der resultierende Wert soll r_\text{Sp} = 0.83 ergeben.

Zur Interpretation kann man nun sagen, dass mit steigendem Rang des Alters auch der Rang des Platzes ansteigt. Vorsicht. Ein "steigender" Rang heißt hier, dass die Zahl des Platzes höher wird, die Person also langsamer läuft und später ins Ziel kommt! Das heißt in klaren Worten: Ältere Personen werden tendenziell später im Ziel ankommen.

Eine kurze Bemerkung noch: Die Ränge könnte man auch andersrum vergeben, dass also die älteste Person (oder die langsamste Person) den Rang 1 bekommt. Dann würde sich der Spearman-Koeffizient nur im Vorzeichen ändern, aus r_\text{Sp} = 0.83 würde also r_\text{Sp} = -0.83 werden. Die Interpretation würde dann etwas anders ablaufen, aber zum selben Ziel kommen: Die negative Korrelation bedeutet, dass mit steigendem Rang des Alters (d.h. jüngere Personen) der Rang der Platzierung sinkt (d.h. die Person schneller im Ziel ankommt). Hier also in klaren Worten: Je jünger eine Person wird, desto schneller kommt sie im Ziel an. Und daher genau dasselbe wie vorher.

Was ist der Effekt davon, die Ränge statt der Originaldaten zu nehmen?

Da bei der Spearman-Korrelation die Ränge verwendet werden, sind dort die tatsächlichen Abstände zwischen z.B. Platz 1 und Platz 2 egal. Die Spearman-Korrelation ist immer dann 1, wenn der niedrigste Wert für x gepaart ist mit dem niedrigsten Wert von y, usw.

zweivariablen-spearman-r1

Links ist ein Scatterplot für Beispieldaten x und y. Der niedrigste x-Wert gehört zum niedrigsten y-Wert, usw., jedoch ist der Zusammenhang nicht linear, sondern folgt einer Kurve. Rechts sieht man nun die Ränge der Daten gegeneinander geplottet. Der hieraus resultierende Spearman-Korrelationskoeffizient ist genau 1.

Mathematisch sagt man: Die Spearman-Korrelation misst den monotonen Zusammenhang, während die Pearson-Korrelation den linearen Zusammenhang misst.

Was passiert bei gleichen Rängen, also "Unentschieden"?

Es kann passieren, dass z.B. zwei oder mehr Werte für x denselben Wert annehmen. In diesem Fall wird den entsprechenden Werten der Durchschnittsrang zugewiesen. Hierzu drei Beispiele, hätten die Personen aus dem obigen 100-Meter-Sprint stattdessen ein anderes Alter gehabt:

Alter x_i 23 27 27 35 43 59
Rang \text{rang}(x_i) 1 2.5 2.5 4 5 6

In der obigen Tabelle haben zwei Personen dasselbe Alter, deren Ränge 2 und 3 wären. Daher bekommen beide Personen den Durchschnittsrang 2.5.

Alter x_i 23 27 35 35 35 59
Rang \text{rang}(x_i) 1 2 4 4 4 6

Hier haben drei Personen dasselbe Alter. Deren Ränge wären 3, 4, und 5. Der resultierende Durchschnittsrang für alle drei Personen ist also 4.

Eine kürzere Formel für die Spearman-Korrelation

Das oben angegebene Vorgehen zur Berechnung von r_\text{Sp} ist zwar (hoffentlich) einleuchtend und nachvollziehbar, aber die Formel ist doch sehr aufwändig auszurechnen. Es gibt zum Glück eine kürzere Formel, mit der die Spearman-Korrelation schneller ausgerechnet werden kann.

 r_\text{Sp} = 1 - \frac{6 \cdot \sum_{i=1}^n d_i^2}{n\cdot (n^2 -1)}

Vorsicht: Diese Formel darf man nur dann anwenden, wenn es keine Bindungen in den Daten gibt. Es müssen also alle x_i verschieden voneinander sein, und außerdem alle y_i voneinander verschieden sein. Andernfalls kommt mit dieser Formel ein anderes Ergebnis heraus.

Hier ist d_i die Rangdifferenz, d.h. der Unterschied zwischen den beiden Rängen für eine Beobachtung. Wenn also im oberen Beispiel jemand der jüngste ist (also sein Rang des Alters 1 ist), und das drittschnellste Ergebnis gelaufen ist (also der Rang der Platzierung 3 ist), ist die Rangdifferenz d_i = 1 - 3 = -2. Diese Differenz bestimmen wir nun für jeden Läufer:

Person i Alter x_i Rang des Alters \text{rang}(x_i) Zeit in Sekunden y_i Platzierung \text{rang}(y_i) Rangdifferenz d_i = \text{rang}(x_i) - \text{rang}(y_i)
A 59 6 14.61 6 0
B 35 3 11.80 2 1
C 43 5 14.34 5 0
D 23 1 13.03 3 -2
E 42 4 14.18 4 0
F 27 2 11.02 1 1

Somit können wir die quadrierten (nicht vergessen!) Rangdiffernzen aufsummieren:

 \sum_{i=1}^n d_i^2 = 0^2 + 1^2 + 0^2 + (-2)^2 + 0^2 + 1^2 = 6

Dieses Ergebnis setzen wir in die obige Formel nun ein:

 \begin{align*} r_\text{Sp} &= 1- \frac{6 \cdot \sum_{i=1}^n d_i^2}{n\cdot (n^2 -1)}\\ &= 1- \frac{6 \cdot 6}{6 \cdot (6^2 - 1)}\\ &= 0.828\end{align*}

Es kommt auf diesem Weg natürlich derselbe Wert für die Spearman-Korrelation heraus, r_\text{Sp} = 0.83

Streudiagramme

Streudiagramme (oft auch Scatterplots genannt) sind gleichzeitig eine der einfachsten und informativsten grafischen Darstellungen von Daten. Sie sind hauptsächlich für die gleichzeitige Darstellung von zwei Variablen geeignet.

Klausuraufgaben

Ein Beispiel ist der folgende Datensatz, in dem bei einer Reihe von Autos Vollbremsungen durchgeführt wurden, und die Ausgangsgeschwindigkeit (x-Achse) und der resultierende Bremsweg (y-Achse) gemessen wurde:

zweivariablen-streudiagramm-bspDurch die Darstellung der Daten fallen hier direkt drei Dinge auf:

  1. Es wurden keine Autos gemessen, deren Geschwindigkeit zwischen 100 km/h und 130 km/h war. Das kann an der Studie liegen, oder es ist ein Fehler bei der Datenverarbeitung unterlaufen.
  2. Ein Auto hatte eine Ausgangsgeschwindigkeit von ca. 40 km/h, aber einen Bremsweg von 110 Metern. Das ist ein Ausreißer, für den nachgeforscht werden muss was da passiert ist. Hat der Fahrer geschlafen, oder vielleicht der, der die Messungen in den Computer eingegeben hat, einen Fehler gemacht?
  3. Der Zusammenhang wird hier besser durch eine Parabel als durch eine Gerade modelliert. Das macht Sinn, denn wenn man sich an die Fahrschule erinnert, ist der Bremsweg quadratisch abhängig von der Geschwindigkeit.

Eine grafische Darstellung und Exploration eines Datensatzes ist also immer ein sinnvoller erster Schritt, noch vor irgendwelchen statistischen Modellierungen.

Streudiagramme für drei Variablen sind möglich, aber meistens unübersichtlich. Als Beispiel wird hier ein Datensatz von verschiedenen Autos visualisiert, in dem drei Variablen (Gewicht, Hubraum, und Benzinverbrauch) dargestellt werden:

zweivariablen-streudiagramme-3dWie gesagt, 3d-Streudiagramme sind nicht zu empfehlen, und wären auf dem Papier auch nur schwer zu zeichnen.

Zeichnen eines Streudiagramms

Um ein Streudiagramm zu zeichnen, benötigt man eine Reihe von gepaarten Messungen x_i und y_i. Das können z.B. zwei Spalten, also zwei Variablen aus einem Datensatz sein, oder einfach die beiden gemessenen Merkmale in irgend einer Liste.

Als beispielhafte Daten schauen wir uns die Messungen x_i = Alter eines Kindes und y_i = Schugröße eines Kindes an. Wir bekommen die folgende Tabelle:

Kind i Alter x_i Schuhgröße y_i
1 3 22
2 5 26
3 3 23
4 6 25

Das erste Kind erhält nun einen Punkt der auf der x-Achse den Wert 3 hat, und auf der y-Achse den Wert 22. Genauso wird mit den übrigen drei Kindern verfahren. Das Streudiagramm für die 4 Kinder sieht wie folgt aus:

zweivariablen-streudiagramme-2d

Variationskoeffizient

Der Variationskoeffizient (oft mit v bezeichnet) ist eine Kennzahl, die die Streuung eines Merkmals beschreibt. Er wird berechnet indem man die Standardabweichung der Daten durch ihren Mittelwert teilt:

 v = \frac{s}{\bar{x}}

Klausuraufgaben

Der Vorteil des Variationskoeffizienten v gegenüber der Standardabweichung s ist, dass dem Variationskoeffizient egal ist, auf welcher Skala die Daten gemessen wurden. Misst man etwa die Körpergrösse von fünf Personen in Zentimeter, kommt ein anderer Mittelwert raus (z.B. 175) als wenn man die Körpergrösse in Meter misst (dann sind es z.B. 1,75). Dasselbe passiert mit der Varianz und der Standardabweichung, aber nicht mit dem Variationskoeffizenten.

Dazu können wir uns beispielhaft die gerade erwähnten Daten anschauen, die Körpergrösse von fünf Personen in Zentimetern und in Metern:

Person i 1 2 3 4 5
Körpergrösse in Zentimeter 160 173 177 164 182
Körpergrösse in Meter 1.60 1.73 1.77 1.64 1.82

Beispielaufgabe

Berechne für beide Datenreihen, die Körpergrösse in Zentimeter sowie in Meter, die folgenden Kennzahlen:

Eine Anleitung zum Berechnen der ersten drei Werte findest du in den entsprechenden Artikeln. Den Variationskoeffizienten v erhältst du wie oben erklärt, indem du die Standardabweichung s durch den Mittelwert \bar{x} teilst.

Zum Nachprüfen: Die folgenden Kennzahlen sind richtig:

in Zentimeter in Meter
Mittelwert \bar{x} 171.2 1.712
Varianz s^2 82.7 0.00827
Standardabweichung s 9.09 0.0909
Variationskoeffizient v 0.0531 0.0531

Es fällt hier auf, dass der Mittelwert, die Varianz und die Standardabweichung jeweils andere Werte annehmen, aber der Variationskoeffizient v für beide Daten gleich ist. Aus diesem Grund ist der Variationskoeffizient eine geeignete Maßzahl, wenn man die Streuung eines Merkmals unabhängig von ihrer Skalierung beschreiben möchte.

Man kann auch den Variationskoeffizienten von zwei oder mehr Merkmalen mit unterschiedlicher Skalierung vergleichen, z.B. die Körpergröße und das Gewicht von Studenten, oder die Population der USA und Deutschland. Wo normalerweise die Standardabweichung eines Merkmals mit großem Mittelwert (z.B. die Bevölkerung der USA) automatisch dazu tendiert, größer zu sein, ist der Variationskoeffizient nun vergleichbar.

Korrelation und Kausalität

Zwischen einem reinem Zusammenhang, d.h. einer Korrelation zwischen zwei Variablen, und einer tatsächlichen Auswirkung von einer auf die andere Variable, d.h. einer Kausalität, besteht noch ein großer Unterschied, der in diesem Artikel behandelt wird.

Klausuraufgaben

Sehen wir uns eine Grafik dazu an. Wir befragen n=30 Personen zu ihrer Schuhgröße und ihrem monatlichem Einkommen.

zweivariablen-kausalitaet

Die Korrelation beträgt hier r=0.709.

Wir sehen einen Zusammenhang zwischen den beiden Variablen, der auch tatsächlich vorhanden ist, und durch den Korrelationskoeffizienten r berechnet werden kann. Es wäre jetzt aber falsch, deswegen auch auf eine Auswirkung von einer der beiden Variablen auf die andere zu schließen.

Einen Korrelation (oder einen Zusammenhang) formuliert man so: "Menschen mit größerer Schuhgröße haben tendenziell ein höheres Einkommen".

Eine Kausalität würde aber so formuliert werden: "Die Schuhgröße hat einen Einfluss auf das Nettoeinkommen".

Wenn der zweite Satz stimmen würde, dann könnte man sich morgen Schuhe der Größe 65 kaufen, und bekäme deswegen eine saftige Gehaltserhöhung. Das macht natürlich keinen Sinn. Auch umgekehrt wäre eine Kausalität sinnlos, denn dann hätte das Einkommen eine Auswirkung auf die Schuhgröße. Wenn ich also eine Gehaltserhöhung bekäme, würden deswegen meine Füße wachsen.

Eine Korrelation zwischen zwei Merkmalen X und Y bedeutet also noch nicht, dass Y ein Verursacher von X ist (oder X ein Verursacher von Y). Dieses Phänomen nennt man Scheinkorrelation.

Viele, teils richtig absurde Korrelationen gibt es auf der Webseite "Spurious Correlations".

Was allerdings hier wahr ist: Wenn man zwei Menschen mit unbekanntem Einkommen auf einem Blatt Papier stehen hat, und einer eine viel größere Schuhgröße hat, erwarten wir von dieser Person ein höheres Einkommen als von der anderen.

Mediator-/Confoundervariablen

Wer aufgepasst hat, weiss vielleicht schon, was hier vor sich geht: Wir haben eine wichtige Variable, nämlich das Geschlecht der Personen nicht beachtet. Es ist nun so, dass Frauen im Durchschnitt 22% weniger verdienen als Männer. Das hat ein paar erklärbare Gründe, wie z.B. die Tendenz, dass Frauen häufiger Teilzeitjobs oder schlechter bezahlte Berufe annehmen, und ihnen eine steile Karriere nicht so wichtig ist wie mehr Freizeit. Aber der Effekt auf das Einkommen ist trotzdem da. Wenn wir unsere befragten Personen nun nach Geschlecht auftrennen, erkennen wir zwei Gruppen, nämlich eine mit großen Füßen und eine mit kleinen Füßen, in denen jeweils keine Korrelation besteht:

zweivariablen-kausalitaet-getrennt

Die zu Beginn ignorierte Variable "Geschlecht" ist hier eine Mediator- oder Confoundervariable (die Worte bedeuten das gleiche, aber in gewissen Fachbereichen benutzt man eines lieber als das andere).

Beispiel aus der Realität

Das klingt nun vielleicht alles etwas realitätsfern, weil mein Beispiel sehr offensichtlich unklug war. Solche Sachen passieren allerdings in der Realität, und auch unter Experten:

Im New England Journal of Medicine, einer hoch angesehenen wissenschaftlichen Zeitschrift, wurde 2012 ein Artikel veröffentlicht, der genau diesen Fehler machte. Sie fanden eine Korrelation zwischen Schokoladenkonsum und Anzahl an Nobelpreisträgern in einem Land, und schlossen auf einen Einfluss von Schokolade auf Intelligenz.

Quelle: Messerli, Franz H. (2012). Chocolate Consumption, Cognitive Function, and Nobel Laureates. New England Journal of Medicine, 367:16, 1562-1564.

Quelle: Messerli, Franz H. (2012). Chocolate Consumption, Cognitive Function, and Nobel Laureates. New England Journal of Medicine, 367:16, 1562-1564.

Ein Blogartikel, der dieses Beispiel (auf Englisch) ausführlich behandelt, und sich am Ende sogar darüber lustig macht, ist hier zu finden.

Kausalität nachweisen

Wie man sieht, gibt es mehrere mögliche Erklärungen für eine Korrelation zwischen zwei Variablen X und Y. Es könnte z.B. X eine Auswirkung auf Y haben, oder umgekehrt Y eine Auswirkung auf X, oder aber wie im Beispiel oben eine Mediatorvariable im Spiel sein, die beide Variablen, X sowie Y beeinflusst.

Nachweisen kann man eine Kausalität nur durch ein Experiment. Hier müssten wir zum Beispiel von 100 Personen die Schuhgrösse und das Einkommen notieren, und dann der einen Hälfte größere Schuhe geben und der anderen nicht. Wenn sich nun das Einkommen der Treatment-Gruppe, also der Personen mit größeren Schuhen, gegenüber der Kontrollgruppe erhöht, dann haben wir einen Zusammenhang nachgewiesen (das wird aber in diesem Fall eher nicht erwartet).

Kreuztabellen / Kontingenztafeln

Kreuztabellen sind Häufigkeitstabellen für zwei Merkmale. Sie sind also dazu da, die gemeinsame Verteilung von zwei Merkmalen zu visualisieren.

Klausuraufgaben

Kreuztabellen für absolute Häufigkeiten

Die einfachste Tabelle besteht aus absoluten Häufigkeiten, also einfach der Anzahl an untersuchten Einheiten in jeder Gruppe. Befragt man zum Beispiel 200 Personen nach ihrem Geschlecht und der letzten gewählten Partei, könnte sich eine Tabelle wie folgt ergeben:

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 26 22 8 12 16 84
Frauen 36 28 14 14 24 116
Summe 62 50 22 26 40 200

Allgemein notieren kann man eine Tabelle zum Beispiel so:

b_1 b_2 \dots b_J Summe
a_1 h_{11} h_{12} \dots h_{1J} h_{1\cdot}
a_2 h_{21} h_{22} \dots h_{2J} h_{2\cdot}
\vdots \vdots \vdots \ddots \vdots \vdots
a_I h_{I1} h_{I2} \dots h_{IJ} h_{I\cdot}
Summe h_{\cdot 1} h_{\cdot 2} \dots h_{\cdot J} n

Das Merkmal X ist in den Zeilen dargestellt und kann I verschiedene Ausprägungen haben, a_1 bis a_I. Im oberen Beispiel war X das Geschlecht, I=2 und a_1 war "männlich", a_2 war "weiblich". Das zweite Merkmal, Y läuft über die Spalten und hat J verschiedene Ausprägungen b_1, \ldots, b_J (oben waren das die fünf Parteien).

Die einzelnen Häufigkeiten werden nun durch h_{ij} dargestellt, wobei die erste Zahl, i, immer die Zeile angibt, und die zweite Zahl, jimmer die Spalte. h_{13} ist also der Eintrag in der ersten Zeile, dritte Spalte. In unserer Parteientabelle ist h_{13}=8.

Die Randhäufigkeiten sind die gebildeten Summen über eine ganze Zeile (z.B. h_{2\cdot} für die zweite Zeile) oder eine ganze Spalte (z.B. h_{\cdot 1} für Spalte 1). Der Punkt deutet an, dass an dieser Position summiert wird; steht er an erster Stelle, wird eine feste Spalte über alle Zeilen summiert. Für eine beliebige Zeile i stellt man die Zeilensumme durch die Formel h_{i\cdot} = \sum_{j=1}^J h_{ij} dar, und eine Spaltensumme für eine beliebige Spalte j bildet man mit h_{\cdot j} = \sum_{i=1}^I h_{ij}.

Ganz unten rechts steht noch n, die gesamte Anzahl an untersuchten Einheiten. In unserem Beispiel war n=200.

Als kleine Verständniskontrolle kann man sich überlegen, wofür die folgenden Bezeichnungen in unserer Beispieltabelle der Wahldaten stehen:

  • I
  • h_{12}
  • h_{\cdot 2}
  • a_2
  • n
Lösung (klick)

Kreuztabellen für relative Häufigkeiten

Eine Tabelle für absolute Häufigkeiten wandelt man ganz einfach in eine Tabelle relativer Häufigkeiten um: Man dividiert jede Zelle (egal ob es eine Datenzelle oder eine Randhäufigkeit ist) durch n, und ist fertig. Hier ist unsere Beispieltabelle von oben in relativen Häufigkeiten, indem wir jede Zelle durch 200 teilen:

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 0.13 0.11 0.04 0.06 0.08 0.42
Frauen 0.18 0.14 0.07 0.07 0.12 0.58
Summe 0.31 0.25 0.11 0.13 0.20 1

Relative Häufigkeiten sollte man anders bezeichnen als absolute Häufigkeiten. Daher nennen wir absolute Häufigkeiten h_{ij}, und relative Häufigkeiten f_{ij}. Das kann aber natürlich in jedem Kurs anders heißen.

Exkurs: Bedingte Häufigkeiten

Mit bedingten Häufigkeiten drücken wir die Verteilung eines Merkmals aus, gegeben ein zweites Merkmal hat eine bestimmte Ausprägung. In einer Formel deutet der vertikale Balken an, dass es sich um eine bedingte Häufigkeit handelt. So bedeutet f(Grüne|Mann) die relative Häufigkeit der Grünen-Wähler bedingt auf die Männer.

Wenn man auf die Männer bedingt, interessiert einen in der folgenden Tabelle nur die erste Zeile:

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 26 22 8 12 16 84
Frauen 36 28 14 14 24 116
Summe 62 50 22 26 40 200

Der Anteil der Grünen-Wähler an den Männern ist also 12 von 84 Männern, d.h. 14%.

Um eine bedingte Häufigkeit zu erhalten, teilen wir also nicht durch die Gesamtzahl an Personen n, sondern nur durch die Personen, auf die bedingt wurde. Im Beispiel oben teilen wir die absolute Anzahl an Männern, die die Grünen gewählt haben (=12) durch die Anzahl an befragten Männern (also durch h_{1\cdot} = 84 statt durch n).

Mit unseren Bezeichnungen von oben ("Grüne" sind b_4 usw.) berechnen wir diese bedingte Häufigkeit wie folgt:

 f(b_4 | a_1) = \frac{h_{14}}{h_{1\cdot}} = 12/84 = 0.14

In Formeln ausgedrückt berechnet man die auf eine Spalte bedingte Häufigkeit durch

 f(a_i | b_j) = \frac{h_{ij}}{h_{\cdot j}},

und die auf eine Zeile bedingte Häufigkeit durch

 f(b_j | a_i) = \frac{h_{ij}}{h_{i \cdot}}.

Der Korrelationskoeffizient nach Pearson

Die Korrelation ist eine Möglichkeit, den Zusammenhang zwischen zwei Variablen zu beschreiben. Der Pearson-Korrelationskoeffizient r ist einer von vielen Möglichkeiten dazu, und meiner Meinung nach die einfachste, am ehesten intuitive.

Klausuraufgaben

Mit der Korrelation mißt man den linearen (dazu später mehr) Zusammenhang zwischen zwei Variablen. Der Wert kann zwischen -1 und 1 liegen, und wird wie folgt interpretiert:

  • r \approx 0: Wenn zwei Variablen eine Korrelation von ungefähr Null haben, lässt sich kein Zusammenhang erkennen. Die Variablen sind unkorreliert. Eine Korrelation von 0 erwartet man z.B. zwischen der Hausnummer und der Körpergrösse einer Person.
  • r > 0: Wenn r größer als Null ist, spricht man von einer positiven Korrelation. Größere Werte von X gehen dann einher mit größeren Werten von Y. Das ist zum Beispiel bei der Körpergrösse und der Schuhgrösse einer Person der Fall: Grössere Menschen haben meistens auch grössere Schuhe.
  • r < 0: Wenn r negativ ist, dann hängen höhere Werte von X mit niedrigeren Werten für Y (und umgekehrt) zusammen. Betrachtet man etwa die Anzahl der Skiurlauber und die Aussentemperatur, sieht man, dass bei niedrigeren Temperaturen mehr Urlauber kommen.

Sehen wir uns ein paar grafische Beispiele an:

asdf

Hier sieht man vier Beispiele für Datensätze mit zwei Variablen. Gezeigt sind die X- und Y-Werte, sowie der jeweilige Korrelationskoeffizient r, und eine Regressionslinie.

A)
Hier sieht man eine starke positive Korrelation. Die hohe Korrelation deutet darauf hin, dass ein Zusammenhang zwischen Außentemperatur und Umsatz einer Eisdiele besteht.
B)
Ein Beispiel für eine negative Korrelation. Höhere Preise für Kinokarten gehen mit weniger Besuchern einher. Hier fällt auch auf, dass die Steigung der Geraden keine Rolle spielt. Der Korrelationskoeffizient bemerkt nur, wie "perfekt" der lineare Zusammenhang ist, aber nicht, wie stark er ist.
C)
Sieht man sich Daten für Körpergrösse und Nettoeinkommen an, erkennt man keinen Zusammenhang. Hier ist sogar eine leicht negative Korrelation zu erkennen, die man aber wohl als zufällig betrachten kann.
D)
Ein Beispiel für die Grenzen der Korrelation: Sehr arme Menschen können sich keine Busfahrkarten leisten, und sehr reiche Menschen fahren eher Auto. Der Zusammenhang ist hier nicht linear, sondern folgt eher einer Parabel. Man sieht eine Abhängigkeit zwischen dem Einkommen und der gekauften Busfahrkarten, aber die lineare Korrelation erkennt ihn nicht.

Um den Korrelationskoeffizienten r für zwei Variablen zu berechnen, gibt es zwei Formeln, wo bei beiden natürlich das Gleiche rauskommt. Manchmal ist allerdings die eine oder andere Formel einfacher in den Taschenrechner einzutippen.

Für die Formeln sollte man mit dem Summenzeichen umgehen können, das im entsprechenden Artikel erklärt wird.

Formel 1:

 r = \frac{\sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y})}{ \sqrt{\sum_{i=1}^n (x_i - \bar{x})^2} \cdot \sqrt{\sum_{i=1}^n (y_i - \bar{y})^2} }

Formel 2:

 r= \frac{\sum_{i=1}^n x_i y_i - n \bar{x} \bar{y}}{\sqrt{\sum_{i=1}^n x_i^2 - n\bar{x}^2} \cdot \sqrt{\sum_{i=1}^n y_i^2 - n\bar{y}^2} }

Die zweite Formel ist einfacher und schneller im Taschenrechner zu berechnen. Wenn allerdings sehr große Zahlen für x oder y vorkommen, werden die Summen der Quadrate (die Terme \sum_{i=1}^n x_i^2) zu gross, und der Speicher des Taschenrechners spielt nicht mehr mit.

Beispielaufgabe

Schauen wir uns die Berechnung von r mit beiden Formeln anhand eines Beispiels an:

Person i 1 2 3 4 5 6 7
x_i: Zigaretten pro Tag 4 21 2 11 14 2 6
y_i: Todesalter 70 63 82 65 61 74 84

Für beide Formeln müssen wir zuerst die Mittelwerte \bar{x} und \bar{y} berechnen:

 \bar{x} = \frac{1}{7} \cdot (4+21+2+11+14+2+6) = 8.57

 \bar{y} = \frac{1}{7} \cdot (70+63+82+65+61+74+84) = 71.29

Formel 1

Am einfachsten ist es, die Formel in drei Schritten zu berechnen, und die Zwischenergebnisse aufzuschreiben, und am Ende den gesamten Bruch auszurechen. Beginnen wir mit dem Zähler:

 \begin{align*} \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}) = & (4-8.57)\cdot (70-71.29)+\\ & (21-8.57)\cdot (63-71.29)+\\ & (2-8.57)\cdot (82-71.29)+\\ & (11-8.57)\cdot (65-71.29)+\\ & (14-8.57)\cdot (61-71.29)+\\ & (2-8.57)\cdot (74-71.29)+\\ & (6-8.57)\cdot (84-71.29) \\ & = -289.14 \end{align*}

Nun die beiden Teile im Nenner:

\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2} = \sqrt{(4-8.57)^2 + (21-8.57)^2 + \ldots +(6-8.57)^2} = 17.43

\sqrt{\sum_{i=1}^n (y_i - \bar{y})^2} = \sqrt{(70-71.29)^2 + \ldots +(84-71.29)^2 } = 22.35

Zusammen in die Formel von oben eingesetzt ergibt sich die Korrelation:

 r= \frac{-289.14}{17.43 \cdot 22.35} = -0.74

Formel 2

Mit diesem Weg hat man mehr Zwischenergebnisse als mit Formel 1, und kann sich im Taschenrechner nicht so leicht vertippen. Man berechnet nacheinander die folgenden fünf Werte:

  • \bar{x} = 8.57
  • \bar{y} = 71.29
  • \sum_{i=1}^n x_iy_i = 4\cdot 70 + 21\cdot 63 + 2\cdot 82 + 11\cdot 65 + 14\cdot 61 + 2\cdot 74 + 6\cdot 84 = 3988
  • \sum_{i=1}^n x_i^2 = 4^2+21^2+2^2+11^2+14^2+2^2+6^2 =818
  • \sum_{i=1}^n y_i^2 = 36071

Diese Werte setzt  man nun in die Formel ein:

 r = \frac{3988 - 7\cdot 8.57 \cdot 71.29}{\sqrt{818 - 7\cdot 8.57^2} \cdot \sqrt{36071 - 7\cdot 71.29^2}} = -0.74

Wie man sieht, ist die zweite Variante angenehmer zu rechnen, könnte aber problematisch werden, wenn z.B. Zahlen über 10,000 quadriert und summiert werden.

Herleitung über die empirische Kovarianz

Dieser Abschnitt wird ein bisschen mathematisch, kann also gerne übersprungen werden, wenn man nicht an der Intuition hinter der Formel interessiert ist.

Die Korrelation ist eigentlich eine standardisierte Version der Kovarianz zweier Variablen. Die Kovarianz ist definiert als

 \text{Cov}(x, y) = \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})

Der Betrag der Kovarianz bewegt sich zwischen 0 (bei unkorrelierten Variablen) und s_x \cdot s_y (bei perfekt korrelierten Variablen). Dabei ist s_x die Standardabweichung von X, und s_y die von Y. Das Vorzeichen der Kovarianz lässt nun schon erkennen, in welche Richtung der Zusammenhang zweier Variablen geht, genauso wie bei der Korrelation. Aber ihr Wert ist abhängig von der Varianz von x und y. Daher wird die Kovarianz standardisiert, indem man durch die Standardabweichungen von x und y teilt – dadurch erhält man die Korrelation, deren Wertebereich nun von -1 bis 1 geht:

 r = \frac{\text{Cov}(x, y)}{s_x \cdot s_y}

Die Faktoren \frac{1}{n-1} stehen im Zähler und im Nenner, und kürzen sich heraus, wodurch die Formel 1 oben entsteht.

Boxplots

Ein Boxplot ist eine grafische Zusammenfassung der folgenden fünf Punkte:

  • Minimum (= 0%-Quantil)
  • 25%-Quantil
  • Median (= 50%-Quantil)
  • 75%-Quantil
  • Maximum (= 100%-Quantil)
Klausuraufgaben

Da man das Minimum, den Median und das Maximum als 0%-, 50%- bzw. 100%-Quantil ausdrücken kann, zeigt der Boxplot eigentlich nur fünf häufig verwendete, interessante Quantile. Dabei ist die Box und ihre sogenannten "Whiskers", die Striche außerhalb der Boxen, wie folgt aufgebaut:

Die Box spannt sich vom 25%-Quantil bis zum 75%-Quantil auf, in ihr ist der Median durch einen Querstrich markiert. Außerhalb der Boxen spannen sich nach oben und unten die Whiskers zum Minimum bzw. Maximum der Datenreihe.

Es gibt eine Ausnahme, in der die Whiskers meistens nicht bis zum Minimum bzw. Maximum gezeichnet werden. "Meistens", weil dieses Vorgehen nirgends festgelegt ist, und nur eine Art Quasi-Standard ist. Falls die Whiskers länger sind als das 1.5-fache der Box (d.h. der 1.5-fache Interquartilsabstand), werden sie nicht bis zum letzten Punkt gezeichnet, sondern nur bis zum letzten Punkt der weniger als das 1.5-fache des Interquartilsabstands von der Box entfernt ist. Alle Datenpunkte, die dann ausserhalb der Whiskers liegen, werden als Ausreißer separat eingezeichnet.

Am Boxplot kann man auch zwei Streuungsmaße ablesen: Die Spannweite ist nämlich der Abstand zwischen den beiden Whiskers (bzw. zwischen den äußersten Ausreißern). Der Interquartilsabstand, der ja als x_{0.75} - x_{0.25} definiert wurde, ist genau die Breite der Box.

Beispielaufgabe

Um einen Boxplot von Hand zu zeichnen, benötigen wir nur die sogenannte Fünf-Punkte-Zusammenfassung einer Datenreihe. Diese wollen wir jetzt anhand von Beispieldaten berechnen.

Nehmen wir an, wir bekommen einen Datensatz mit n=20 befragten Autofahrern. Die Personen haben uns gesagt, wie oft sie in ihrem Leben schon geblitzt wurden. Wir bekamen von den Personen die folgenden Antworten:

1 4 3 3 7 1 0 9 2 3 1 1 2 0 5 0 0 1 0 2

Wir brauchen also als allererstes für die Box das 25%- und das 75%-Quantil sowie den Median. Dazu sortieren wir die Liste zuerst:

0 0 0 0 0 1 1 1 1 1 2 2 2 3 3 3 4 5 7 9

Der Median ist für 20 Elemente definiert als \frac{1}{2} (x_{(10)} + x_{(11)}), also 1.5. Die Quantile sind x_{0.25} = \frac{1}{2} (x_{(np)} + x_{(np+1)}) = \frac{1}{2} (x_{(5)} + x_{(6)}) = 0.5, und x_{0.75} = 3. Die Box erstreckt sich also von 0.5 zu 3, mit dem Median-strich bei 1.5.

Für die Whisker müssen wir nachsehen: Das Minimum der Daten ist 0. Der Whisker streckt sich bis zum Minimum, falls es nicht weiter als 1.5\cdot IQR von der Box (also von x_{0.25}) entfernt ist. IQR steht hier für interquartile range, also den Interquartilsabstand, oder x_{0.75}-x_{0.25}. Der ist bei uns 2.5. Und das Minimum ist nicht weiter als 1.5\cdot 2.5 von 0.5 entfernt: Daher geht der untere Whisker bis zum Minimum 0.

Das Maximum der Daten liegt bei 9. Das ist 9-3=6 von der Box entfernt. Geteilt durch die IQR ergibt das 6/2.5 = 2.4. Das bedeutet, dass das Maximum die 2.4-fache IQR als Abstand zur Box hat, und das ist mehr als das 1.5-fache. Der Whisker geht daher bis zum größten Datenpunkt, der kleiner als 1.5\cdot IQR von der Box entfernt ist. Das wäre bei uns der Punkt, der (von unten) am nähesten an 3 + 1.5\cdot 2.5, also 6.75 liegt. Das ist 5; und genau so weit geht unser oberer Whisker. Alle Werte, die darüber liegen (die sogenannten Ausreißer), werden noch als einzelne Punkte eingezeichnet.

Der dazugehörige Boxplot sieht so aus:

boxplot1

Ein Boxplot. Man sieht die Daten hier aufgeteilt in vier Viertel: Das untere Viertel der Daten geht (inklusive) von 0 bis 0.5, das zweite Viertel von 0.5 bis 1.5, das dritte Viertel von 1.5 bis 3, und das letzte Viertel von 3 bis 9.

Verteilungsfunktion

Häufigkeitstabellen kann man auf zweierlei Art visualisieren: Absolute oder relative Häufigkeiten stellt man meist durch Balkendiagramme dar. Für kumulierte Häufigkeiten ist nun eine Verteilungsfunktion angebracht. Sie zeigt auf der x-Achse die geordneten Ausprägungen für das Merkmal, und auf der y-Achse den Anteil der Daten, der kleiner oder gleich dieser Ausprägung ist.

Klausuraufgaben

Wenn wir eine Verteilungsfunktion zeichen, sollten wir immer ihr Prinzip im Hinterkopf behalten: Sie zeigt euch für jede Ausprägung den Anteil der Daten, der kleiner oder gleich dieser Ausprägung ist. Diese Verteilungsfunktion F(x) haben wir im Artikel zu Häufigkeitstabellen schon gesehen, allerdings nur in Tabellenform. Hier zeichnen wir im Prinzip nur die zu der Tabelle passende Grafik.

Beispielaufgabe

Wir haben 80 Studenten befragt, in welchem Semester sie sich befinden, und daraus eine Häufigkeitstabelle erstellt:

Semester i 1 2 3 4 5 6 7
h_i 20 4 13 9 21 5 8
f_i 0.25 0.05 0.1625 0.1125 0.2625 0.0625 0.1
F_i 0.25 0.3 0.4625 0.575 0.8475 0.9 1

Die folgende Abbildung zeigt die Verteilungsfunktion für unsere Studentenbefragung (das Semester i ist die x-Achse, und die Zeile F_i ist die y-Achse).

verteilungsfunktion

Die Verteilungsfunktion für unsere Studentenbefragung. An den "Sprüngen" der Funktion zählt der Wert, an dem der Punkt eingezeichnet ist. Vertikale Linien zwischen den Sprüngen der Funktion können, aber müssen nicht gezeichnet werden.

In dieser Grafik sind die Punkte einfach aus der Häufigkeitstabelle übernommen. Der x-Wert ist das jeweilige Semester, und der y-Wert das zugehörige F_i, also der Anteil der Studenten, die höchstens in diesem Semester sind. Die horizontalen Linien zwischen den Punkten geben nun auch für "krumme" Zahlen einen sinnvollen Prozentsatz an: Möchte man z.B. wissen, welcher Anteil der Studenten mit einer Semesterzahl von höchstens 4.3 geantwortet hat, ist das (also F(4.3)) derselbe Anteil, der mit höchstens 4.0 geantwortet hat (also F(4.0)).

Hier ist dann natürlich zwingend, dass die Verteilungsfunktion immer bei 0 beginnt, und dann kontinuierlich (mathematisch: monoton) steigt, und irgendwann bei 1 endet. Die Verteilung kommt immer von -\infty und geht immer weiter bis +\infty: Der Anteil der Studenten, die höchstens im 7. Semester sind, ist 1; der Anteil derer, die höchstens im 850. Semester sind, ist natürlich immer noch 1.

Quantilsfunktion

Übrigens kann man an der Verteilungsfunktion auch die Quantile ablesen, indem man den Graphen "andersrum" liest. Sucht man sich auf der y-Achse ein gewünschtes Quantil, z.B. das 70%-Quantil, geht man von dort auf einer Horizontalen nach rechts, bis man die Verteilungsfunktion schneidet. Der zugehörige x-Wert (in diesem Fall 5) ist das Semester, das 70% der Studenten nicht überschreiten (also das 70%-Quantil, oder x_{0.7}).

Für den Fall, dass man ein p-Quantil bestimmen will, und np gerade ist (vgl. den Artikel Quantile), landet man in der Verteilungsfunktion direkt auf einer "Stufe" der Treppe. In dem Fall kann das Quantil theoretisch jeder Wert dieser Stufe sein, wir nehmen aber meist den Mittelwert der beiden "Grenzen". Schauen wir uns die Verteilungsfunktion für die folgenden Daten an:

Person A B C D E
Ausprägung 1 2 3 5 7

verteilungsfunktion-beispiel

Das 20%-Quantil (die gepunktete Linie) in diesem Beispiel könnte jeder Wert auf der x-Achse sein, der zwischen dem ersten (1) und dem zweiten Datenpunkt (2) liegt, da alle Werte die Daten in "niedrige 20%" und "hohe 80%" teilen. Das wird durch das Plateau auf der Treppenfunktion verdeutlicht. Das Quantil kann man aber meist einfach als \frac{1}{2}(1+2), also 1.5 definieren.

Mathematisch ausgedrückt: Die Quantilsfunktion ist die Inversfunktion der Verteilungsfunktion. Die Quantilsfunktion wird daher auch mit F^{-1}(x) bezeichnet.