Archiv der Kategorie: Allgemein

Was ist eine Wahrscheinlichkeit?

Eine Wahrscheinlichkeit ist ein Maß für die möglichen Ergebnisse eines Zufallsexperiments. Bei einem Zufallsexperiment wissen wir, welche möglichen Ereignisse eintreten können (z.B. „morgen regnet es“ und „morgen scheint die Sonne“), aber wir wissen noch nicht, welches Ereignis auftritt. Mit Wahrscheinlichkeiten können wir aber jedem Ereignis eine Art Gewicht geben, und z.B. beschreiben, dass morgen ziemlich sicher die Sonne scheint (mit einer Wahrscheinlichkeit von 90%), und es ziemlich sicher nicht regnet (nämlich nur mit 10%).

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Wahrscheinlichkeiten können ausgedrückt werden durch

  • Prozentzahlen wie z.B. 50%,
  • Brüche, wie z.B. \(\frac{1}{2}\), oder
  • Dezimalzahlen wie 0.5

Alle drei Darstellungen bedeuten dasselbe, und sind daher auch richtig. Welche man verwendet, bleibt einem selbst überlassen.

Verschiedene Definitionen der Wahrscheinlichkeit

Eine immer wieder gesehene Klausuraufgabe frägt nach den verschiedenen Auffassungen bzw. Definitionen der Wahrscheinlichkeit. Für die gibt es nämlich keine eindeutige Beschreibung, sondern mehrere. Vier davon sehen wir uns hier an:

Laplace-Wahrscheinlichkeit

Diese Definition der Wahrscheinlichkeit setzt voraus, dass alle elementaren Ergebnisse die gleiche Wahrscheinlichkeit haben. Es ist also möglich bei Zufallsexperimenten wie einem Münzwurf (Kopf und Zahl je mit Wahrscheinlichkeit 0.5), oder einem Rouletterad (die Zahlen 0 bis 36 mit jeweils einer Wahrscheinlichkeit von 1/37).

Die Laplace-Wahrscheinlichkeit für ein Ereignis \(E\) ist definiert als

\[ \mathbb{P}(E) = \frac{\text{Anzahl der „}\mathrm{g\ddot{u}nstigen}\text{“ Ergebnisse}}{\text{Anzahl aller } \mathrm{m\ddot{o}glichen}\text{ Ergebnisse}} \]

Dazu eine Beispielaufgabe: Wie groß ist die Wahrscheinlichkeit, bei einem Roulettespiel eine schwarze Zahl zu erhalten? (Vergiss die „0“ nicht!)

Roulette_frz

Lösung (klick)

Das Ereignis \(E =\) „schwarze Zahl“ hat 18 Ergebnisse. Insgesamt gibt es 37 mögliche Ergebnisse. Die Laplace-Wahrscheinlichkeit ist also \(\mathbb{P}(E) = \frac{18}{37} = 48.6\%\).

Objektive oder frequentistische Wahrscheinlichkeit

Wenn man ein Experiment beliebig oft wiederholen kann (man lässt zum Beispiel ein Reiskorn auf ein Schachbrett fallen, und will wissen, mit welcher Wahrscheinlichkeit man im oberen linken Feld landet), kann man die relative Häufigkeit berechnen, indem man einfach die Anzahl der Treffer durch die Anzahl der gesamten Versuche teilt. Der Grenzwert dieses Bruchs, also der Wert der herauskommt wenn die Anzahl der Versuche unendlich groß wird, ist nun die gesuchte Wahrscheinlichkeit.

Dieses Konzept beschreibt die objektive, oder frequentistische Definition der Wahrscheinlichkeit.

Subjektive Wahrscheinlichkeit

Manchmal kann man Experimente nicht beliebig oft wiederholen. Die Aussage „Die Klausur bestehe ich zu 80%“ basiert z.B. auf einer subjektiven Wahrscheinlichkeitsauffassung, da sie geschätzt und nicht berechnet wurde.

Diese Wahrscheinlichkeit kann man auch als Grad persönlicher Überzeugung auffassen, so wie es der Bayes’sche Wahrscheinlichkeitsbegriff tut.

Axiomatische Definition (nach Kolmogorov)

Axiome sind Aussagen, die nicht bewiesen werden, sondern ohne Beweis vorausgesetzt werden. Mathematische Gebiete beruhen oft auf einigen wenigen Axiomen, mithilfe derer dann alles andere bewiesen wird.

Die drei Axiome, die die Wahrscheinlichkeitstheorie begründen sind die folgenden:

  1. Die Wahrscheinlichkeit für jedes erdenkliche Ergebnis liegt zwischen 0 und 1 (jeweils einschließlich). Es gibt also keine Wahrscheinlichkeit von -0.5, und keine Wahrscheinlichkeit von 2.4.
  2. Ein Zufallsexperiment muß ein Ergebnis haben. Die Wahrscheinlichkeit, dass irgendein Ergebnis herauskommt, ist also 1.
  3. Die Wahrscheinlichkeit, dass irgendeines von zwei Ergebnissen eintritt, ist die Summe der Wahrscheinlichkeiten der beiden einzelnen Ergebnisse. Dies gilt nur, falls sich die beiden Ergebnisse gegenseitig ausschließen.
    Es ist also nicht gültig für \(E_1 = \text{Der }\mathrm{W\ddot{u}rfel}\text{ zeigt eine gerade Zahl}\) und \(E_2 = \text{Der }\mathrm{W\ddot{u}rfel}\text{ zeigt die 4}\), da falls \(E_2\) eintritt, automatisch auch \(E_1\) stimmt.
    Falls aber \(E_1 = \text{Der }\mathrm{W\ddot{u}rfel}\text{ zeigt eine gerade Zahl}\) und \(E_2 = \text{Der }\mathrm{W\ddot{u}rfel}\text{ zeigt die 1}\), so kann man die Wahrscheinlichkeit für \(E_1\) oder \(E_2\) als ihre Summe berechnen:
    \[ \mathbb{P}(E_1 \text{ oder } E_2) = \mathbb{P}(E_1) + \mathbb{P}(E_2) = \frac{3}{6} + \frac{1}{6} = \frac{4}{6} \]

Diese drei Axiome wurden natürlich in mathematischen Formeln verpackt. Man versteht diese Formeln am besten, wenn man sie mit der obigen Textinterpretation vergleicht. So sehen die dazugehörigen Formeln aus:

  1. \(0 \leq \mathbb{P}(E) \leq 1\) für alle möglichen Ereignisse \(E\).
  2. \(\mathbb{P}(\Omega) = 1\), wobei \(\Omega\) für das sichere Ereignis steht.
  3. Falls \(E_1 \cap E_2 = \emptyset\), dann ist \(\mathbb{P}(E_1 \cup E_2) = \mathbb{P}(E_1) + \mathbb{P}(E_2)\).

 

Phi-Koeffizient

Der \(\phi\)-Koeffizient ist ein Zusammenhangsmaß für zwei binäre (oder dichotome) Variablen, das heißt zwei Variablen, die jeweils nur zwei mögliche Ausprägungen haben. Die resultierenden Daten kann man in einer 2×2-Kreuztabelle zusammenfassen. (Für größere Tabellen muss man auf den Chi-Quadrat- oder den Kontingenzkoeffizienten ausweichen)

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Als Beispiel sehen wir uns eine andere Darstellung der Daten aus dem Artikel zum \(\chi^2\)-Koeffizienten an: Wir betrachten für 180 Züge nur, ob sie (a) unter der Woche oder am Wochenende abfahren, und (b) ob sie pünktlich oder mit Verspätung abfahren. Wir fassen also die letzten beiden Spalten der Tabelle aus dem obigen Artikel zusammen, und erhalten diese Tabelle:

pünktlich verspätet Summe
Mo-Fr 58 62 120
Wochenende 32 28 60
Summe 90 90 180

Mit dem \(\phi\)-Koeffizienten beantworten wir nun die Frage, wie stark der Zusammenhang dieser beiden Variablen ist, ob es also am Wochenende unterschiedlich viele Verspätungen gibt wie unter der Woche.

Allgemein sieht eine 2×2-Kreuztabelle (siehe Artikel) wie folgt aus:

\(b_1\) \(b_2\) Summe
\(a_1\) \(h_{11}\) \(h_{12}\) \(h_{1 \cdot}\)
\(a_2\) \(h_{21}\) \(h_{22}\) \(h_{2 \cdot}\)
Summe \(h_{\cdot 1}\) \(h_{\cdot 2}\) \(n\)

Der \(\phi\)-Koeffizient berechnet sich nun wie folgt:

\[ \phi = \frac{h_{11}\cdot h_{22} – h_{12}\cdot h_{21}}{\sqrt{h_{1 \cdot} \cdot h_{2 \cdot} \cdot h_{\cdot 1} \cdot h_{\cdot 2} }} \]

Er kann (im Gegensatz zum \(\chi^2\)-Koeffizienten und dem Kontingenzkoeffizienten \(K\)) Werte von -1 bis 1 annehmen, nicht nur von 0 bis 1. Auch hier bedeutet ein Wert von \(\phi=0\), dass kein Zusammenhang vorliegt. Je näher der Wert an -1 oder 1 rückt, desto stärker ist der Zusammenhang zwischen den beiden Variablen.

In unserem Beispiel setzen wir also ein:

\[ \phi = \frac{58 \cdot 28 – 62 \cdot 32}{\sqrt{120 \cdot 60 \cdot 90 \cdot 90}} = -0.0471 \]

Wir erhalten einen Wert, der fast Null ist, können also sagen, dass wir hier keinen großartigen Zusammenhang gefunden haben.

Chi-Quadrat-Koeffizient und Kontingenzkoeffizient K

Zwei nominale oder ordinale Merkmale werden immer mit einer Kreuztabelle visualisiert. Im entsprechenden Artikel gibt es Beispieldaten für die Merkmale „Geschlecht“ und „gewählte Partei“. Um nun zu beschreiben, wie gross der Zusammenhang zwischen den beiden Variablen ist, gibt es drei Koeffizienten, die in diesem Artikel vorgestellt werden, wobei die drei Werte am besten nacheinander berechnet werden:

  1. Aus der Kreuztabelle berechnet man die Unabhängigkeitstabelle (manchmal auch Indifferenztabelle genannt)
  2. Mithilfe derer berechnet man den \(\chi^2\)-Koeffizienten.
  3. Aus dem \(\chi^2\)-Koeffizienten berechnet man (falls gewünscht) den Kontingenzkoeffizienten \(K\).
  4. Aus dem Kontingenzkoeffizienten \(K\) berechnet man schließlich (falls gewünscht) den korrigierten Kontingenzkoeffizienten \(K^*\).
Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Wird also in einer Klausur nur nach dem \(\chi^2\)-Koeffizienten gefragt, führt man nur die ersten beiden Schritte aus. Wird stattdessen nur nach dem korrigierten Kontingenzkoeffizienten \(K^*\) gefragt, muss man alle vier Schritte berechnen.

Wir verwenden für die Berechnung als Beispiel eine Stichprobe von Verspätungen von Zügen. Es wurden für \(n=180\) Züge gemessen, ob sie pünktlich, mit einer Verspätung von 1-15 Minuten, oder mit mehr als 15 Minuten Verspätung abgefahren sind. Zusätzlich wurde festgehalten, ob der Zug an einem Wochentag (Montag-Freitag) oder am Wochenende abgefahren ist:

pünktlich 1-15 Min. > 15 Min. Summe
Mo-Fr 58 46 16 120
Wochenende 32 14 14 60
Summe 90 60 30 180

Um nun zu überprüfen, wie stark der Zusammenhang zwischen dem Wochentag und der Verspätung ist, berechnen wir die Abweichung dieser echten Tabelle von der Unabhängigkeitstabelle:

1. Berechnen der Unabhängigkeitstabelle

Angenommen, man bekommt nicht die Tabelle wie oben angegeben, sondern nur die getrennten Häufigkeiten (in der Tabelle heißen sie Randhäufigkeiten) für die Verspätung, sowie für den Wochentag. Man kann sich dann nur die folgende Tabelle aufstellen:

pünktlich 1-15 Min. > 15 Min. Summe
Mo-Fr 120
Wochenende 60
Summe 90 60 30 180

Unter der Annahme, dass es nun gar keinen Zusammenhang zwischen den zwei Variablen „Wochentag“ und „Verspätung“ gibt, können wir die erwarteten Häufigkeiten \(e_{ij}\) für die Tabelle berechnen.

Ein Beispiel: Wir wissen, dass insgesamt 60 der 180 Züge (das ist \(\frac{1}{3}\)) am Wochenende abgefahren sind. Wir wissen auch, dass insgesamt 90 von 180 Zügen (das ist die Hälfte) pünktlich abgefahren sind. Wir würden daher erwarten, dass auch innerhalb der Untergruppe der 60 Züge vom Wochenende die Hälfte der Züge (also dann 30 von 60) pünktlich abgefahren sind. Die erwartete Anzahl im Feld \(e_{21}\) ist also 30.

Die Berechnung dieses Gedankens in mathematischer Notation funktioniert, indem wir die Anzahl der pünktlichen Züge (also 90) multiplizieren mit dem Anteil der Züge am Wochenende, \(\frac{60}{180}\). Das ergibt insgesamt \(\frac{60}{180} \cdot 90\), oder, etwas zusammengerückt, \(\frac{60 \cdot 90}{180}\).

Die Formel, die diesen Gedanken ausdrückt, lautet allgemein:

\[ e_{ij} = \frac{h_{i\cdot} \cdot h_{\cdot j}}{n} \]

Die Notationen \(h_{i\cdot}\) usw. sind im Artikel Kreuztabellen erklärt. Am oben schon berechneten Beispiel für das Feld \(e_{21}\) schreibt man die Formel aus zu \(e_{21} = \frac{h_{2\cdot} \cdot h_{\cdot 1}}{n} = \frac{60 \cdot 90}{180} = 30\). So kann man nun alle erwarteten Häufigkeiten bestimmen, und landet am Ende bei der folgenden Unabhängigkeitstabelle:

pünktlich 1-15 Min. > 15 Min. Summe
Mo-Fr 60 40 20 120
Wochenende 30 20 10 60
Summe 90 60 30 180

In der Realität (und in Klausuren) können in den erwarteten Häufigkeiten auch Kommazahlen wie z.B. „32.4 Züge“ herauskommen.

2. Berechnen des \(\chi^2\)-Koeffizienten

Der \(\chi^2\)-Koeffizient ist nun ein Wert, der entsteht indem man die Abweichungen der tatsächlichen Häufigkeiten von den erwarteten Häufigkeiten der Unabhängigkeitstabelle betrachtet. Es wurden zum Beispiel 58 Züge beobachtet, die unter der Woche (Mo-Fr) pünktlich abgefahren sind (das ist \(h_{11}\)). Unter totaler Unabhängigkeit würden wir \(e_{11} = \frac{120 \cdot 90}{180} = 60\) Züge in dieser Zelle erwarten. Die Abweichung ist also in diesem Fall 2 Züge.

Um den \(\chi^2\)-Koeffizienten zu berechnen, wird diese Abweichung nun noch quadriert, und danach durch die jeweilige erwartete Häufigkeit geteilt. Wir enden also bei \(\frac{2^2}{60} = 0.0667\).

Genau diese Berechnung (Abweichung \(\rightarrow\) quadrieren \(\rightarrow\) durch \(e_{ij}\) teilen) macht man nun für alle 6 Zellen in der Tabelle. Die resultierenden 6 Zahlen schreibt man auf – man kannn sie der Übersicht halber in eine neue Tabelle übertragen. Versucht es als Übung, und prüft, ob ihr diese Werte herausbekommt:

pünktlich 1-15 Min. > 15 Min.
Mo-Fr 0.0667 0.9 0.8
Wochenende 0.1333 1.8 1.6

Der \(\chi^2\)-Koeffizient ist nun die Summe all dieser Zahlen:

\[ \chi^2 = 0.0667 + 0.9 + 0.8 + 0.1333 + 1.8 + 1.6 = 5.3 \]

Wenn \(\chi^2=0\) ist, dann sind in jeder Zelle der Tabelle die tatsächlichen Häufigkeiten genau gleich der erwarteten Häufigkeiten. Das wäre also eine „perfekte“ Unabhängigkeit. Je weiter sich der Wert von \(\chi^2\) von 0 entfernt, desto eher sprechen die Daten für eine Abhängigkeit zwischen den beiden Variablen.

Die Formel für den \(\chi^2\)-Koeffizienten

Das, was in diesem Abschnitt gerade ausführlich erklärt wurde, kann man in eine Formel zusammenfassen. Der \(\chi^2\)-Koeffizient ist die Summe über alle Zeilen \(i\) und alle Spalten \(j\), über die quadrierten und dividierten Abweichungen \(\frac{(h_{ij}-e_{ij})^2}{e_{ij}}\). Es ist also

\[ \chi^2 = \sum_{i=1}^I \sum_{j=1}^J \frac{(h_{ij}-e_{ij})^2}{e_{ij}} \]

Die einzelnen Buchstaben sind im Artikel Kreuztabellen erklärt. Wenn man die erwarteten Häufigkeiten \(e_{ij}\) nun auch noch ausschreibt (sie sind ja \(e_{ij} = \frac{h_{i\cdot} \cdot h_{\cdot j}}{n}\)), kommt man zur oft gesehenen, aber sehr komplizierten Formel

\[ \chi^2 = \sum_{i=1}^I \sum_{j=1}^J \frac{(h_{ij}-\frac{h_{i\cdot} \cdot h_{\cdot j}}{n})^2}{\frac{h_{i\cdot} \cdot h_{\cdot j}}{n}} \]

Diese Formel fasst nun das gesamte Vorgehen bisher zusammen, sieht aber dafür eher furchteinflößend aus. Wer also mit dieser Formel Schwierigkeiten hat, findet es bestimmt hilfreich, sich das schrittweise Vorgehen einzuprägen oder intuitiv zu verstehen, warum \(\chi^2\) auf diese Art bestimmt wird.

Wann ist \(\chi^2\) gleich Null?

Der Wert für \(\chi^2\) kann zwischen 0 und \(\infty\) liegen. Je näher die Häufigkeiten der echten Tabelle an den erwarteten Häufigkeiten liegen, desto kleiner wird der Wert für \(\chi^2\).

Falls im Extremfall dieselbe Zahl in jeder Zelle steht, wie erwartet wurde, also \(h_{ij} = e_{ij}\) in jeder Zelle ist, dann sind die einzelnen Summanden für \(\chi^2\) alle gleich Null, und somit der gesamte Wert für \(\chi^2\) gleich Null. Dieser Fall tritt in der Praxis allerdings so gut wie nie auf, da es schon ein sehr großer Zufall sein müsste, genau die erwarteten Häufigkeiten zu beobachten.

3. Berechnen des Kontingenzkoeffizienten \(K\)

Der Nachteil des \(\chi^2\)-Koeffizienten ist nun, dass er Werte zwischen \(0\) und \(\infty\) angeben kann. Das bedeutet, dass man die tatsächliche Stärke des Zusammenhangs schlecht anhand des \(\chi^2\)-Wertes ablesen kann.

Der Kontingenzkoeffizient behebt diese Schwäche nun, denn er ist einfach eine normierte Version des \(\chi^2\)-Koeffizienten. Man berechnet ihn durch

\[ K = \sqrt{\frac{\chi^2}{\chi^2 + n}} \]

In unserem Beispiel haben wir die Verspätung für \(n=180\) Züge gemessen, und oben einen \(\chi^2\)-Koeffizienten von \(\chi^2=5.3\) bestimmt. Der Kontingenzkoeffizient in unserem Beispiel ist also

\[ K = \sqrt{\frac{5.3}{5.3+180}} = 0.169 \]

4. Berechnen des korrigierten Kontingenzkoeffizienten \(K^*\)

Der Kontingenzkoeffizient \(K\) ist nun fast normiert – sein Wertebereich geht nicht von 0 bis 1, sondern von 0 bis \(\sqrt{\frac{c-1}{c}}\) (das ist ein Wert, der auf jeden Fall kleiner als 1 ist). \(c\) ist definiert als die Anzahl der Zeilen bzw. Spalten der Kreuztabelle, je nachdem welcher Wert kleiner ist. In mathematisch heißt das: \(c = \min(I, J)\). In unserem Beispiel ist \(c=2\), da wir 2 Zeilen in der Kreuztabelle haben.

Um \(K\) jetzt endgültig in den Wertebereich von 0 und 1 zu normieren, gibt es den korrigierten Kontingenzkoeffizienten \(K^*\). Er wird berechnet durch

\[ K^* = \sqrt{\frac{c}{c-1}} K \]

In unserem Fall ist \(K^* = \sqrt{\frac{I}{I-1}} \cdot K = \sqrt{\frac{2}{2-1}} \cdot 0.169= 0.239\).

Da der Wert für \(K^*\) zwischen 0 (kein Zusammenhang) und 1 (großer Zusammenhang) liegen kann, deutet unser Wert von 0.239 hier auf einen eher geringen Zusammenhang hin.

Spearman-Korrelation / Rangkorrelation

Mit der Spearman-Korrelation misst man ebenso wie mit der Pearson-Korrelation den Zusammenhang zwischen zwei Variablen. Er nimmt ebenso Werte von -1 (perfekte negative Korrelation) bis +1 (perfekte positive Korrelation) an, und ist nahe bei 0, falls gar keine Korrelation vorliegt.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Der Spearman-Korrelationskoeffizient \(r_\text{Sp}\) wird auch Rangkorrelationskoeffizient genannt, weil nur er einen kleinen, aber entscheidenden Unterschied zum klassischen Pearson-Korrelationskoeffizienten \(r\) hat:

Die Korrelation wird nicht zwischen den Datenpunkten selbst, sondern zwischen ihren Rängen berechnet. Ein Beispiel veranschaulicht das schnell:

Beispiel: Alter vs. Performance beim 100m-Lauf

Wir möchten den Zusammenhang zwischen dem Alter einer Person und ihrer Performance beim 100-Meter-Sprint analysieren. Dazu messen wir von 6 Personen das Alter in Jahren, und die Zeit für 100 Meter in Sekunden:

Person \(i\) Alter \(x_i\) Zeit in Sekunden \(y_i\)
A 59 14.61
B 35 11.80
C 43 14.34
D 23 13.03
E 42 14.18
F 27 11.02

Wir können nun die klassische Pearson-Korrelation zwischen den Variablen „Alter“ und „Zeit“ berechnen:

\[r = \frac{\sum_{i=1}^n (x_i – \bar{x}) (y_i – \bar{y})}{ \sqrt{\sum_{i=1}^n (x_i – \bar{x})^2} \cdot \sqrt{\sum_{i=1}^n (y_i – \bar{y})^2} } \]

Wer zur Übung nachrechnen will, das Ergebnis ist \(r = 0.73\). Um für dieselben Daten nun die Spearman-Korrelation zu berechnen, betrachten wir für beide Merkmale nicht die tatsächlichen Werte „Alter“ und „Zeit in Sekunden“, sondern deren Ränge. Wir arbeiten also mit den Platzierungen auf der Siegertreppe statt mit der tatsächlichen Zeit, und ebenso mit dem „Platz“ oder dem Rang des Alters.

In der Tabelle entstehen dafür zwei neue Spalten für die beiden Ränge. Die Ränge werden hier aufsteigend vergeben, was bedeutet dass die kleinste Zahl den Rang 1 erhält, usw.:

Person \(i\) Alter \(x_i\) Rang des Alters \(\text{rang}(x_i)\) Zeit in Sekunden \(y_i\) Platzierung \(\text{rang}(y_i)\)
A 59 6 14.61 6
B 35 3 11.80 2
C 43 5 14.34 5
D 23 1 13.03 3
E 42 4 14.18 4
F 27 2 11.02 1

Den Spearman-Korrelationskoeffizient erhält man nun, wenn man die Formel der Korrelation nicht auf die Variablen „Alter“ und „Zeit“ anwendet, sondern auf deren Ränge:

zweivariablen-spearman-bsp

Links ist das Alter und die Zeit für 100 Meter in einem Scatterplot dargestellt. Aus diesen Daten wird die Pearson-Korrelation \(r\) berechnet. Rechts sind die dazugehörigen Ränge (jeweils von 1 bis 6) dargestellt. Mit diesen Rängen berechnet man den Spearman-Korrelationskoeffizienten \(r_\text{Sp}\).

Die Formel für die Spearman-Korrelation ist genau dieselbe wie für die Pearson-Korrelation, nur werden die Daten \(x_i\) und \(y_i\) mit ihren jeweiligen Rängen ersetzt:

\[r_\text{Sp} = \frac{\sum_{i=1}^n (\text{rang}(x_i) – \overline{\text{rang}(x)}) (\text{rang}(y_i) – \overline{\text{rang}(y)})}{ \sqrt{\sum_{i=1}^n (\text{rang}(x_i) – \overline{\text{rang}(x)})^2} \cdot \sqrt{\sum_{i=1}^n (\text{rang}(y_i) – \overline{\text{rang}(y)})^2} } \]

Es ist wichtig zu verstehen dass dieser Koeffizient genauso berechnet wird wie die Pearson-Korrelation, und der einzige Unterschied ist, dass die Ränge statt der Originaldaten verwendet werden. Die Formel und das Vorgehen sind aber genau dasselbe wie im Artikel zur Pearson-Korrelation beschrieben.

Zur Übung: Berechne nun die Spearman-Korrelation dieser Daten. Verwende dazu die Ränge \(\text{rang}(x_i)\) und \(\text{rang}(y_i)\) aus der obigen Tabelle. Für die Berechnung kannst du je nach Vorliebe Formel 1 oder Formel 2 aus dem Artikel zur Pearson-Korrelation verwenden. Der resultierende Wert soll \(r_\text{Sp} = 0.83\) ergeben.

Zur Interpretation kann man nun sagen, dass mit steigendem Rang des Alters auch der Rang des Platzes ansteigt. Vorsicht. Ein „steigender“ Rang heißt hier, dass die Zahl des Platzes höher wird, die Person also langsamer läuft und später ins Ziel kommt! Das heißt in klaren Worten: Ältere Personen werden tendenziell später im Ziel ankommen.

Eine kurze Bemerkung noch: Die Ränge könnte man auch andersrum vergeben, dass also die älteste Person (oder die langsamste Person) den Rang 1 bekommt. Dann würde sich der Spearman-Koeffizient nur im Vorzeichen ändern, aus \(r_\text{Sp} = 0.83\) würde also \(r_\text{Sp} = -0.83\) werden. Die Interpretation würde dann etwas anders ablaufen, aber zum selben Ziel kommen: Die negative Korrelation bedeutet, dass mit steigendem Rang des Alters (d.h. jüngere Personen) der Rang der Platzierung sinkt (d.h. die Person schneller im Ziel ankommt). Hier also in klaren Worten: Je jünger eine Person wird, desto schneller kommt sie im Ziel an. Und daher genau dasselbe wie vorher.

Was ist der Effekt davon, die Ränge statt der Originaldaten zu nehmen?

Da bei der Spearman-Korrelation die Ränge verwendet werden, sind dort die tatsächlichen Abstände zwischen z.B. Platz 1 und Platz 2 egal. Die Spearman-Korrelation ist immer dann 1, wenn der niedrigste Wert für \(x\) gepaart ist mit dem niedrigsten Wert von \(y\), usw.

zweivariablen-spearman-r1

Links ist ein Scatterplot für Beispieldaten \(x\) und \(y\). Der niedrigste \(x\)-Wert gehört zum niedrigsten \(y\)-Wert, usw., jedoch ist der Zusammenhang nicht linear, sondern folgt einer Kurve. Rechts sieht man nun die Ränge der Daten gegeneinander geplottet. Der hieraus resultierende Spearman-Korrelationskoeffizient ist genau 1.

Mathematisch sagt man: Die Spearman-Korrelation misst den monotonen Zusammenhang, während die Pearson-Korrelation den linearen Zusammenhang misst.

Was passiert bei gleichen Rängen, also „Unentschieden“?

Es kann passieren, dass z.B. zwei oder mehr Werte für \(x\) denselben Wert annehmen. In diesem Fall wird den entsprechenden Werten der Durchschnittsrang zugewiesen. Hierzu drei Beispiele, hätten die Personen aus dem obigen 100-Meter-Sprint stattdessen ein anderes Alter gehabt:

Alter \(x_i\) 23 27 27 35 43 59
Rang \(\text{rang}(x_i)\) 1 2.5 2.5 4 5 6

In der obigen Tabelle haben zwei Personen dasselbe Alter, deren Ränge 2 und 3 wären. Daher bekommen beide Personen den Durchschnittsrang 2.5.

Alter \(x_i\) 23 27 35 35 35 59
Rang \(\text{rang}(x_i)\) 1 2 4 4 4 6

Hier haben drei Personen dasselbe Alter. Deren Ränge wären 3, 4, und 5. Der resultierende Durchschnittsrang für alle drei Personen ist also 4.

Eine kürzere Formel für die Spearman-Korrelation

Das oben angegebene Vorgehen zur Berechnung von \(r_\text{Sp}\) ist zwar (hoffentlich) einleuchtend und nachvollziehbar, aber die Formel ist doch sehr aufwändig auszurechnen. Es gibt zum Glück eine kürzere Formel, mit der die Spearman-Korrelation schneller ausgerechnet werden kann.

\[ r_\text{Sp} = 1 – \frac{6 \cdot \sum_{i=1}^n d_i^2}{n\cdot (n^2 -1)} \]

Vorsicht: Diese Formel darf man nur dann anwenden, wenn es keine Bindungen in den Daten gibt. Es müssen also alle \(x_i\) verschieden voneinander sein, und außerdem alle \(y_i\) voneinander verschieden sein. Andernfalls kommt mit dieser Formel ein anderes Ergebnis heraus.

Hier ist \(d_i\) die Rangdifferenz, d.h. der Unterschied zwischen den beiden Rängen für eine Beobachtung. Wenn also im oberen Beispiel jemand der jüngste ist (also sein Rang des Alters 1 ist), und das drittschnellste Ergebnis gelaufen ist (also der Rang der Platzierung 3 ist), ist die Rangdifferenz \(d_i = 1 – 3 = -2\). Diese Differenz bestimmen wir nun für jeden Läufer:

Person \(i\) Alter \(x_i\) Rang des Alters \(\text{rang}(x_i)\) Zeit in Sekunden \(y_i\) Platzierung \(\text{rang}(y_i)\) Rangdifferenz \(d_i = \text{rang}(x_i) – \text{rang}(y_i)\)
A 59 6 14.61 6 0
B 35 3 11.80 2 1
C 43 5 14.34 5 0
D 23 1 13.03 3 -2
E 42 4 14.18 4 0
F 27 2 11.02 1 1

Somit können wir die quadrierten (nicht vergessen!) Rangdiffernzen aufsummieren:

\[ \sum_{i=1}^n d_i^2 = 0^2 + 1^2 + 0^2 + (-2)^2 + 0^2 + 1^2 = 6 \]

Dieses Ergebnis setzen wir in die obige Formel nun ein:

\[ \begin{align*} r_\text{Sp} &= 1- \frac{6 \cdot \sum_{i=1}^n d_i^2}{n\cdot (n^2 -1)}\\ &= 1- \frac{6 \cdot 6}{6 \cdot (6^2 – 1)}\\ &= 0.828\end{align*} \]

Es kommt auf diesem Weg natürlich derselbe Wert für die Spearman-Korrelation heraus, \(r_\text{Sp} = 0.83\)

Streudiagramme

Streudiagramme (oft auch Scatterplots genannt) sind gleichzeitig eine der einfachsten und informativsten grafischen Darstellungen von Daten. Sie sind hauptsächlich für die gleichzeitige Darstellung von zwei Variablen geeignet.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Ein Beispiel ist der folgende Datensatz, in dem bei einer Reihe von Autos Vollbremsungen durchgeführt wurden, und die Ausgangsgeschwindigkeit (\(x\)-Achse) und der resultierende Bremsweg (\(y\)-Achse) gemessen wurde:

zweivariablen-streudiagramm-bspDurch die Darstellung der Daten fallen hier direkt drei Dinge auf:

  1. Es wurden keine Autos gemessen, deren Geschwindigkeit zwischen 100 km/h und 130 km/h war. Das kann an der Studie liegen, oder es ist ein Fehler bei der Datenverarbeitung unterlaufen.
  2. Ein Auto hatte eine Ausgangsgeschwindigkeit von ca. 40 km/h, aber einen Bremsweg von 110 Metern. Das ist ein Ausreißer, für den nachgeforscht werden muss was da passiert ist. Hat der Fahrer geschlafen, oder vielleicht der, der die Messungen in den Computer eingegeben hat, einen Fehler gemacht?
  3. Der Zusammenhang wird hier besser durch eine Parabel als durch eine Gerade modelliert. Das macht Sinn, denn wenn man sich an die Fahrschule erinnert, ist der Bremsweg quadratisch abhängig von der Geschwindigkeit.

Eine grafische Darstellung und Exploration eines Datensatzes ist also immer ein sinnvoller erster Schritt, noch vor irgendwelchen statistischen Modellierungen.

Streudiagramme für drei Variablen sind möglich, aber meistens unübersichtlich. Als Beispiel wird hier ein Datensatz von verschiedenen Autos visualisiert, in dem drei Variablen (Gewicht, Hubraum, und Benzinverbrauch) dargestellt werden:

zweivariablen-streudiagramme-3dWie gesagt, 3d-Streudiagramme sind nicht zu empfehlen, und wären auf dem Papier auch nur schwer zu zeichnen.

Zeichnen eines Streudiagramms

Um ein Streudiagramm zu zeichnen, benötigt man eine Reihe von gepaarten Messungen \(x_i\) und \(y_i\). Das können z.B. zwei Spalten, also zwei Variablen aus einem Datensatz sein, oder einfach die beiden gemessenen Merkmale in irgend einer Liste.

Als beispielhafte Daten schauen wir uns die Messungen \(x_i\) = Alter eines Kindes und \(y_i\) = Schugröße eines Kindes an. Wir bekommen die folgende Tabelle:

Kind \(i\) Alter \(x_i\) Schuhgröße \(y_i\)
1 3 22
2 5 26
3 3 23
4 6 25

Das erste Kind erhält nun einen Punkt der auf der \(x\)-Achse den Wert 3 hat, und auf der \(y\)-Achse den Wert 22. Genauso wird mit den übrigen drei Kindern verfahren. Das Streudiagramm für die 4 Kinder sieht wie folgt aus:

zweivariablen-streudiagramme-2d

Vorgehen bei Hypothesentests

Das generelle Vorgehen bei einem Hypothesentest ist für alle Varianten gleich:

  1. Man stellt seine Hypothesen (Null- und Alternativhypothese) auf
  2. Man sucht den für seine Fragestellung passenden Test aus
  3. Man legt das Signifikanzniveau \(\alpha\) fest
  4. Man sammelt seine Daten
  5. Man berechnet mit diesen Daten eine zusammenfassende Kennzahl, die Prüfgröße (oder Teststatistik)
  6. Man bestimmt die Verteilung dieser Prüfgröße
  7. Man berechnet entweder den kritischen Bereich oder den p-Wert
  8. Man prüft anhand des Ergebnisses aus Schritt 6., ob man die Nullhypothese ablehnt oder beibehält.
Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Einführend wurden diese acht Schritte schon im Artikel „Was sind Hypothesentests?“ erwähnt. Hier werden diese Schritte nochmal etwas detaillierter beschrieben:

1. Hypothesen aufstellen

Zuallererst formuliert man seine Fragestellung, und bringt sie in die Form von zwei Hypothesen. Hier ist wichtig, dass man die Nullhypothese \(H_0\) widerlegen möchte, und nachweisen möchte dass stattdessen die Alternativhypothese, \(H_1\), gilt. Deswegen müssen sich \(H_0\) und \(H_1\) auch widersprechen. Im einführenden Artikel hatten wir schon das Beispiel mit den Maßkrügen. Dort wollten wir nachweisen, dass auf dem Oktoberfest im Durchschnitt zuwenig Bier in die Maßkrüge gefüllt wird. Unsere Hypothesen werden also wie folgt formuliert:

  • \(H_0\): Der durchschnittliche Inhalt eines Maßkruges ist gleich (oder größer) als ein Liter
  • \(H_1\): Der durchschnittliche Inhalt eines Maßkruges ist kleiner als ein Liter

Wichtig, wie gesagt, dass unsere Behauptung die wir nachweisen möchten, in der Alternative \(H_1\) formuliert ist. Der Artikel „Was kommt in \(H_0\) und was in \(H_1\)?“ gibt hier genauer Hilfe.

Stellen wir nun den durchschnittlichen Inhalt eines Maßkruges durch \(\mu\) dar, können wir die Hypothesen kürzer und mathematisch eindeutiger formulieren:

  • \(H_0: \; \mu \geq 1 \text{Ltr.}\)
  • \(H_1: \; \mu < 1 \text{Ltr.}\)

Einseitige und zweiseitige Tests

Es gibt drei mögliche Arten, ein Hypothesenpaar aufzustellen. Sie werden unterteilt in einseitige und in zweiseitige Tests, je nachdem in welche Richtung die Alternativhypothese zielt:

Einen einseitigen Test haben wir gerade eben im Beispiel oben schon gesehen: Wir möchten herausfinden, ob der durchschnittliche Inhalt in einem Maßkrug kleiner ist als ein Liter. Die Alternativhypothese geht also nur auf eine Seite, nämlich in die Richtung „kleiner als ein Liter“. Allgemein sieht das Hypothesenpaar wie folgt aus:

  • \(H_0: \; \mu \geq a\)
  • \(H_1: \; \mu < a\)

Genauso gibt es einseitige Tests in die andere Richtung. Dann lautet die Alternativhypothese, dass der Parameter größer ist als irgendein zuvor festgelegter Wert. Möchte man z.B. Alarm schlagen, wenn die Durchschnittstemperatur irgendwann größer ist als ein bestimmter Wert, dann würde man solch einen Test brauchen. Die Hypothesen lauten dann:

  • \(H_0: \; \mu \leq a\)
  • \(H_1: \; \mu > a\)

Bei einem zweiseitigen Test möchte man nur herausfinden ob ein Parameter anders ist als ein vorher festgelegter Wert – egal ob er nun kleiner oder größer ist. Ein Beispiel wäre ein Test einer Nahrungsmittelfabrik, ob das Füllgewicht in einer Packung konstant den vorgegebenen Wert hält. Man braucht einen Alarm wenn das Gewicht abweicht, egal ob nach oben oder nach unten. Die Hypothesen lauten dann allgemein:

  • \(H_0: \; \mu = a\)
  • \(H_1: \; \mu \neq a\)

Zwischenaufgabe

Man möchte durch einen Test nachweisen, dass Berufseinsteiger mit Masterabschluss im Durchschnitt mehr verdienen als Berufseinsteiger mit einem Bachelorabschluss. Dazu befragt man 100 Berufseinsteiger nach ihrem Abschluss und Einstiegsgehalt.

Wie lautet die Null- bzw. Alternativhypothese in diesem Fall?

Lösung (klick)

Da wir nachweisen wollen, dass Berufseinsteiger mit Masterabschluss ein höheres Einstiegsgehalt haben, muss diese Behauptung in die Alternativhypothese.

\(H_0\): Bachelor- und Masterabsolventen bekommen das gleiche Einstiegsgehalt.

Die Nullhypothese ist das genaue Gegenteil davon. Solange wir keinen Unterschied im Einkommen nachweisen, müssen wir annehmen, dass beide Gruppen dasselbe verdienen:

\(H_1\): Masterabsolventen bekommen ein höheres Einstiegsgehalt als Bachelorabsolventen.

Wenn wir das durchschnittliche Einstiegsgehalt von Bachelorabsolventen mit \(\mu_B\), und das von Masterabsolventen mit \(\mu_M\) bezeichnen, können wir die Hypothesen kürzer formulieren:

\[ H_0: \; \mu_M \leq \mu_B \\ H_1: \; \mu_M > \mu_B \]

2. Test wählen

Um zu entscheiden, welcher Test der passende ist, muss man erst die Null- und Alternativhypothese aufstellen, und das Skalenniveau aller vorkommenden Variablen (Zielgröße, und evtl. Einflussgröße(n)) festlegen. Die Testwahl ist dann z.B. über eine Tabelle möglich, wie ich sie in einem Artikel hier zeige. Im Beispiel mit dem Maßkrug oben haben wir eine normalverteilte Zielgröße, und keine Einflussgröße – laut Tabelle passt hier also der Einstichproben-t-Test.

Nachdem man den passenden Test gewählt hat, ergibt sich später auch automatisch, welche Prüfgröße man berechnen muss, und welche Verteilung sie hat.

3. Signifikanzniveau festlegen

Eine Hypothese kann nie mit absoluter Sicherheit bestätigt bzw. widerlegt werden, sondern immer nur mit einer gewissen Wahrscheinlichkeit. Es kann also immer passieren, dass wir durch Zufall in unserer Stichprobe viele Maßkrüge mit wenig Bier erhalten, und einen Mittelwert von zum Beispiel \(\bar{x}=940\text{ml}\) berechnen. Wir würden also fälschlicherweise „nachweisen“, dass im Mittel zuwenig Bier in die Krüge gefüllt wird, obwohl der echte durchschnittliche Inhalt tatsächlich ein Liter ist.

In statistischer Sprache formuliert heißt das: Wir würden also die Nullhypothese ablehnen, obwohl sie in der Realität wahr ist.

Man muss sich vor Durchführung des Tests auf ein Signifikanzniveau, genannt \(\alpha\), festlegen, das die maximale Wahrscheinlichkeit festlegt, mit der uns so ein Fehler passieren darf. Je sicherer wir mit unserer Entscheidung sein wollen, desto niedriger muss diese Fehlerwahrscheinlichkeit gewählt werden. In den allermeisten Fällen, sowohl in der Praxis als auch in Klausuren, ist dieser Wert festgelegt als \(\alpha = 5\%\).

\(\alpha\)- und \(\beta\)-Fehler

Neben dem Fehler, \(H_0\) abzulehnen obwohl sie wahr ist, gibt es eine weitere Fehlentscheidung, die beim Testen passieren kann: Falls tatsächlich im Mittel zuwenig Bier abgefüllt wird, und unser Test dies nicht nachweisen kann. Dann behalten wir die Nullhypothese (genug Bier) bei, obwohl in Wirklichkeit die Alternativhypothese (zuwenig Bier) wahr ist.

Insgesamt können bei einem Test vier Fälle auftreten:

  1. Wir lehnen \(H_0\) ab, also nehmen \(H_1\) an.
    1. In Wirklichkeit stimmt \(H_0\): Hier lehnen wir \(H_0\) fälschlicherweise ab. Das ist der \(\alpha\)-Fehler, auch Fehler 1. Art genannt. Dieser Fall tritt genau mit einer Wahrscheinlichkeit von \(\alpha\) auf – weil ein Test genau so konstruiert ist. Das Niveau \(\alpha\) regelt also, wie sicher man sich sein kann dass \(H_1\) tatsächlich wahr ist, gegeben man lehnt \(H_0\) auch ab.
    2. In Wirklichkeit stimmt \(H_1\): Alles in Ordnung. \(H_1\) stimmt, und wir nehmen \(H_1\) an.
  2. Wir behalten \(H_0\) bei.
    1. In Wirklichkeit stimmt \(H_0\): Alles in Ordnung. \(H_0\) stimmt, und wir glauben nicht an \(H_1\).
    2. In Wirklichkeit stimmt \(H_1\): In diesem Fall ist unsere Vermutung wahr (d.h. \(H_1\), die wir ja nachweisen möchten, stimmt), aber durch den Test konnte sie nicht bestätigt werden, da wir \(H_0\) beibehalten. Dies ist der sogenannte \(\beta\)-Fehler, auch Fehler 2. Art genannt. Diese Wahrscheinlichkeit können wir nicht kontrollieren, sie ist abhängig von der Art des Tests und des Signifikanzniveaus \(\alpha\).

4. Daten sammeln

Als nächstes erhebt man Daten. Das muss man in einer Klausur natürlich nicht machen, aber in realen Situationen ist die Datenerhebung meist der zeitaufwändigste Schritt.

In unserem Beispiel würden wir aufs Oktoberfest gehen, z.B. zehn Maß Bier bestellen, und deren Inhalt abmessen. Die Ergebnisse könnten so aussehen:

Krug \(x_i\) 1 2 3 4 5 6 7 8 9 10
Inhalt 968ml 1001ml 987ml 995ml 1010ml 983ml 994ml 962ml 979ml 965ml

5. Prüfgröße berechnen

Nun werden die Daten ausgewertet, und zwar unter der Annahme, dass \(H_0\) gilt, also alles in Ordnung ist, d.h. der durchnittliche Inhalt eines Maßkrugs tatsächlich ein Liter ist.

Um später eine Testentscheidung treffen zu können, muss man aus den Daten eine Kennzahl berechnen, deren Verteilung man kennt (und die in Klausuren meist als Verteilungstabelle in einer Formelsammlung angehängt ist).

Der Test in unserem Fall funktioniert von der Idee her wie folgt: Wir berechnen den durchschnittlichen Inhalt der erhobenen (hihi) Maßkrüge. Dieser ist bei uns \(\bar{x} = 984.4\text{ml}\).

Die Frage, die der Test beantwortet, ist nun: „Angenommen der wahre Durchschnittsinhalt liegt bei 1000ml, ist dieses Ergebnis von 984.4ml noch plausibel genug, dass es durch Zufallsschwankung entstanden sein kann, oder ist es so unplausibel, dass der wahre Mittelwert nicht bei 1000ml, sondern niedriger liegt?“

Wir könnten jetzt natürlich subjektiv sein und sagen: „984ml ist schon niedrig – da ist der Mittelwert bestimmt nicht bei 1000ml.“ Aber das ist keine klare Entscheidungsregel. Was würden wir bei einem Mittelwert von 985ml sagen? Bei 990ml? Bei 995ml?

Der Test verpackt diese Frage nun in eine mathematische Formel und eine Entscheidungsregel. Es wird dazu eine Prüfgröße (oder Teststatistik) berechnet, die in diesem Fall eine standardisierte Version des Mittelwerts \(\bar{x}\) ist:

\[ T = \sqrt{n} \frac{\bar{x} – \mu_0}{s} \]

Die ganzen Standardisierungen in dieser Formel sind dazu da, dass dem Test egal ist,

  • wie groß die Stichprobe ist (da mit \(\sqrt{n}\) multipliziert wird),
  • welchen Mittelwert wir als Nullhypothese festgelegt haben (da die 1000ml, also \(\mu_0\), wieder abgezogen werden),
  • welche Streuung die Daten aufweisen (da wir durch die Standardabweichung der Stichprobe, \(s\) teilen).

In unserem Beispiel bestimmen wir \(\bar{x} = 984.4\text{ml}\) und \(s= 16.057\). Den Wert \(\mu_0=1000\) nehmen wir aus der Nullhypothese. Unsere Prüfgröße \(Z\) ist somit

\[ T = \sqrt{n} \frac{\bar{x} – \mu_0}{s} = \sqrt{10} \frac{984.4 – 1000}{16.057} = -3.072\]

6. Verteilung der Prüfgröße bestimmen

Um bestimmen zu können, welche Werte für die Prüfgröße „normal“, also noch akzeptabel sind, muss man wissen, welche Verteilung diese Prüfgröße hat. Die Prüfgröße bei einem Binomialtest hat z.B. die Verteilung \(B(n,p)\), also eine Binomialverteilung mit n = „Anzahl der Beobachtungen“ und p = „Wahrscheinlichkeit in der Nullhypothese“. Bei einem t-Test hat die Prüfgröße dann eine \(t(n-1)\)-Verteilung, d.h. eine t-Verteilung mit \(n-1\) Freiheitsgraden.

Ein Test ist meistens so konzipiert, dass die Verteilung „einfach ist“, z.B. eine Normalverteilung mit Mittelwert 0 und Standardabweichung 1. Der Grund dafür ist, dass es dann reicht, in Büchern, Klausuren usw. nur eine Tabelle für die Normalverteilung abzubilden, nämlich die mit Mittelwert 0 und Standardabweichung 1.

Und diese Tatsache ist übrigens auch der Grund dafür, warum wir die Prüfgröße etwas umständlicher berechnen. Wir könnten als Prüfgröße ja einfach den Mittelwert der Daten nehmen. Stattdessen standardisieren wir ihn, indem wir \(\mu_0\) abziehen und durch \(s\) teilen. Der Vorteil dieser Variante ist nun, wie gerade beschrieben, dass die Prüfgröße in eine Verteilung „gezwängt“ wird, für die wir eine Tabelle vorhanden haben.

7. Test abschließen: Zwei Möglichkeiten

Nun gibt es zwei Möglichkeiten, die Frage zu beantworten, ob unser Mittelwert noch plausibel ist oder nicht:

Test abschließen: Über den kritischen Bereich (meist mit Hilfe einer Verteilungstabelle in Klausuren)

Bei der ersten Möglichkeit, die Testentscheidung zu treffen, bestimmen wir einen kritischen Bereich. Wenn unsere Prüfgröße dann nicht in diesem kritischen Bereich liegt, nehmen wir die Maßkrüge als korrekt befüllt an. Wenn die Prüfgröße aber in dem kritischen Bereich liegt, haben wir einen Nachweis dafür, dass in Wirklichkeit weniger als 1000ml in einen Maßkrug gefüllt werden.

Der kritische Bereich ist ein fester Bereich für eine bestimmte Testart, der, im Falle dass \(H_0\) gilt, von der Prüfgröße nur sehr selten (nämlich mit einer Wahrscheinlichkeit von \(\alpha\)) erreicht wird. Falls die Prüfgröße nun doch in diesem kritischen Bereich liegt, haben wir einen starken Grund, eher an \(H_1\) zu glauben.

Bei einem einseitigen Test liegt dieser Bereich nur auf einer Seite, es gibt eine Schranke, und je nach Testrichtung wird geschaut, ob die Prüfgröße über oder unter dieser Schranke liegt. Bei einem zweiseitigen Test besteht der kritische Bereich aus zwei Gebieten, es gibt also zwei Schranken, je eine links und rechts, und es wird geschaut, ob die Prüfgröße innerhalb der zwei Schranken liegt, oder (in irgendeine Richtung) außerhalb.

Man kann die kritische Schranke recht problemlos an einer Verteilungstabelle ablesen. So hat man das früher, vor dem Computerzeitalter gemacht, und so macht man es in Klausuren auch immernoch. In der Praxis ist es aber inzwischen verbreiteter, mit p-Werten zu arbeiten:

Test abschließen: Über den p-Wert (meist in Statistikprogrammen)

Alternativ können wir aus der Prüfgröße auch einen p-Wert berechnen. Dieser Wert sagt uns, wie wahrscheinlich es ist, unter Annahme einer korrekten Befüllung von durchschnittlich 1000ml eine so extreme Abweichung vom Mittelwert \(\mu_0=1000\text{ml}\) zu erhalten.

Wenn diese Wahrscheinlichkeit nun sehr gering ist (genauer: Wenn sie unter dem festgelegten Signifikanzniveau \(\alpha\) liegt), hat man wieder einen Nachweis dafür, dass in Wirklichkeit weniger als 1000ml in einen Maßkrug gefüllt werden. Liegt der p-Wert aber darüber, konnte man das nicht nachweisen und behält die Nullhypothese bei.

8. Testentscheidung treffen

Nun hat man alle Werte berechnet, um seine Testentscheidung treffen zu können. Falls man sich in Schritt 7. für den kritischen Bereich entschieden hat, betrachten wir zwei Werte: die Prüfgröße und den kritischen Bereich. Man sieht einfach nach, ob die Prüfgröße innerhalb oder außerhalb dieses Bereichs liegt. Liegt sie außerhalb, dann ist „alles in Ordnung“, also behalten wir die Nullhypothese, aber liegt sie innerhalb des kritischen Bereichs, dann haben wir genug Hinweise dafür gefunden, um die Alternativhypothese annehmen zu können.

Wenn man sich in Schritt 6. für den p-Wert entschieden hat, ist der letzte Schritt etwas einfacher: Man betrachtet zwei andere Werte: den p-Wert sowie das Signifikanzniveau \(\alpha\). Liegt der p-Wert über dem Signifikanzniveau \(\alpha\), behalten wir die Nullhypothese, aber falls der p-Wert kleiner ist als \(\alpha\), haben wir genug Hinweise dafür gefunden, um die Alternativhypothese annehmen zu können.

Binomialverteilung

Idee

Die Binomialverteilung entsteht, wenn man ein Bernoulli-Experiment mehrere Male wiederholt, und an der gesamten Anzahl der Erfolge interessiert ist.

Im vorherigen Artikel zur Bernoulliverteilung haben wir ein Beispiel betrachtet, in dem wir auf einem Schießstand am Jahrmarkt einen einmaligen Schuß mit einer Trefferwahrscheinlichkeit von \(p=0.2\) abgeben. Wenn wir nun sechs Schüsse kaufen, folgt die Gesamtzahl der Treffer einer Binomialverteilung mit \(n=6\) und \(p=0.2\), oder:
\[ X \sim B(6, 0.2) \]

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Träger

Bei sechs Schüssen auf dem Schießstand können wir zwischen 0 und 6 jede Trefferzahl haben. Man darf hier die Null nicht vergessen, das kann leicht vorkommen. Es ist nämlich durchaus möglich, gar keine Treffer zu landen. Der Träger im allgemeinen Fall sind alle Ganzzahlen von \(0\) bis \(n\), also
\[ \mathcal{T} = \{0, 1, \ldots, n\} \]

Dichte

Die Dichte der Binomialverteilung mit den Parametern \(n\) und \(p\) lautet
\[ f(x) = {n \choose x} p^x (1-p)^{n-x} \]

Erinnert euch, dass für diskrete Zufallsvariablen die Bezeichnungen \(f(x)\) und \(\mathbb{P}(X=x)\) dasselbe bedeuten. Die Wahrscheinlichkeit für drei Treffer ist also \(\mathbb{P}(X=3)\), oder kurz \(f(3)\).

Der Wert \({n \choose k}\) ist dabei der Binomialkoeffizient, der im Artikel Mathematische Symbole erklärt wird, und auch in der Kombinatorik angewendet wird.

Wenn man versteht, wie diese Formel zustandekommt, kann man sie sich sogar selbst herleiten, und muss nicht in einer Formelsammlung nachsehen (wenn nicht, ist das aber auch nicht so schlimm).

verteilungen-binomialverteilung-dichte

Die Dichte der Binomialverteilung mit n=6 und p=0.2. Man sieht, dass man mit hoher Wahrscheinlichkeit zwischen 0 und 3 Treffer erhalten wird. 5 oder 6 Treffer zu bekommen, ist sehr unwahrscheinlich.

Am Beispiel des Schießstandes: Die Wahrscheinlichkeit, dass wir zwei Treffer erhalten werden, ist laut Formel \(f(2) = {6 \choose 2} (0.2)^2 (0.8)^4\). Interpretiert wird das so:

Die Wahrscheinlichkeit für einen Treffer (kurz: „T“) ist 0.2, die für eine Niete (kurz: „N“) ist 0.8. Wenn wir nun die Wahrscheinlichkeit für die Ergebnisfolge „TTNNNN“ ausrechnen, multiplizieren wir die Wahrscheinlichkeiten, und landen bei \(0.2^2 \cdot 0.8^4\). Dies ist aber nur eine von vielen Möglichkeiten, zwei Treffer zu erhalten. Zum Beispiel liefern die Schussfolgen „TNNNNT“, oder „TNTNNN“ dasselbe Ergebnis, und haben alle dieselbe Wahrscheinlichkeit: \(0.2^2 \cdot 0.8^4\).

Wieviele solcher Folgen mit zwei Treffern aus sechs Schüssen gibt es nun? Es sind genau \({6 \choose 2} = 15\), wie im Artikel Kombinationen erklärt wird.

So erklärt man sich also nacheinander die drei Faktoren der Formel, zuerst \(p^x\) (die Wahrscheinlichkeit für einen Treffer, potenziert mit der Anzahl an Treffern), dann \((1-p)^{n-x}\) (die Wahrscheinlichkeit für eine Niete, potenziert mit der Anzahl an Nieten), und dann \(n \choose k\)

Zwischenaufgabe

Berechne für das Beispiel Schießstand die Wahrscheinlichkeit, gar keinen Treffer zu erhalten, und überprüfe anhand der Abbildung oben, ob das Ergebnis plausibel ist.

Lösung (klick)

\(\mathbb{P}(X=0) = {6 \choose 0} 0.2^0 0.8^6 = 0.2621\)

Verteilungsfunktion

Für die Verteilungsfunktion gibt es hier keine einfache Formel. In manchen Büchern (oder Klausuren) gibt es eine Verteilungstabelle zum einfachen Ablesen. In allen anderen Fällen muss man die einzelnen Wahrscheinlichkeiten also von Hand summieren. Das heisst, wenn man die Wahrscheinlichkeit für höchstens zwei Treffer berechnen möchte, also \(\mathbb{P}(X \leq 2)\), rechnet man sich die Wahrscheinlichkeit für null Treffer, einen Treffer, und zwei Treffer aus, und summiert sie:

\[ \begin{align*} \mathbb{P}(X \leq 2) &= \sum_{x=0}^2 \mathbb{P}(X = x) \\ &= \mathbb{P}(X = 0) + \mathbb{P}(X = 1) + \mathbb{P}(X = 2) \end{align*} \]

verteilungen-binomialverteilung-verteilungsfunktion

Anhand der Verteilungsfunktion kann man auch ablesen, dass die Wahrscheinlichkeit, höchstens 4 Treffer zu erhalten, schon nahezu 1 ist.

Zwischenaufgabe

Berechne die Wahrscheinlichkeit für höchstens fünf Treffer, d.h. \(\mathbb{P}(X \leq 5)\).

Lösung (klick)

\(\sum_{i=0}^5\mathbb{P}(X=i) = 0.2621 + 0.3932 + 0.2458 + 0.0819 + 0.0154 + 0.0015 = 0.9999 \)

Das war ziemlich aufwändig, oder? Bei der Binomialverteilung gibt es einen Trick, der die Berechnung der Verteilungsfunktion oft schneller machen kann. Solche Aufgaben kommen oft in Klausuren vor, so dass man diesen Trick am besten verinnerlicht:

Statt alle Wahrscheinlichkeiten von \(x=0\) bis \(x=5\) aufzusummieren, kann man äquivalent die Wahrscheinlichkeiten aller „Gegenereignisse“, also in diesem Fall \(f(6)\), von 1 abziehen, und man erhält dieselbe Zahl. Denn wenn die Wahrscheinlichkeit für höchstens fünf Treffer 0.9999 ist, dann ist die Wahrscheinlichkeit für mehr als fünf (also 6) Treffer genau die Gegenwahrscheinlichkeit, d.h. 1-0.9999 = 0.0001.

Ein weiteres Beispiel (und wer das nachvollziehen kann, hat die Idee vollständig kapiert):

Uns interessiert nun die Wahrscheinlichkeit, zwischen einem und fünf Treffern (inklusive der eins und der fünf) zu erhalten. Die folgenden drei Formulierungen entsprechen den jeweiligen Formeln, und alle drei Formeln drücken genau dasselbe aus:

\(\mathbb{P}(1 \leq X \leq 5)\)
Die Wahrscheinlichkeit, eine Trefferzahl zwischen (inklusive) 1 und 5 zu erhalten
\(\mathbb{P}(X=1) + \mathbb{P}(X=2) + \mathbb{P}(X=3) + \mathbb{P}(X=4) + \mathbb{P}(X=5)\)
Die Wahrscheinlichkeit für einen, zwei, drei, vier, oder fünf Treffer
\(1 – \mathbb{P}(X=0) – \mathbb{P}(X=6)\)
Die Wahrscheinlichkeit, alles außer 0 und 6 Treffer zu erhalten

Ausrechnen kann man diesen Wert nun über die zweite oder dritte Formel dieser Liste. Es kommt natürlich dieselbe Zahl raus, wobei der letztere Weg der schnellere ist. Wichtig ist hier aber, dass man die Wahrscheinlichkeit für null Treffer, also \(f(0)\), nicht vergisst. Das passiert im Eifer des Gefechts nämlich gerne.

Erwartungswert

Der Erwartungswert der Binomialverteilung ist einfach:
\[ \mathbb{E}(X) = n \cdot p \]

Da der Erwartungswert für ein einzelnes Experiment \(p\) ist (siehe Bernoulliverteilung), erwartet man bei \(n\) Wiederholungen genau die \(n\)-fache Anzahl, also \(n\cdot p\) Treffer.

Varianz

Die Varianz der Binomialverteilung ist
\[ \mathbb{V}(X) = n \cdot p \cdot (1-p). \] Die Herleitung ist etwas aufwändiger, weshalb wir sie uns hier ersparen.

Korrelation und Kausalität

Zwischen einem reinem Zusammenhang, d.h. einer Korrelation zwischen zwei Variablen, und einer tatsächlichen Auswirkung von einer auf die andere Variable, d.h. einer Kausalität, besteht noch ein großer Unterschied, der in diesem Artikel behandelt wird.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Sehen wir uns eine Grafik dazu an. Wir befragen \(n=30\) Personen zu ihrer Schuhgröße und ihrem monatlichem Einkommen.

zweivariablen-kausalitaet

Die Korrelation beträgt hier \(r=0.709\).

Wir sehen einen Zusammenhang zwischen den beiden Variablen, der auch tatsächlich vorhanden ist, und durch den Korrelationskoeffizienten \(r\) berechnet werden kann. Es wäre jetzt aber falsch, deswegen auch auf eine Auswirkung von einer der beiden Variablen auf die andere zu schließen.

Einen Korrelation (oder einen Zusammenhang) formuliert man so: „Menschen mit größerer Schuhgröße haben tendenziell ein höheres Einkommen“.

Eine Kausalität würde aber so formuliert werden: „Die Schuhgröße hat einen Einfluss auf das Nettoeinkommen“.

Wenn der zweite Satz stimmen würde, dann könnte man sich morgen Schuhe der Größe 65 kaufen, und bekäme deswegen eine saftige Gehaltserhöhung. Das macht natürlich keinen Sinn. Auch umgekehrt wäre eine Kausalität sinnlos, denn dann hätte das Einkommen eine Auswirkung auf die Schuhgröße. Wenn ich also eine Gehaltserhöhung bekäme, würden deswegen meine Füße wachsen.

Eine Korrelation zwischen zwei Merkmalen \(X\) und \(Y\) bedeutet also noch nicht, dass \(Y\) ein Verursacher von \(X\) ist (oder \(X\) ein Verursacher von \(Y\)). Dieses Phänomen nennt man Scheinkorrelation.

Viele, teils richtig absurde Korrelationen gibt es auf der Webseite „Spurious Correlations“.

Was allerdings hier wahr ist: Wenn man zwei Menschen mit unbekanntem Einkommen auf einem Blatt Papier stehen hat, und einer eine viel größere Schuhgröße hat, erwarten wir von dieser Person ein höheres Einkommen als von der anderen.

Mediator-/Confoundervariablen

Wer aufgepasst hat, weiss vielleicht schon, was hier vor sich geht: Wir haben eine wichtige Variable, nämlich das Geschlecht der Personen nicht beachtet. Es ist nun so, dass Frauen im Durchschnitt 22% weniger verdienen als Männer. Das hat ein paar erklärbare Gründe, wie z.B. die Tendenz, dass Frauen häufiger Teilzeitjobs oder schlechter bezahlte Berufe annehmen, und ihnen eine steile Karriere nicht so wichtig ist wie z.B. geistige Gesundheit. Aber der Effekt auf das Einkommen ist trotzdem da. Wenn wir unsere befragten Personen nun nach Geschlecht auftrennen, erkennen wir zwei Gruppen, nämlich eine mit großen Füßen und eine mit kleinen Füßen, in denen jeweils keine Korrelation besteht:

zweivariablen-kausalitaet-getrennt

Die zu Beginn ignorierte Variable „Geschlecht“ ist hier eine Mediator- oder Confoundervariable (die Worte bedeuten das gleiche, aber in gewissen Fachbereichen benutzt man eines lieber als das andere).

Beispiel aus der Realität

Das klingt nun vielleicht alles etwas realitätsfern, weil mein Beispiel sehr offensichtlich unklug war. Solche Sachen passieren allerdings in der Realität, und auch unter Experten:

Im New England Journal of Medicine, einer hoch angesehenen wissenschaftlichen Zeitschrift, wurde 2012 ein Artikel veröffentlicht, der genau diesen Fehler machte. Sie fanden eine Korrelation zwischen Schokoladenkonsum und Anzahl an Nobelpreisträgern in einem Land, und schlossen auf einen Einfluss von Schokolade auf Intelligenz.

Quelle: Messerli, Franz H. (2012). Chocolate Consumption, Cognitive Function, and Nobel Laureates. New England Journal of Medicine, 367:16, 1562-1564.

Quelle: Messerli, Franz H. (2012). Chocolate Consumption, Cognitive Function, and Nobel Laureates. New England Journal of Medicine, 367:16, 1562-1564.

Ein Blogartikel, der dieses Beispiel (auf Englisch) ausführlich behandelt, und sich am Ende sogar darüber lustig macht, ist hier zu finden.

Kausalität nachweisen

Wie man sieht, gibt es mehrere mögliche Erklärungen für eine Korrelation zwischen zwei Variablen \(X\) und \(Y\). Es könnte z.B. \(X\) eine Auswirkung auf \(Y\) haben, oder umgekehrt \(Y\) eine Auswirkung auf \(X\), oder aber wie im Beispiel oben eine Mediatorvariable im Spiel sein, die beide Variablen, \(X\) sowie \(Y\) beeinflusst.

Nachweisen kann man eine Kausalität nur durch ein Experiment. Hier müssten wir zum Beispiel von 100 Personen die Schuhgrösse und das Einkommen notieren, und dann der einen Hälfte größere Schuhe geben und der anderen nicht. Wenn sich nun das Einkommen der Treatment-Gruppe, also der Personen mit größeren Schuhen, gegenüber der Kontrollgruppe erhöht, dann haben wir einen Zusammenhang nachgewiesen (das wird aber in diesem Fall eher nicht erwartet).

Bernoulliverteilung

Mit der Bernoulliverteilung kann man Experimente modellieren, die wie folgt aufgebaut sind: Es handelt sich um ein einziges Experiment mit nur zwei möglichen Resultaten, die wir als 0 (für „Mißerfolg“) und 1 (für „Erfolg“) kodieren. Ein schönes Beispiel hierfür ist der Schießstand auf einem Jahrmarkt, bei dem man auf weiße Plastiksterne schießt und nur mit einer bestimmten Wahrscheinlichkeit (sagen wir 20%) trifft.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Die Wahrscheinlichkeit, mit der bei einem Experiment der Erfolg eintritt, wird mit dem Parameter \(p\) bezeichnet. Die mathematische Schreibweise für eine bernoulliverteilte Zufallsvariable \(X\) lautet

\[ X \sim \text{Be}(p) \]

Weitere Beispiele für bernoulliverteilte Zufallsvariablen sind die Roulettewette auf die Zahl 0 – hier wäre \(X \sim \text{Be}(\frac{1}{37})\) – oder der erste Spielzug im „Mensch ärgere dich nicht“, in dem man eine 6 würfeln muss, um eine Figur ins Spiel bringen zu dürfen; hier ist \(X \sim \text{Be}(\frac{1}{6})\).

Träger

Da es bei diesem Experiment nur zwei Ausgänge, nämlich „Erfolg“ (kodiert durch eine 1) und „Mißerfolg“ (kodiert durch eine 0) gibt, ist der Träger \(\mathcal{T}\) der Bernoulliverteilung die Menge \(\mathcal{T} = \{0,1\}\).

Dichte

Die Dichte besteht aus drei Teilen: Der Wahrscheinlichkeit für einen Erfolg, also \(\mathbb{P}(X=1)\) (das ist \(p\)), der Wahrscheinlichkeit für einen Mißerfolg, also \(\mathbb{P}(X=0)\) (das ist die Gegenwahrscheinlichkeit \(1-p\)), und einer 0 für alle anderen Werte von \(X\), d.h. überall anders:

\[ f(x) = \begin{cases} p, & x = 1 \\ 1-p, & x=0 \\ 0, &\text{sonst} \end{cases} \]

asdf

Die Dichte für unser Beispiel auf dem Jahrmarktschießstand. Die Wahrscheinlichkeit für eine Niete (also \(X=0\)) ist hier 80%, und die Wahrscheinlichkeit für einen Treffer, \(X=1\), ist 20%. Alle anderen Werte haben den Wert 0. Die Wahrscheinlichkeit, mit einem Schuss zum Beispiel 0.5 oder 3 Treffer zu erhalten, ist natürlich 0.

Verteilungsfunktion

Die Verteilungsfunktion ist \(F(x) = \mathbb{P}(X \leq x)\). In Worten heißt das: Die Wahrscheinlichkeit, dass das Ergebnis des Experiments kleiner oder gleich dem Wert \(x\) ist. Sie ist definiert in drei Abschnitten:

\[ F(x) = \begin{cases} 0, & x < 0 \\ 1-p, & x>=0 \, \text{und} \, x<1 \\ 1, & x \geq 1 \end{cases} \]

Der oberste Abschnitt beschreibt die erste Stufe: Unsere Variable \(X\) kann ja nur die Werte 0 oder 1 annehmen. Die Wahrscheinlichkeit, dass also eine Zahl kleiner als 0 herauskommt, ist natürlich 0. (Ebenso ist die Wahrscheinlichkeit, dass eine Zahl kleiner als z.B. -0.5 rauskommt, also \(F(-0.5)\), auch 0.

Die zweite Stufe ist der Bereich zwischen 0 und 1. Dort ist die Wahrscheinlichkeit, dass \(X \leq x\) ist, genau \(1-p\), und zwar aus dem Grund, dass nur die 0 (also ein Mißerfolg, oder auf unserem Schießstand „kein Treffer“) als mögliches Ergebnis kleiner oder gleich diesen Werten vorkommt – und der Mißerfolg hat die Wahrscheinlichkeit \(1-p\).

Die dritte Stufe ist alles über \(x=1\). Da nur die Ergebnisse 0 oder 1 rauskommen können, ist z.B. die Wahrscheinlichkeit dass \(X \leq 5\) ist, gleich 1. Die Funktion \(F(x)\) geht also ins Unendliche konstant mit dem Wert 1 weiter.

asd

Die Verteilungsfunktion für das Beispiel des Jahrmarktschießstands ist eine Treppenfunktion. Hier liest man z.B. ab, dass \(\mathbb{P}(X \leq 0) = 0.8\) ist, und ebenso, dass \(\mathbb{P}(X \leq 0.5) = 0.8\) ist.

Erwartungswert

Der Erwartungswert der Bernoulliverteilung ist einfach: \(\mathbb{E}(X) = p\).

Das kann man sich über die Formel, die den Erwartungswert definiert, sofort herleiten:

\[ \mathbb{E}(X) = \sum_{i=1}^n x_i f(x_i) = 0 \cdot (1-p) + 1 \cdot p = p \]

Hier verwenden wir die beiden möglichen Ausprägungen \(x_1=0\) und \(x_2 = 1\), sowie deren Wahrscheinlichkeiten \(f(x_1) = 1-p\) (für Mißerfolg) und \(f(x_2) = p\) (für Erfolg).

Varianz

Die Varianz bei der Bernoulliverteilung ist \(\mathbb{V}(X) = p(1-p)\). Sie ist mit Hilfe ihrer Definition etwas aufwändiger zu bestimmen, aber auch noch machbar:

\[ \begin{align*} \mathbb{V}(X) &= \sum_{i=1}^n (x_i – \mu)^2 f(x_i) \\&=(x_1-p)^2 \cdot (1-p) + (x_2 – p)^2 \cdot p\\&=p^2 (1-p) + (1-p)^2 p \\&=(p^2 – p^3) + (1^2-2p+p^2)\cdot p \\&=p^2 – p^3 + p – 2p^2 + p^3 \\&=p – p^2 \\&=p(1-p) \end{align*} \]

Der Wert \(\mu\) ist hierbei, wie in der Definition beschrieben, eine Kurzschreibweise für den Erwartungswert \(\mathbb{E}(X) = p\).

Diskrete Gleichverteilung

Die diskrete Gleichverteilung liegt vor, wenn eine Zufallsvariable

  • diskret ist, also das Experiment nur eine endliche Zahl an möglichen Ergebnissen hat, und
  • jedes mögliche Ergebnis mit derselben Wahrscheinlichkeit auftritt.

Zwei schöne Beispiele hierfür sind der Münzwurf mit \(n=2\) möglichen Ergebnissen, Kopf oder Zahl, wo jedes mit der gleichen Wahrscheinlichkeit, \(\frac{1}{2}\), auftritt, und das Rouletterad mit \(n=37\) möglichen Ergebnissen (der Null und die Zahlen 1 bis 36), wo jede Zahl mit der Wahrscheinlichkeit \(\frac{1}{37}\) auftritt.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Parameter

Die möglichen Ergebnisse werden bezeichnet mit den Variablen \(x_1, x_2, \ldots, x_n\). Für das Beispiel des Münzwurfs können wir also „Kopf“ mit 1 kodieren, und „Zahl“ mit 2, und erhalten die möglichen Ergebnisse \(x_1=1, x_2=2\) (wir müssen diese Ereignisse in Zahlen umwandeln, der Grund ist im Artikel Was sind Zufallsvariablen? ganz oben erklärt.). Für das Roulette-Beispiel erhalten wir \(x_1=0, x_2=1, x_3=2, \ldots, x_{37}=36\).

Wir beschränken uns hier aber auf einen Spezialfall, nämlich Zufallsexperimente, deren Ergebnis jede Ganzzahl zwischen \(a\) und \(b\) sein kann. Beim Münzwurf haben wir also eine Gleichverteilung mit den zwei Parametern \(a=1\) und \(b=2\), und beim Roulettespiel eine Gleichverteilung mit \(a=0\) und \(b=36\). Mit dieser Art der Modellierung können wir die allermeisten Situationen modellieren, bis auf manche Sonderfälle, zum Beispiel das Punkteergebnis eines Fußballspiels, in dem ein Verein entweder 0, 1, oder 3 Punkte bekommt.

Träger

Der Träger \(\mathcal{T}\) der diskreten Gleichverteilung sind die einzelnen Ausprägungen \({x_1, x_2, \ldots, x_n}\), also alle ganzen Zahlen zwischen \(a\) und \(b\). Beim Roulettespiel sind das z.B. die Zahlen \({0, 1, 2, \ldots, 36}\). Andere Ergebnisse sind in diesem Beispiel nicht möglich: Das Rouletterad kann zum Beispiel keine 52, oder keine 3,5 zeigen.

Dichte

Die Dichtefunktion muss in zwei Teile aufgeteilt werden. Beim Roulettespiel ist z.B. die Wahrscheinlichkeit, dass die 17 erscheint, \(\mathbb{P}(X=17) = \frac{1}{37}\), aber die Wahrscheinlichkeit, dass das Ergebnis 1500 ist, \(\mathbb{P}(X=1500) = 0\). Die Dichte für das Roulettespiel ist also

\[ f(x) = \begin{cases} \frac{1}{37}, & x \in \{0, 1, \ldots , 36\} \\ 0, & \text{sonst} \end{cases} \]

Im Allgemeinen haben wir \(n\) verschiedene Ergebnisse für eine Zufallsvariable, die wir mit \(x_1, x_2, \ldots, x_n\) bezeichnen (also wieder alle Zahlen von \(a\) bis \(b\), den Träger). Hier ist die Dichte dann

\[ f(x) = \begin{cases} \frac{1}{n}, & x \in \{ a, a+1, \ldots , b \} \\ 0, & \text{sonst} \end{cases} \]

Verteilungsfunktion

Die Verteilungsfunktion der diskreten Gleichverteilung lautet wie folgt:

\[ F(x) = \begin{cases} 0, & x < a \\ \frac{\lfloor x \rfloor – a + 1}{b-a+1}, & x \in [a,b]\\ 1, & x > b \end{cases}\]

„Links“ von \(a\) ist die Verteilungsfunktion also immer 0, und „rechts“ von \(b\) ist sie immer 1. Mit \(\lfloor x \rfloor\) ist hier die Abrundung von \(x\) gemeint, also ist z.B. \(\lfloor 3.4 \rfloor = 3\) und \(\lfloor 5 \rfloor = 5\).

Möchten wir für das Roulettespiel z.B. bestimmen, mit welcher Wahrscheinlichkeit eine Zahl kleiner oder gleich 3.5 kommt, bestimmen wir:

\[ F(3.5) = \frac{\lfloor 3.5 \rfloor – 0 + 1}{36 – 0 + 1} = \frac{4}{37} \]

Versuche, mit dieser Definition für das Beispiel Würfelwurf zu bestimmen:

  • \(F(4)\), also die Wahrscheinlichkeit, mit der wir eine Augenzahl würfeln, die kleiner oder gleich 4 ist.
  • \(F(4.8)\)
  • \(F(0)\)
  • \(F(1500)\)

Erwartungswert

Der Erwartungswert ist bei der diskreten Gleichverteilung einfach der Mittelwert von \(a\) und \(b\):

\[ \mathbb{E}(X) = \frac{a+b}{2} \]

Varianz

Die Varianz dieser Verteilung lautet:

\[ \mathbb{V}(X) = \frac{(b-a+1)^2 – 1}{12} \]

 

Beispielaufgabe

Schauen wir uns die Zufallsvariable „\(X\) = ein Würfelwurf“ an, und bestimmen für sie

  • Träger
  • Dichte
  • Verteilungsfunktion
  • Erwartungswert
  • Varianz

Träger

Die Zufallsvariable \(X\) kann nur die Werte 1, 2, 3, 4, 5, oder 6 annehmen. Also ist der Träger \(\{ 1, 2, 3, 4, 5, 6 \}\).

Dichte

Die Dichte ist, wenn wir die obige Definition anwenden, einfach bestimmt:

\[ f(x) = \begin{cases} \frac{1}{6}, & x \in \{ 1, 2, 3, 4, 5, 6 \} \\ 0, & \text{sonst} \end{cases} \]

verteilungen-diskrete-gleichverteilung-dichte

Dichte der diskreten Gleichverteilung beim Experiment „Werfen eines Würfels“. Jedes Ereignis von 1 bis 6 tritt mit der gleichen Wahrscheinlichkeit \(\mathbb{P}(X=i) = \frac{1}{6}\) auf.

Verteilungsfunktion

Die Verteilungsfunktion ist einfach notierbar als:

\[ F(x) =\begin{cases}0, & x < 1\\ \frac{\lfloor x \rfloor}{6},& 1 \leq x <6\\ 1, & x \geq 6 \end{cases}\]

verteilungen-diskrete-gleichverteilung-verteilungsfunktion

Erwartungswert

Der Erwartungswert eines Würfelwurfs ist

\[ \mathbb{E}(X) = \frac{1}{2} (6 + 1) = 3.5 \]

Varianz

Auch hier sind wir schnell am Ziel. Die Formel angewendet lautet

\[ \mathbb{V}(X) = \frac{(6-1+1)^2 – 1}{12} = 2.917 \]