Archiv des Autors: Alex

Konfidenzintervall für die Varianz

Das Konfidenzintervall für die Varianz eines Merkmals berechnet man mit Hilfe der \(\chi^2\)-Verteilung. Man benötigt zum Berechnen eines Konfidenzintervalls nun zwei Werte aus der Tabelle der \(\chi^2\)-Verteilung: Falls wir z.B. ein 90%-Konfidenzintervall berechnen möchten, brauchen wir die Schranken zu den äußeren 10% der \(\chi^2\)-Verteilung, das heißt also auf der linken Seite das 5%-Quantil, und auf der rechten Seite das 95%-Quantil.

Allgemein gesagt benötigen wir für ein KI mit der Irrtumswahrscheinlichkeit \(\alpha\) die beiden Quantile \(\chi^2_{\frac{\alpha}{2}}(n-1)\) und \(\chi^2_{1-\frac{\alpha}{2}}(n-1)\). Bei einem 90%-KI ist die Irrtumswahrscheinlichkeit 10%, also ist \(\alpha = 0.1\). In diesem Fall brauchen wir das Quantil \(\chi^2_{0.05}(n-1)\) sowie \(\chi^2_{0.95}(n-1)\). In den Klammern steht die Anzahl der Freiheitsgrade (damit finden wir die relevante Zeile in der Tabelle), und die kommt auf die Stichprobengröße \(n\) an.

Die Formel für das KI der Varianz lautet insgesamt:

\[ \left[ \frac{(n-1) \cdot S^2}{\chi^2_{\frac{\alpha}{2}}(n-1)}, \frac{(n-1) \cdot S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)} \right] \]

Und wie üblich darf man sich von auf den ersten Blick komplizierten Notationen nicht erschrecken lassen: Im Nenner steht jeweils nur eine einzelne Dezimalzahl, nämlich ein Quantil der \(\chi^2\)-Verteilung mit \(n-1\) Freiheitsgraden. Das linke Ende des KIs ist einfach das \(\frac{\alpha}{2}\) Quantil (z.B. das 5%-Quantil), und das rechte Ende das \(1-\frac{\alpha}{2}\) Quantil (z.B. das 95%-Quantil).

Das \(S^2\) im Zähler ist die Stichprobenvarianz, die wir mit der üblichen Formel \(S^2 = \sum_{i=1}^n (x_i – \bar{x})^2\) berechnen.

Beispielaufgabe

Wir möchten herausfinden, in welchem Bereich die Varianz der Körpergröße von Männern wohl liegen wird. Dazu befragen wir 14 Männer nach ihrer Größe. Wir erhalten glücklicherweise nicht die rohen Daten, sondern schon die folgenden Zusammenfassungen der Stichprobe:

  • \(\bar{x} = 174cm\)
  • \(S^2 = 97.33\)

Berechne mit diesen Angaben ein 90%-Konfidenzintervall für die Varianz der Körpergröße unter Männern.


Wir betrachten einfach die Formel für das Konfidenzintervall, und füllen nacheinander alle fehlenden Zahlen ein:

\[ \left[ \frac{(n-1) \cdot S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)}, \frac{(n-1) \cdot S^2}{\chi^2_{\frac{\alpha}{2}}(n-1)} \right] \]

Wir benötigen also die Werte:

  • \(n-1\), das ist 13, denn wir haben \(n=14\) Männer befragt.
  • \(S^2 = 97.33\), das haben wir aus dem Aufgabentext entnommen. (Manchmal muss man aber die Stichprobenvarianz \(S^2\) in einer Klausur erst selbst aus den Rohdaten berechnen.)
  • \(\alpha\) ist die Irrtumswahrscheinlichkeit. Wenn wir ein 90%-Konfidenzintervall suchen, dann ist die Irrtumswahrscheinlichkeit 10% bzw. 0.1, also ist \(\alpha=0.1\)
  • \(\chi^2_{1-\frac{\alpha}{2}}(n-1)\) – das ist das 95%-Quantil (denn \(\alpha = 0.1\)) der \(\chi^2\)-Verteilung mit 13 Freiheitsgraden. Aus der Tabelle lesen wir in der Zeile \(df=13\) und der Spalte \(q=0.95\) ab, dass dieser Wert 22.362 ist.
  • \(\chi^2_{\frac{\alpha}{2}}(n-1)\) – das ist das 5%-Quantil derselben \(\chi^2\)-Verteilung. In der Zeile \(df=13\) und der Spalte \(q=0.05\) lesen wir also den Wert 5.892 ab.

Damit können wir alle Werte in das Intervall einsetzen:

\[ \left[ \frac{13 \cdot 99.33}{22.362}, \frac{13 \cdot 99.33}{5.892} \right] = \left[ 57.74, 219.16 \right] \]

Das 90%-Konfidenzintervall für die Varianz der Körpergrösse von Männern ist also [57.74, 219.16], d.h. die wahre Varianz liegt wahrscheinlich in diesem Bereich.

Klausuraufgabe

Im 100-Meter-Sprint auf der Olympiade 2016 in Rio waren die Zeiten der 8 Teilnehmer die folgenden:

Platz Name Land Zeit
Gold Usain Bolt JAM 9.81
Silber Justin Gatlin USA 9.89
Bronze Andre De Grasse CAN 9.91
4. Yohan Blake JAM 9.93
5. Akani Simbine RSA 9.94
6. Ben Youssef Meite CIV 9.96
7. Jimmy Vicaut FRA 10.04
8. Trayvon Bromell USA 10.06

Berechne einen Schätzer für die Varianz der Sprintergebnisse, und erstelle danach ein 90%-Konfidenzintervall für die Varianz.

Lösung (klick)

Um den Schätzer für die Varianz auszurechnen, verwenden wir die Formel für die Stichprobenvarianz, also \(S^2\):

\[ \hat{\sigma}^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2 \]

Wir brauchen zuerst den Mittelwert der 8 Zeiten: er ist 9.9425. Der Schätzer für die Varianz, also \(\hat{\sigma}^2\) ist dann \(S^2 = 0.00645\).

Die gesamte Formel für das KI lautet:

\[ \left[ \frac{(n-1) \cdot S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)}, \frac{(n-1) \cdot S^2}{\chi^2_{\frac{\alpha}{2}}(n-1)} \right] \]

Wir sammeln also die einzelnen Werte, die wir dort einsetzen müssen:

  • \(S^2\) ist der Schätzer für die Varianz, den haben wir gerade berechnet: \(S^2 = 0.00645\).
  • \(\alpha\) ist die Irrtumswahrscheinlichkeit. Da wir ein 90%-Intervall möchten, ist die Irrtumswahrscheinlichkeit 10%, also ist \(\alpha = 0.1\).
  • \(\chi^2_{1-\frac{\alpha}{2}}(n-1)\) sieht etwas tricky aus, aber es ist nur ein einzelner Wert, den wir in der Tabelle der Chi-Quadrat-Verteilung nachschlagen müssen: Wir brauchen das \(1-\frac{\alpha}{2}\)-Quantil, also das 95%-Quantil der Chi-Quadrat-Verteilung mit \(n-1\), also mit 7 Freiheitsgraden (da wir \(n=8\) Sprinter in der Stichprobe hatten). In der Tabelle sehen wir also in der Zeile df=7 und in der Spalte q=0.95 nach, und finden dort den Wert 14.067
  • \(\chi^2_{\frac{\alpha}{2}}(n-1)\) ist ganz analog dazu das 5%-Quantil, bei immer noch 7 Freiheitsgraden. Dieser Wert ist 2.167.
  • \(n-1\) ist 7, da wir 8 Personen in der Stichprobe haben.

Wir können also nun alle Werte in der Formel ersetzen:

\[ \left[ \frac{7 \cdot 0.00645}{14.067}, \frac{7 \cdot 0.00645}{2.167} \right] \]

Das fertige Intervall ist dann \([0.0032, 0.0208]\). Wir können also mit einer Irrtumswahrscheinlichkeit von 10% davon ausgehen, dass die wahre Varianz unter den olympischen Sprintern sich irgendwo zwischen 0.0032 und 0.0208 bewegt.

Konfidenzintervall für den Erwartungswert

Das KI für den Erwartungswert folgt einem ähnlichen Prinzip wie das bereits besprochene KI für einen Anteilswert:

\[ \text{Parameter} \pm \text{Quantil} \cdot \sqrt{\frac{\text{Varianz}}{n}} \]

In den meisten Fällen in der Realität ist die wahre Varianz nicht bekannt, und wird auch einfach aus der Stichprobe geschätzt. In einer Klausur wird der Fall, dass die Varianz \(\sigma^2\) bekannt ist, allerdings noch gefordert – daher betrachten wir ihn hier extra.

Die Formeln für die Konfidenzintervalle der beiden Varianten unterscheiden sich nur minimal:

  • Wenn die wahre Varianz \(\sigma^2\) bekannt ist, nehmen wir in der Formel direkt die wahre Varianz \(\sigma^2\) – anderenfalls schätzen wir sie durch die Stichprobenvarianz \(s^2\) und nehmen diesen Wert.
  • Wenn die wahre Varianz \(\sigma^2\) bekannt ist, dann nehmen wir das Quantil der Normalverteilung – anderenfalls nehmen wir das Quantil der t-Verteilung mit \(n-1\) Freiheitsgraden.
    • Wenn wir allerdings eine ausreichend große Stichprobe haben, z.B. \(n>30\), dann können wir doch wieder das Quantil der Normalverteilung verwenden.

Sehen wir uns die Formeln der beiden KIs also an:

KI für den Erwartungswert \(\mu\), falls Varianz \(\sigma^2\) bekannt

Für das Konfidenzintervall brauchen wir die folgenden Werte:

  • Die Stichprobengröße \(n\)
  • Den Mittelwert der Stichprobe \(\bar{x}\)
  • Die wahre Varianz \(\sigma^2\)
    • In der Formel brauchen wir allerdings ihre Wurzel, die Standardabweichung, also \(\sigma\). Diese beiden Werte zu verwechseln, ist ein häufiger Fehler in der Klausur.
  • Die gewünschte Irrtumswahrscheinlichkeit \(\alpha\)
    • Damit berechnen wir das passende \(1-\frac{\alpha}{2}\)-Quantil der Normalverteilung, das wir in der Formel brauchen – also den Wert \(z_{1-\frac{\alpha}{2}}\). Für eine gewünschte Irrtumswahrscheinlichkeit von 5% brauchen wir also später das 97,5%-Quantil (das ist 1.96, wer es nachprüfen möchte).

Die untere Grenze des Intervalls ist dann:

\[ u =  \bar{x} – z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\]

Für die obere Grenze ersetzen wir einfach das erste Minus durch ein Plus:

\[ o =  \bar{x} + z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\]

Insgesamt lautet das Konfidenzintervall also

\[ \left[ \bar{x} – z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}, \, \, \bar{x} + z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}} \right] \]

Oder, in Kurzschreibweise mit dem \(\pm\) Zeichen:

\[ \bar{x} \pm z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\]

Beispielaufgabe

Der Intelligenzquotient (IQ) ist so erstellt worden, dass er in der Gesamtbevölkerung normalverteilt ist mit einem Mittelwert von 100 und einer Standardabweichung von 15 (d.h. einer Varianz von \(15^2 = 225\). Wir haben nun eine Stichprobe von \(n=35\) Social-Media-Powerusern, die täglich mehr als 3 Stunden in sozialen Netzen unterwegs sind. Ich erspare euch die „Rohdaten“, d.h. die einzelnen 35 IQs, und liefere direkt den MIttelwert der Stichprobe:

  • \(\bar{x} = 93.523\)

Wir können die Varianz in der Gruppe als bekannt annehmen, nämlich als \(\sigma^2 = 225\). Berechne nun ein 95%-Konfidenzintervall (d.h. \(\alpha=0.05\)) für den mittleren IQ in der Grundgesamtheit aller Social-Media-Poweruser.


Die Formel dafür kennen wir:

\[ \bar{x} \pm z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\]

Dort tragen wir jetzt einfach alle geforderten Werte nacheinander ein. Manche müssen wir berechnen, andere aus einer Tabelle ablesen, und wieder andere einfach einsetzen:

  • \(\bar{x} = 93.523\), das steht in der Aufgabe
  • \(\alpha = 0.05\), denn da wir ein 95%-KI brauchen, ist die Irrtumswahrscheinlichkeit 5%, also 0.05.
  • \(z_{1-\frac{\alpha}{2}}\) ist \(z_{0.975}\), also das 97,5%-Quantil der Normalverteilung. Aus der Verteilungstabelle lesen wir ab, dass das 1.96 ist.
  • \(\sigma\) ist die Standardabweichung (Vorsicht: Die Wurzel aus der Varianz! Nicht verwechseln!). Bei uns ist \(\sigma = \sqrt{\sigma^2} = \sqrt{225} = 15\)
  • \(\sqrt{n} = \sqrt{35} = 5.916\)

Damit können wir das Intervall berechnen:

\[ 93.523 \pm 1.96 \cdot \frac{15}{5.916}\]

Das gesuchte Konfidenzintervall ist also \( 93.523 \pm 4.97\), also als Intervall geschrieben \([88.553, 98.493]\). Der mittlere IQ unter Social-Media-Powerusern liegt also wahrscheinlich in diesem Bereich.

KI für den Erwartungswert \(\mu\), falls Varianz \(\sigma^2\) unbekannt

Wie bereits erwähnt: Das Prinzip ist hier dasselbe, das KI wird berechnet durch

\[ \text{Parameter} \pm \text{Quantil} \cdot \sqrt{\frac{\text{Varianz}}{n}} \]

Die einzigen beiden Unterschiede sind, dass statt dem \(z\)-Quantil der Normalverteilung nun das der t-Verteilung verwendet wird, und dass nicht mehr die wahre Standardabweichung \(\sigma\) verwendet wird (da sie ja jetzt unbekannt ist), sondern die Stichprobenvarianz \(s^2\), bzw. ihre Wurzel \(s\) verwendet wird. Diese berechnen wir auf die bekannte Art und Weise: \(s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2\).

Die Formel für das Konfidenzintervall ist von der Bedeutung her identisch mit dem Fall, wenn die wahre Varianz \(\sigma^2\) bekannt ist, nur mit den oben besprochenen Unterschieden:

\[ \bar{x} \pm t_{1-\frac{\alpha}{2}}(n-1) \cdot \frac{s}{\sqrt{n}}\]

Die Bezeichnung \(t_{1-\frac{\alpha}{2}}(n-1)\) sieht vielleicht etwas furchteinflößend aus, aber sie ist ganz einfach das \(1-\frac{\alpha}{2}\)-Quantil der t-Verteilung mit \(n-1\) Freiheitsgraden – das ist am Ende nur eine harmlose Dezimalzahl. Ihren Wert findet man in der Tabelle der t-Verteilung.

Anmerkung: Falls die Stichprobe mehr als 30 Beobachtungen hat, kann man im Normalfall doch wieder das \(z\)-Quantil der Normalverteilung (statt dem Quantil der t-Verteilung) verwenden.

Beispielaufgabe

Wir interessieren uns für den mittleren Intelligenzquotienten (IQ) in einer Förderschule für Hochbegabte. In der breiten Bevölkerung ist zwar bekannt, dass der IQ normalverteilt ist mit \(\mu=100\) und \(\sigma^2=225\), aber in dieser Untergruppe kann man weder vom selben Mittelwert noch von derselben Varianz ausgehen. Wir erheben also durch einen IQ-Test die Zahlen für eine Stichprobe von \(n=22\) Hochbegabten, und erhalten:

  • \(\bar{x} = 134.32\)
  • \(s^2 = 98.83\)

Berechne nun ein 95%-Konfidenzintervall für den mittleren IQ von Hochbegabten in Förderklassen.


Wir verwenden ganz einfach die Formel für das KI, und setzen alle Werte nacheinander ein:

\[ \bar{x} \pm t_{1-\frac{\alpha}{2}}(n-1) \cdot \frac{s}{\sqrt{n}}\]

Die Werte, die wir brauchen sind:

  • \(\bar{x} = 134.32\), das steht direkt im Aufgabentext
  • \(\alpha = 0.05\), denn da wir ein 95%-KI brauchen, ist die Irrtumswahrscheinlichkeit 5%, also 0.05.
  • \(t_{1-\frac{\alpha}{2}}(n-1)\) ist das \(1-\frac{\alpha}{2}\)-Quantil, also das 97,5%-Quantil der t-Verteilung mit \(n-1\), also mit 21 Freiheitsgraden. In der Verteilungstabelle lesen wir ab, dass dieser Wert \(t_{0.975}(21) = 2.080\) ist
  • \(s = \sqrt{s^2} = \sqrt{98.83} = 9.941\)
  • \(\sqrt{n} = \sqrt{21} = 4.583\)

Wir setzen also diese Werte ein und rechnen aus:

\[ 134.32 \pm 2.080 \cdot \frac{9.941}{4.583}\]

Das gesuchte Konfidenzintervall ist also \( 134.32 \pm 4.51\), also in Intervallschreibweise \([129.81, 138.83]\). Der IQ unter Förderschülern liegt also ziemlich wahrscheinlich in diesem Bereich.

Klausuraufgabe

  • a) Eine Fluglinie möchte das durchschnittliche Gewicht von Passagieren möglichst sicher abschätzen. Die „wahre“ Varianz des Körpergewichts in der Grundgesamtheit ist aus früheren Erhebungen bekannt und beträgt \(\sigma^2 = 120\). Der Mittelwert könnte sich aber in den letzten Jahren verändert haben. Die Airline wiegt daher 105 Passagiere, und bekommt den Stichprobenmittelwert \(\bar{x}=79.83\) Kilogramm heraus.
    Bestimme ein 99%-Konfidenzintervall für den wahren Erwartungswert \(\mu\) des Körpergewichts in der Grundgesamtheit von allen Passagieren.
  • b) Um den Blutdruck von Leistungssportlern zu schätzen, nimmt ein Sportinstitut von 22  Marathonläufern den Blutdruck. Die Ergebnisse wurden bereits in Stichprobenmittelwert und Standardabweichung zusammengefasst, und lauten:
    • \(\bar{x} = 128.3\)
    • \(s = 11.43\)

    Berechne ein 95%-Konfidenzintervall für den wahren Erwartungswert des Blutdrucks unter Marathonläufern.

Lösung (klick)
  • a) Da in diesem Fall die wahre Varianz schon bekannt ist, brauchen wir die Stichprobenvarianz nicht zu berechnen. Wir verwenden direkt die Formel:
    \[ \bar{x} \pm z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\] Um die untere Grenze des Intervalls zu berechnen, ersetzen wir das \(\pm\)-Zeichen durch ein Minus, und für die obere Grenze ersetzen wir es durch ein Plus.
    Wir benötigen die folgenden Werte zum Einsetzen in die Formel:

    • \(\bar{x}\) ist der Stichprobenmittelwert, den haben wir schon bekommen: Er ist 79.83
    • \(\alpha\) ist die Irrtumswahrscheinlichkeit des Konfidenzintervalls. Bei einem 99%-KI ist sie 1%, also ist \(\alpha = 0.01\).
    • \(z_{1-\frac{\alpha}{2}}\) ist das \(1-\frac{\alpha}{2}\)-Quantil, also das 99,5%-Quantil der Standardnormalverteilung. Aus ihrer Tabelle können wir diesen Wert ablesen: Er ist 2.57.
    • \(\sigma\) ist die wahre Standardabweichung, die hier ja bekannt ist. Vorsicht: In der Aufgabenstellung haben wir die Varianz bekommen, also \(\sigma^2\), und sie ist 120. Wir brauchen die Standardabweichung \(\sigma\), also ihre Wurzel (Das ist ein typischer Fehler in einer Klausur). Die Standardabweichung ist \(\sigma = \sqrt{120} = 10.95\)
    • \(\sqrt{n}\) ist \(\sqrt{105} = 10.25\)

    Das KI ist also, nachdem alles eingesetzt wurde, \(79.83 \pm 2.57 \cdot \frac{10.95}{10.25}\). Vereinfacht ist es dann \(79.83 \pm 2.75\), und somit ist die untere Grenze \(79.83 – 2.75 = 77.08\), und die obere Grenze ist \(79.83 + 2.75 = 82.58\).
    Wir können also mit einer Irrtumswahrscheinlichkeit von 1% sagen, dass der wahre Erwartungswert \(\mu\) des Körpergewichts aller Passagiere zwischen 77.08kg und 82.58kg liegt.

  • b) Wir möchten ein Konfidenzintervall für den Mittelwert haben, aber kennen die wahre Varianz \(\sigma^2\) nicht (so ist es in der Realität aber meistens auch). Die Formel für dieses KI lautet
    \[ \bar{x} \pm t_{1-\frac{\alpha}{2}}(n-1) \cdot \frac{s}{\sqrt{n}}\] Wir müssen hier die folgenden Werte einsetzen:

    • \(\bar{x}\) ist in der Aufgabe als 128.3 gegeben.
    • \(\alpha\), die Irrtumswahrscheinlichkeit, ist 5%, da wir ein 95%-Konfidenzintervall möchten. Also: \(\alpha=0.05\).
    • \(t_{1-\frac{\alpha}{2}}(n-1)\) ist der fiese Teil in dieser Formel. Aber man muss nur wissen, was damit gemeint ist: Wir suchen das \(1-\frac{\alpha}{2}\)-Quantil, also das 0.975-Quantil (oder äquivalent das 97,5%-Quantil) der t-Verteilung, und zwar der mit \(n-1\) Freiheitsgraden – das sind bei uns 21, denn die Stichprobengröße ist hier \(n=22\).
      Wir brauchen also den Wert \(t_{0.975}(21)\). Dafür müssen wir in der Tabelle der t-Verteilung nun nachsehen, und zwar in der Spalte „Quantil = 0.975“, und in der Zeile „df = 21“. Der Wert der dort steht ist 2.080.
    • \(s\) ist die Standardabweichung in der Stichprobe, die wurde freundlicherweise schon in der Aufgabenstellung für uns berechnet: \(s = 11.43\).
    • \(\sqrt{n} = \sqrt{22} = 4.69\)

    Damit können wir jetzt alles in die Formel einsetzen:
    \[ 128.3 \pm 2.080 \cdot \frac{11.43}{4.69}\] Vereinfacht steht dann da \(128.3 \pm 5.069\), und somit geht das Konfidenzintervall von unten \(128.3 – 5.069 = 123.23\) bis oben \(128.3 + 5.069\) = 133.37.
    Wir können also sagen, dass mit 5%-iger Irrtumswahrscheinlichkeit der erwartete Blutdruck von Marathonläufern zwischen 123.23 und 133.37 liegt.

Konfidenzintervall für einen Anteil p

Wenn wir in unserer Stichprobe ein Merkmal mit nur zwei möglichen Ausprägungen haben, zum Beispiel „Student? (ja/nein)“, benötigen wir zum Berechnen des Konfidenzintervalls die folgenden Informationen:

  • Die Anzahl der Daten \(n\) (Stichprobengröße).
  • Den Parameterschätzer für den Anteilswert \(\hat{p}\). Im entsprechenden Artikel haben wir schon gelernt wie man ihn berechnet: \(\hat{p} = \frac{\sum_{i=1}^n x_i}{n}\)
  • Das gewünschte Konfidenzniveau \(1-\alpha\), d.h. die Irrtumswahrscheinlichkeit \(\alpha\). Meistens ist es \(\alpha = 0.05\) oder \(\alpha = 0.01\).

Mit Hilfe der gewünschten Irrtumswahrscheinlichkeit \(\alpha\) müssen wir nun ein Quantil der Normalverteilung bestimmen: Falls wir \(\alpha=0.05\) wählen, also eine Irrtumswahrscheinlichkeit von 5% wünschen, dann müssen wir das 97,5%-Quantil der Normalverteilung bestimmen (das ist 1,96). Falls wir uns noch sicherer sein möchten, und eine nur 1%-ige Irrtumswahrscheinlichkeit möchten, dann müssen wir das 99,5%-Quantil der Normalverteilung bestimmen (das ist 2,58). Allgemein gesagt benötigen wir das \(1-\frac{\alpha}{2}\)-Quantil, also den Wert \(z_{1-\frac{\alpha}{2}}\). Diesen Wert lesen wir in der Klausur aus der Verteilungstabelle der Normalverteilung ab.

Mit diesen Werten können wir nun das Konfidenzintervall berechnen. Die untere Grenze des Intervalls ist:

\[ u = \hat{p} – z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \]

Für die obere Grenze ersetzt man nur das Minus durch ein Plus:

\[ o = \hat{p} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \]

Das Konfidenzintervall ist also nun \([u, o]\). In einer Formelsammlung sieht man diese Schritte meist in eine einzige Formel zusammengefasst, die dann erstmal etwas einschüchternd aussieht. Aber sie verpackt die oberen Formeln nur in eine einzelne Zeile. So sieht das Konfidenzintervall als eine Formel aus:

\[ \left[ \hat{p} – z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}}, \, \, \hat{p} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \right] \]

Wenn man nun möchte, kann man das Intervall noch kürzer schreiben, denn in den zwei Formeln für die untere und obere Grenze ist nur ein Plus bzw. ein Minus unterschiedlich. Wenn wir dieses Symbol durch ein \(\pm\) ersetzen, dann lautet das KI einfach:

\[ \hat{p} \pm z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}}  \]

Anmerkung: Dieses Konfidenzintervall ist kein exaktes, sondern nur ein approximatives Intervall. Um diese Formel anwenden zu dürfen, sollte man mindestens 30 Beobachtungen in der Stichprobe haben, also  \(n \geq 30\)

Beispielaufgabe

Wir berechnen ein KI um diese Formeln zu illustrieren. Angenommen, wir gehen Freitagmittag in die Innenstadt und fragen die ersten 250 Menschen die wir treffen, ob sie bei der letzten Wahl auch wählen gegangen sind. 183 Menschen antworten mit „ja“ (was wir mit einer 1 kodieren). Wir möchten nun ein 99%-Konfidenzintervall für die Wahlbeteiligung in der Gesamtbevölkerung berechnen.


Dazu brauchen wir die folgenden Werte:

  • Die Stichprobengröße \(n\), das ist hier 250.
  • Den Parameterschätzer \(\hat{p}\), das ist bei uns \(\frac{183}{250} = 0.732\)
  • Die Irrtumswahrscheinlichkeit \(\alpha\). Da wir ein 99%-Konfidenzintervall möchten, ist \(\alpha\) bei uns 1-0.99, also 0.01.
  • Das Quantil der Normalverteilung, \(z_{1-\frac{\alpha}{2}}\), ist bei uns also das 99,5%-Quantil, also \(z_{0.995}\). Aus der Tabelle der Normalverteilung lesen wir dafür den Wert 2,58 ab.

Damit können wir nun die Grenzen des KIs berechnen. Die untere Grenze ist

\[ u = \hat{p} – z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} = 0.732 – 2.58 \cdot \sqrt{\frac{0.732 \cdot (1-0.732)}{250}} = 0.660 \]

Die obere Grenze ist dann

\[ u = \hat{p} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} = 0.732 + 2.58 \cdot \sqrt{\frac{0.732 \cdot (1-0.732)}{250}} = 0.804 \]

Unser 99%-Konfidenzintervall ist also gerundet \([0.66, 0.80]\). Wir schätzen also, dass die wahre Wahlbeteiligung ziemlich sicher im Bereich von 66% bis 80% legen wird.

Klausuraufgabe

Der lokale Nahverkehr möchte schätzen, welcher Anteil seiner U-Bahn-Passagiere als Schwarzfahrer unterwegs ist. Dazu kontrollieren sie 175 Personen nach ihrem Ticket, und finden 11 Schwarzfahrer unter ihnen.

  • a) Schätze den Anteil der Schwarzfahrer in der Grundgesamtheit
  • b) Berechne ein 95%-Konfidenzintervall für den wahren Anteil an Schwarzfahrern in der Grundgesamtheit
  • c) Berechne nun ein 99%-Konfidenzintervall. Erkläre wie und warum es anders aussieht als das 95%-Konfidenzintervall.
Lösung (klick)
  • a) Unsere Stichprobe besteht aus einem einzelnen Merkmal mit zwei möglichen Ergebnissen: „Kein Schwarzfahrer“ und „Schwarzfahrer“. Wir kodieren also „Schwarzfahrer“ mit einer 1, und „kein Schwarzfarher“ mit einer 0. Den Anteil an Schwarzfahrern schätzen wir dann mit \(11 / 175 = 0.0629\). Allgemein wäre die Formel \(\hat{p} = \frac{\sum_{i=1}^n x_i}{n}\), und wir setzen im Zähler die Anzahl aller 1er-Beobachteungen ein (also 11), und im Nenner die Anzahl der insgesamt untersuchten Personen (also 175).
    Da nun \(\hat{p} = 0.0629\) ist, schätzen wir also, dass 6,29% aller Passagiere Schwarzfahrer sind.
  • b) Wir müssen die untere und die obere Grenze des KIs berechnen. Die untere Grenze berechnet man durch
    \[ u = \hat{p} – z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \] Die dafür nötigen Werte sind:

    • \(\hat{p}\) ist 0.0629, das haben wir in Teil a) berechnet
    • \(\alpha\) ist die Irrtumswahrscheinlichkeit. Bei einem 95%-Konfidenzintervall ist sie 5%, also \(\alpha = 0.05\)
    • \(z_{1-\frac{\alpha}{2}}\) ist das \(1-\frac{\alpha}{2}\)-Quantil, also das 97,5%-Quantil, der Standardnormalverteilung. In der Tabelle der Normalverteilung lesen wir ab, dass das 1,96 ist.
    • \(\hat{p} (1 – \hat{p}) = 0.0629 \cdot 0.9371 = 0.0589\)
    • \(n\) ist die Stichprobengröße, also 175

    Die untere Grenze ist also \(0.0629 – 1.96 \cdot \sqrt{\frac{0.0589}{175}}\), und im Ergebnis 0.0269.

    Die obere Grenze erhält man, wenn man in der Formel das Minus durch ein Plus ersetzt, also durch
    \[ o = \hat{p} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \] Das Ergebnis dafür ist \(0.0629 + 1.96 \cdot \sqrt{\frac{0.0589}{175}} = 0.0989\)

    Das 95%-Konfidenzintervall ist also im Ergebnis \([0.0269, 0.0989]\). Mit einer Irrtumswahrscheinlichkeit von 5% gibt es also zwischen 2,7% und 9,9% Schwarzfahrer in der Gesamtbevölkerung.

  • c) Um das 99%-Konfidenzintervall zu berechnen, verändert sich gegenüber Teil b) nur der Wert \(\alpha\). Er ist jetzt 0.01. Wir müssen daher auch das \(z\)-Quantil neu berechnen, es ist jetzt das 99.5%-Quantil, denn \(1-\frac{\alpha}{2} = 0.995\). Aus der Tabelle lesen wir dafür ab: \(z_{0.995} = 2.57\).Da alle anderen Werte (die Stichprobengröße, der Schätzer \(\hat{p}\) für den Anteil) gleich bleiben, ersetzen wir gegenüber Teil b) nur die 1.96 mit den 2.57, und erhalten als Grenzen:
    \[ u = 0.0629 – 2.57 \cdot \sqrt{\frac{0.0589}{175}} = 0.01587 \] \[ o = 0.0629 + 2.57 \cdot \sqrt{\frac{0.0589}{175}} = 0.1100 \] Das 99%-KI ist also \([0.0158, 0.1100]\), und ausformuliert heißt das, dass mit einer nur 1%-igen Irrtumswahrscheinlichkeit der Anteil an Schwarzfahrern zwischen 1,6% und 11% liegt.

    Zur Interpretation: Dieses Intervall ist breiter als das 95%-KI. Da wir uns hier nicht mehr „nur“ zu 95%, sondern zu 99% sicher sein wollen, folgt daraus dass wir uns einen Fehler noch ungerner erlauben möchten. Daher müssen wir „auf Nummer sicher“ gehen, und das Konfidenzintervall muss breiter sein als das 95%-KI.

Was ist ein Konfidenzintervall?

Wozu braucht man Konfidenzintervalle?

Im Bereich der Inferenzstatistik möchten wir ja ganz allgemein gesagt mit Hilfe einer Stichprobe Aussagen über die Grundgesamtheit machen. Im ersten Teil haben wir dazu die Punktschätzer kennengelernt: Mit ihnen fassen wir die erhobenen Daten einer Stichprobe so in einen Schätzer zusammen (z.B. in ihren Mittelwert), um damit das Verhalten eines Merkmals in der Grundgesamtheit zu schätzen.

Im Artikel „Was ist ein Parameter?“ haben wir hierfür ein Beispiel kennengelernt: Wir sind auf dem Oktoberfest, und möchten wissen ob in die Krüge systematisch zu wenig Bier gefüllt wird. Dazu bestellen wir uns 10 Maß Bier, und erhalten z.B. den Stichprobenmittelwert 962ml. Wir wissen, dass der Mittelwert in der Stichprobe bei 962ml liegt, aber den Mittelwert der Grundgesamtheit, also unter allen Krügen auf dem Oktoberfest, können wir nur schätzen. Und unsere beste Schätzug dafür sind eben diese 962ml aus der Stichprobe.

Der Punktschätzer oder Parameterschätzer ist hierbei aber nur der erste Schritt: Wir haben lediglich die Frage beantwortet: „Wieviel Bier ist schätzungsweise im Durchschnitt im Krug?“. Einige andere wichtige Fragen können wir aber noch nicht beantworten:

  • Wie präzise ist diese Schätzung von 962ml?
  • In welchem Bereich liegt der wahre Mittelwert höchstwahrscheinlich?
  • Kann es denn sein, dass der gesamte/wahre Mittelwert auch 950ml ist? Kann es sogar sein, dass in Wirklichkeit im Mittel doch 1000ml in die Krüge gefüllt wird, aber wir in dieser Stichprobe einfach nur Pech hatten?

Diese Fragen kann ein Punktschätzer nicht beantworten – aber ein Intervallschätzer kann das!

Was ist ein Konfidenzintervall?

Die folgende Unterscheidung ist zentral für das Verständnis von Konfidenzintervallen:

  • Mit der Stichprobe schätzen wir einen Parameter, zum Beispiel \(\hat{\mu}\)
  • Der wahre Parameter \(\mu\) in der Grundgesamtheit ist dann zwar in der Nähe von \(\hat{\mu}\), aber quasi nie genau gleich.

Den wahren Parameter \(\mu\) können wir also nie exakt bestimmen, aber wir können ihn quasi „einzäunen“ – also einen Bereich bestimmen, in dem er ziemlich sicher liegt.

Dieses „ziemlich sicher“ müssen wir natürlich definieren. Wollen wir zu 90% sicher sein, oder zu 95%? Vielleicht sogar 99%? In der Statistik wandeln wir diese Zahl immer in ihre Gegenwahrscheinlichkeit um, denn wir arbeiten lieber mit Irrtumswahrscheinlichkeiten statt Überdeckungswahrscheinlichkeiten. Wenn wir uns also zu 95% sicher sein wollen, dass der wahre Parameter in einem bestimmten Intervall liegt, bedeuetet das ja ebenso, dass er zu 5% nicht dort drin liegt.

Diese Irrtumswahrscheinlichkeit, oder Konfidenzniveau, ist eine Dezimalzahl, die wir mit \(\alpha\) bezeichnen. Wenn wir einen Bereich berechnen möchten, in dem der wahre Parameter mit 95% Sicherheit liegt, dann ist unser Niveau eben 5%, also \(\alpha = 0.05\).

Konfidenzintervalle werden auch nur geschätzt

Die folgende Grafik veranschaulicht ein Beispiel: Es gibt einen wahren Mittelwert \(\mu\) in der Grundgesamtheit – den kennen wir aber in der Realität nicht! Er ist hier nur eingezeichnet, um das Prinzip eines KIs zu veranschaulichen. Wir schätzen nun zuerst mit einem üblichen Parameterschätzer den Mittelwert \(\hat{\mu}\). Als nächstes schätzen wir die obere und untere Grenze des KIs, und zwar wieder mit einer Schätzfunktion, genau wie beim Mittelwert einen Schritt vorher.

In dieser Grafik sind zwei verschiedene Konfidenzintervalle berechnet und visualisiert worden: Das obere ist ein 99%-KI, also mit einer Irrtumswahrscheinlichkeit von nur 1%. Da wir uns hier sehr sicher (nämlich 99% sicher) sein wollen, dass der wahre Parameter in diesem KI liegt, muss das KI natürlich auch breiter sein, um einen Irrtum unwahrscheinlicher zu machen. Das untere KI ist im Gegensatz dazu „nur“ ein 95%-KI, also mit einer Irrtumswahrscheinlichkeit von 5%. In diesem Beispiel ist sogar der unwahrscheinliche Fall eingetreten, dass der wahre Mittelwert \(\mu\) außerhalb des KIs liegt. Das kann natürlich nie komplett ausgeschlossen werden, sondern immer nur durch das Konfidenzniveau \(\alpha\) eingeschränkt werden.

Das Thema „Was ist eine Schätzfunktion?“ haben wir im Rahmen der Parameterschätzer bereits besprochen. Ganz knapp gesagt ist eine Schätzfunktion eine Formel, die die Daten der erhobenen Stichprobe auf eine geeignete Art zusammenfasst.

Ein Konfidenzintervall (kurz: KI) wird nun, genauso wie der Parameterschätzer einen Schritt davor, mit Hilfe von Schätzfunktionen erstellt. Das KI wird also durch eine Formel (bzw. zwei Formeln) berechnet, die die Daten in zwei Werte zusammenfassen: die obere sowie die untere Grenze des Intervalls.

Wie schätzt man ein Konfidenzintervall?

Das zentrale Prinzip für alle Konfidenzintervalle ist, dass man zuerst einen Punktschätzer für einen Parameter berechnet, z.B. für den Anteilswert \(p\). Um diesen einzelnen Punkt herum bildet man dann ein Intervall, das meistens symmetrisch um den Parameterschätzer ist, und enger oder breiter ist, abhängig von der Varianz in der Stichprobe sowie des gewünschten Konfidenzniveaus \(\alpha\).

Um Konfidenzintervalle in einer Klausur schnell und sicher berechnen zu können, muss man fit darin sein, Quantile der Normalverteilung und der t-Verteilung aus einer Verteilungstabelle ablesen zu können. In der Realität machen das später meistens Statistikprogramme, aber für die Klausur ist der geübte Umgang mit diesen Tabellen von zentraler Bedeutung.

Anmerkung

Ich habe in diesem Artikel die folgende intuitive Erklärung für ein Konfidenzintervall verwendet:

Ein 95%-KI ist ein Intervall \([a, b]\), in dem der wahre Parameter, z.B. \(\mu\), mit einer Wahrscheinlichkeit von 95% auch tatsächlich liegt.

Das heißt: Der wahre Parameter \(\mu\) (den wir ja nicht kennen!) liegt mit einer Wahrscheinlichkeit von 95% im Intervall \([a,b]\).

Diese Beschreibung ist einfach und einleuchtend, aber mathematisch nicht zu 100% korrekt. Ich finde aber, darüber kann man hinwegschauen, insbesondere im Bereich der einführenden Statistikveranstaltungen. Wenn man es allerdings ganz genau nehmen will, ist die Definition, und somit auch die Interpretation eines KIs minimal anders:

Ein 95%-KI ist ein Intervall \([a, b]\), das, wenn es sehr häufig mit neuen Stichproben berechnet wird, den wahren Parameter, z.B. \(\mu\), mit einer Wahrscheinlichkeit von 95% auch überdeckt.

Das heißt: Ein einzelnes 95%-KI ist mit 95%-iger Wahrscheinlichkeit eines von denen, das den wahren Parameter \(\mu\) beinhaltet.

Diese Definition ist etwas umständlicher zu verstehen, aber nun formal korrekt. Wie schon erwähnt, ist diese Unterscheidung aber in einführenden Vorlesungen eher unwichtig – das wird (wenn überhaupt) erst viel später mal relevant.

Schätzfunktionen allgemein

In einem vorigen Artikel haben wir bereits gelernt, was ein Parameter ist: Als einfachstes Beispiel der prozentuale Anteil in einer Grundgesamtheit, oder aber der Erwartungswert bzw. die Varianz eines Merkmals.

Es gibt noch viele weitere solcher Kennzahlen, die man schätzen kann: Das Minimum eines Merkmals, die Korrelation zweier Merkmale, oder das 5%-Quantil eines Merkmals sind nur einige Beispiele dafür. Ich werde nicht auf alle diese Beispiele eingehen, aber wir sehen uns kurz an, wie ein Parameter allgemein geschätzt wird. Dieser Artikel gilt also für alle bisher besprochenen Parameterschätzer, und auch für weitere Schätzer so wie die gerade genannten Beispiele.

Wie schätzt man einen Parameter?

Ganz allgemein schätzt man einen beliebigen Parameter, indem man die Daten aus der gesammelten Stichprobe mit einer bestimmten Formel zusammenfasst. Diese Formel nennt man dann Schätzer oder Schätzfunktion – die Formel ist eine Funktion, weil sie die Stichprobe (meistens \(x\) oder in Langform \((x_1, x_2, \ldots, x_n)\) genannt) in einen Schätzer transformiert. Als Beispiele können wir die Schätzfunktionen für den Anteilswert \(p\) betrachten – der Schätzer wird dann meist \(\hat{p}\) („p-Dach“) genannt:

\[\hat{p} = \frac{\sum_{i=1}^n x_i}{n}\]

Als zweites Beispiel den Schätzer für die Varianz \(\sigma^2\) in einer Grundgesamtheit – der Schätzer heißt dann \(\hat{\sigma}^2\):

\[ \hat{\sigma}^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2 \]

Diese beiden beispielhaften Funktionen schätzen zwei ganz unterschiedliche Dinge, aber sie haben beide gemeinsam, dass sie die Daten der gesammelten Stichprobe, also \((x_1, x_2, \ldots, x_n)\), zusammenfassen in einen einzelnen Wert – den Schätzer. Man kann diese beiden Beispiele (und alle anderen denkbaren Schätzer) nun zusammenfassen in eine generelle, allgemeingültige Formel:

\[ T = g(x_1, x_2, \ldots, x_n) \]

Das \(T\) steht hierbei für den Parameter den wir schätzen möchten, also z.B. \(\hat{p}\) oder \(\hat{\sigma}^2\). Die Funktion \(g\) nimmt nun die Daten und fasst sie zusammen in ein Ergebnis, den Schätzer.

Die mathematischen Bezeichnungen können da zu Beginn ein wenig verwirren – das ging mir selbst nicht anders. Man muss sich aber vor Augen halten, dass es immer zwei „Welten“, bzw. zwei Betrachtungspunkte gibt: die Stichprobe und die Grundgesamtheit. Beide Welten haben ihre eigene Notation:

  • Der Mittelwert in der Stichprobe ist \(\bar{x}\)
  • Der gesamte Mittelwert in der Grundgesamtheit ist \(\mu\)
  • Wir können \(\mu\) allerdings nur schätzen, und dieser Wert lautet dann \(\hat{\mu}\)
  • Diesen Wert schätzen wir mit Hilfe des Stichprobenmittelwerts. Also: \(\hat{\mu} = \bar{x}\)

Wenn man so verstanden hat, warum die Formel \(\hat{\mu} = \bar{x}\) Sinn macht und was der Unterschied der beiden Werte ist (obwohl sie ja mathematisch die gleiche Zahl sind), dann hat man das Konzept der Parameterschätzung verstanden 🙂

Die wichtigsten Parameterschätzer

In diesem Artikel greifen wir das Beispiel aus dem Artikel „Was ist ein Parameter?“ wieder auf: Wir gehen auf das Oktoberfest, und möchten schätzen ob ein Maßkrug fair, d.h. mit (mindestens) 1 Liter Bier befüllt ist. Es macht vielleicht Sinn, diesen Artikel vorher nocheinmal zu lesen.

In diesem Artikel besprechen wir kurz die wichtigsten Parameterschätzer. Wer bisher gut aufgepasst hat, wird merken, dass die untenstehenden Formeln für diese Punktschätzer dieselben sind wie in der deskriptiven Statistik. Zum Beispiel ist also die Formel für den (deskriptiven!) Mittelwert einer Stichprobe dieselbe wie die Formel für den Punktschätzer für den Erwartungswert.

Die Idee hinter der Berechnung ist in den beiden Fällen aber unterschiedlich: Der Mittelwert macht nur eine Aussage über die Stichprobe – wir können also z.B. sagen, dass in 10 geprüften Maßkrügen im Durchschnitt 950ml Bier enthalten waren. Das ist auch kein Schätzwert, sondern ein exakter Wert – aber er gilt nur für diese eine Stichprobe von 10 Bieren.

Der Erwartungswert gilt dagegen für die Grundgesamtheit, d.h. über die Stichprobe hinweg für alle Maßkrüge auf dem Oktoberfest. Daher können wir den Erwartungswert nie exakt berechnen, sondern immer nur anhand einer Stichprobe schätzen.

Es ergibt sich nun mathematisch, dass der Stichprobenmittelwert auch der beste Schätzer für den Erwartungswert in der Grundgesamtheit ist – und genau deswegen sind die beiden Formeln (Stichprobenmittelwert und Erwartungswertschätzer) identisch. Auf dem Weg zur statistischen Erleuchtung ist es aber hilfreich im Hinterkopf zu behalten, dass das zwei unterschiedliche Konzepte sind.

Dieses Konzept erkennt man dann auch an der mathematischen Notation wieder. Der Mittelwert einer Stichprobe wird z.B. einfach \(\bar{x}\) („x quer“) genannt, aber der Schätzer für den Erwartungswert wird mit \(\hat{\mu}\) („mu Dach“) bezeichnet. Das Dach über einem Buchstaben (egal ob griechisch oder nicht) deutet darauf hin, dass der Buchstabe darunter geschätzt wird. \(\hat{\mu}\) ist also ein Schätzwert für den „wahren“, aber unbekannten Wert \(\mu\).

Prozentualer Anteil

Wir schätzen einen prozentualen Anteil, wenn wir ein nominales Merkmal mit nur zwei möglichen Ausprägungen („ja“ und „nein“) haben. Dann kodieren wir das Merkmal zuerst in die Zahlen 1 und 0 um. Meistens steht die 1 für „ja“. Um nun einen Schätzwert für den Anteil \(p\) an „ja“ in der Grundgesamtheit zu bekommen, berechnen wir einfach den Anteil an „ja“ in der Stichprobe: Wir zählen alle „ja“-Antworten und teilen sie durch die Stichprobengröße \(n\).

Lasst uns 10 Maß Bier trinken, und für jede Maß \(i\) das Merkmal \(x_i\) notieren, eine 0 falls nicht genug Bier drin war, und eine 1 falls es mindestens 1 Liter war:

Bier \(x_i\) \(x_1\) \(x_2\) \(x_3\) \(x_4\) \(x_5\) \(x_6\) \(x_7\) \(x_8\) \(x_9\) \(x_{10}\)
voll? 1 0 0 1 0 0 0 1 0 0

Die Formel für den Schätzer für \(p\) dafür lautet dann:

\[\hat{p} = \frac{\sum_{i=1}^n x_i}{n}\]

Die Summe im Zähler bedeutet einfach, dass wir alle Antworten aufsummieren. Da die „nein“-Antworten alle als 0 kodiert wurden, werden sie in der Summe nicht beachtet, und nur die Einser, also die „ja“-Antworten werden gezählt.

Der Schätzer für den Anteil an fair befüllten Krügen in der Grundgesamtheit wäre dann also:

\[\hat{p} = \frac{1+0+0+1+0+0+0+1+0+0}{10} = 0.3\]

Mit der 1 bezeichnen wir ja einen voll gefüllten Maßkrug, und mit der 0 einen Krug mit weniger als einem Liter Inhalt. Wir schätzen also, dass 30% aller Krüge auf dem Oktoberfest fair befüllt werden.

Erwartungswert

Was, wenn wir aber genauer abschätzen wollen, wie voll die Krüge befüllt werden? Dann sollten wir lieber etwas genauer den Erwartungswert des Inhalts schätzen, statt nur die Frage ob genug oder zuwenig Inhalt im Krug ist.

Zum Glück haben wir immer noch Durst, und bestellen nocheinmal 8 Maß Bier. Bei jedem Krug \(i\) wiegen wir nun nach, wieviel Inhalt (also \(x_i\)) genau drin ist,

Bier \(x_i\) \(x_1\) \(x_2\) \(x_3\) \(x_4\) \(x_5\) \(x_6\) \(x_7\) \(x_8\)
Inhalt (ml) 961 1012 970 940 1024 868 931 975

Die Formel um den Erwartungswert zu schätzen (also \(\hat{\mu}\) ist dieselbe wie die für den Stichprobenmittelwert, also für \(\bar{x}\)):

\[\hat{\mu} = \frac{1}{n} \cdot \sum_{i=1}^n x_i\]

Bei uns ist es:

\[\begin{align*}\hat{\mu} = \frac{1}{8} \cdot (& 961+1012+970+940+ \\ &1024+868+931+975) = 960.125 \end{align*} \]

Durch unsere Stichprobe haben wir also geschätzt, dass in der Grundgesamtheit im Mittel ca. 960ml Bier in einen Krug gefüllt werden.

Varianz

Der Schätzer von 960ml gibt uns schon einen Hinweis darauf, dass evtl. systematisch, also absichtlich, zuwenig Bier in die Krüge gefüllt wird. Um das genauer zu untersuchen, sollte man sich aber auch die Varianz der Daten ansehen. Denn es macht einen großen Unterschied ob jeder Krug mit ziemlich genau 960ml befüllt wird, oder ob manche Krüge mit 860ml, dafür manch andere mit 1060ml befüllt werden. Im zweiten Fall könnte es einfach auch sein, dass das Zapfpersonal sehr unterschiedlich einschenkt, und der niedrige durchschnittliche Inhalt von 960ml nur durch Zufall enstanden ist.

Unser Verdacht auf absichtlich niedrige Befüllung hängt also nicht nur vom Mittelwert, sondern auch von der Varianz in der Stichprobe ab. Dieses Konzept wird beim Berechnen des Konfidenzintervalls, und auch beim Hypothesentest sehr wichtig sein.

Die wahre Varianz wird mit \(\sigma^2\) bezeichnet, der Schätzer dafür lautet also \(\hat{\sigma}^2\). Die Formel ist identisch mit der Formel für die Stichprobenvarianz, also für \(s^2\):

\[ \hat{\sigma}^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2 \]

Dabei ist \(\bar{x}\) der Mittelwert der Daten. Bei uns ist er 960.125ml. Für dieses Beispiel kommt heraus:

\[\begin{align*}\hat{\sigma}^2 = \frac{1}{8-1} \cdot (&0.766 + 2691.016 + 97.516 + 405.016 +  \\ &4080.016 + 8487.016 +848.266 + 221.266) = 2404.41 \end{align*} \]

Die Zahlen in der Summe sind jeweils die einzelnen Terme für \((x_i-\bar{x})^2\), also die erste Zahl, 0.766, haben wir erhalten durch \((x_1-\bar{x})^2 = (961 – 960.125)^2\).

Wir schätzen also, dass die Varianz in der Grundgesamtheit bei 2404.41 liegt.

Was ist ein Parameter?

Die Aufgabe in der schließenden Statistik (oder Inferenzstatistik) ist es meistens, eine fundierte Aussage über das Verhalten eines Merkmals zu treffen. Die bestmögliche Information, die wir über ein Merkmal halten können, wäre seine gesamte Verteilung. Denn wenn wir die Verteilung (oder der Dichtefunktion) genau kennen, können wir alle wichtigen Fragen über dieses Merkmal beantworten, zum Beispiel:

  • Was ist der Mittelwert dieses Merkmals? (wie man das mit Hilfe der Dichtefunktion machen würde, ist hier erklärt)
  • Wieviel Prozent der Beobachtungen werden größer sein als 100? (Das ist der Wert der Verteilungsfunktion an der Stelle \(x=100\))
  • Was ist der Median? (das wäre das 50%-Quantil)
  • Welchen Wert des Merkmals werden nur 10% der Beobachtungen unterschreiten? (das wäre das 10%-Quantil)

Nehmen wir ein praktisches Beispiel zur Veranschaulichung: Wir möchten gerne herausfinden, wieviel Bier im Durchschnitt in einem Maßkrug auf dem Oktoberfest eingeschenkt wird. Wir vermuten nämlich, dass häufig zu wenig Bier gezapft wird, und die Krüge im Durchschnittmit weniger als einem Liter befüllt sind. Die Verteilung des Inhals eines Maßkrugs könnte in der Wahrheit zum Beispiel so aussehen:

In dieser Verteilung können wir z.B. ablesen, dass viele Krüge „fair“, d.h. in der Nähe von 1000ml befüllt sind, aber einige auch nur 950ml enthalten.

Es ist allerdings nicht sehr einfach, die gesamte Verteilung eines Merkmals so frei „von vorne“ zu bestimmen. Die Verteilung im oberen Bild lässt sich auch schwer beschreiben bzw. zusammenfassen – wir müssten die Grafik, oder eine lange Tabelle erstellen. Erst mit Hilfe dieser Tabelle würden wir dann z.B. Quantile berechnen

Stattdessen vereinfacht man sich diese Aufgabe in der Statistik häufig, indem man eine bestimmte Verteilungsfamilie unterstellt, man trifft also eine Annahme. Wir können zum Beispiel annehmen, dass der Inhalt eines Maßkrugs normalverteilt ist. Dann könnten wir davon ausgehen, dass der Inhalt eines Krugs vielleicht wie folgt verteilt ist:

Der Vorteil, die Verteilung vorher durch eine Annahme festzulegen ist, dass wir diese Verteilung jetzt ganz einfach durch zwei Parameter beschreiben können, nämlich die beiden Parameter der Normalverteilung: Mittelwert \(\mu\) und Varianz \(\sigma^2\). Jetzt reichen uns im Gegensatz zur oberen Grafik diese zwei Parameter, um die Verteilung vollständig zu charakterisieren: Es handelt sich um eine Normalverteilung mit den Parametern \(\mu = 985\) und \(\sigma^2 = 225\). Damit können wir sofort z.B. bestimmen, welchen Inhalt die 10% am wenigsten befüllten Krüge nicht überschreiten (es wäre das 10%-Quantil, hier 965.8ml – die Anleitung dazu zum Nachrechnen findet sich hier).

Wozu brauchen wir Parameterschätzung?

Um den Sinn der Parameterschätzung zu verstehen, muss man sich nur ein paar Dinge bewußt machen:

  1. Wir möchten eine Aussage über das Verhalten (z.B. den Mittelwert) eines bestimmten Merkmals in einer Grundgesamtheit treffen.
  2. Leider können wir nicht alle Daten, d.h. die ganze Grundgesamtheit, erhalten. Stattdessen bekommen wir nur eine Stichprobe, z.B. 100 Personen aus der Grundgesamtheit.
  3. Das beste was wir mit der Stichprobe machen können, ist einen Schätzwert für den Parameter zu berechnen.
  4. Wenn unsere Stichprobe groß genug und repräsentativ ist, können wir davon ausgehen dass dieser Schätzwert nah genug am wahren Wert liegt, so dass dieses Ergebnis für unsere Arbeit trotzdem hilfreich ist.

Greifen wir das oben erwähnte Beispiel mit den Maßkrügen nocheinmal auf:

Die Grundgesamtheit, über die wir hier eine Aussage machen wollen, sind alle ausgeschenkten Maßkrüge. Hätten wir diese Daten verfügbar, bräuchten wir den Mittelwert der Grundgesamtheit, d.h. aller Maßkrüge, gar nicht schätzen, sondern könnten ihn exakt berechnen!

Wir haben allerdings nur eine Stichprobe, zum Beispiel von 100 Maßkrügen. Wenn wir den Mittelwert des Inhalts dieser 100 Krüge berechnen, dann ist das höchstwahrscheinlich nicht exakt der wahre Mittelwert in der Grundgesamtheit, aber er wird nah genug daran liegen, dass dieser Wert trotzdem hilfreich ist. Wäre er das nicht, dann wäre der Job eines Statistikers nämlich ganz sinnlos. 🙂

Parameterschätzer sind die Grundlage für Hypothesentests

Ein weiterer wichtiger Punkt: Wir brauchen Parameterschätzer, um mit ihnen als nächsten Schritt Hypothesentests durchzuführen. Der Zusammenhang zwischen diesen Konzepten ist der folgende:

  • Für eine einzelne Stichprobe können wir natürlich ihren wahren Mittelwert berechnen – das ist einfach ihr Mittelwert, aus dem Bereich der deskriptiven Statistik.
  • Wir wissen dadurch allerdings noch nicht den wahren/gesamten Mittelwert in der Grundgesamtheit.
  • Den gesamten Mittelwert der Grundgesamtheit können wir allerdings mit Hilfe der Stichprobe schätzen. Er wird „wahrscheinlich“ in der Nähe des Mittelwerts der Stichprobe liegen. Das ist also unser Schätzer für den gesamten Mittelwert.
  • Mit Hilfe dieses Schätzers können wir nun einen Schritt weiter gehen, und Vermutungen (d.h. Hypothesen) über die Grundgesamtheit formulieren und überprüfen (testen) – zum Beispiel:
    • Der Stichprobenmittelwert ist zwar 12,4, aber könnte es noch sein, dass der wahre Mittelwert 10 ist? (Diese Frage beantwortet ein Hypothesentest).
    • In welchem Bereich liegt der gesamte Mittelwert der Grundgesamtheit mit einer Wahrscheinlichkeit von 95%? (diese Frage beantwortet dann ein Intervallschätzer).
      • Anmerkung: Diese Interpretation eines Intervallschätzers ist formal nicht ganz korrekt, aber viel einleuchtender für das Verständnis – und darum geht es mir in diesem Blog. Die Götter der Mathematik mögen mir vergeben 🙂

Alle diese Fragen beantwortet man mit Hilfe von gesammelten Daten und vorgegebenen Formeln, und in jedem Fall braucht man dafür als Zwischenschritt einen Parameterschätzer.

Was kann man schätzen?

Typischerweise, und besonders in einführenden Statistikveranstaltungen, schätzt man einen von drei Parametern eines Merkmals: (häufig bei nominalen Merkmalen) ein Prozentteil, sein Erwartungswert, oder seine Varianz.

Prozentuale Anteile

Wenn wir ein Merkmal mit nur zwei möglichen Ausprägungen (meistens „ja“ und „nein“) haben, interessiert uns zuallererst, wieviel Prozent der Beobachtungen „ja“ sind.

Messen wir z.B. auf dem Oktoberfest nach, ob ein Maßkrug mit weniger als einem Liter Bier befüllt ist, dann notieren wir pro Krug ein „ja“ oder ein „nein“, und können am Ende mit dieser Stichprobe schätzen, wieviel Prozent aller Krüge allgemein zuwenig Inhalt haben.

Erwartungswert

Der Erwartungswert eines Merkmals ist das Ergebnis, das wir im Durchschnitt erwarten würden. Wenn wir z.B. nicht nur wissen wollen ob ein Maßkrug zuwenig oder ausreichend Inhalt hat, sondern den genauen Inhalt in Milliliter messen wollen, ist der Erwartungswert einfach die durchschnittliche Biermenge in einem Glas. Angenommen wir bestellen 10 Maß Bier, und erhalten einen Schätzer von 950ml für den Erwartungswert, könnten wir schon misstrauisch werden, dass die Krüge fair befüllt werden.

Varianz

Oft reicht uns die Information nicht aus, dass z.B. im Erwartungswert nur 950ml Bier in einem Maßkrug enthalten sind. Es kommen eigentlich sofort weitere Fragen auf: Ist denn jeder Krug mit ziemlich genau 950ml befüllt, oder gibt es Krüge mit 850ml Inhalt, aber dafür auch andere Krüge mit 1050ml Inhalt? Und wie sicher können wir uns sein, dass der wahre Durchschnitt tatsächlich unter 1000ml liegt?

Solche Fragen werden mit Hilfe der Varianz beantwortet. Die Streuung eines Merkmals gibt uns Hinweise darauf, wie weit entfernt vom Erwartungswert die einzelnen Beobachtungen typischerweise sind.

Andere Verteilungsparameter

Man kann noch einige andere Parameter schätzen, die hier kurz erwähnt werden sollen, aber nicht ausgeführt werden. Zum Beispiel kann man genauso wie man den Erwartungswert schätzt, auch bestimmte Quantile einer Verteilung schätzen. Nimmt man das 50%-Quantil, schätzt man gleichbedeutend den Median einer Verteilung.

Für bestimmte Verteilungen schätzt man nicht Erwartungswert oder Varianz, sondern andere, eigene Parameter dieser Verteilung. Für die Exponentialverteilung schätzt man etwa ihren Parameter \(\lambda\).

Es ist sogar möglich, die gesamte Dichte eines Merkmals zu schätzen, ohne eine Annahme über die Verteilung zu treffen. Damit könnte man etwa die Dichte der ersten Grafik in diesem Artikel erstellen, ohne sie vorher zu kennen. Solche Methoden heißen (Kern-)Dichteschätzer, sie sind allerdings eher ein Thema für fortgeschrittene Statistikveranstaltungen.

Chi-Quadrat-Test: Abhängigkeit zwischen zwei nominalen Variablen testen

Was ist ein Chi-Quadrat-Test?

Den Chi-Quadrat-Test gibt es eigentlich nicht. Genauso wie es einige verschiedene t-Tests gibt, so bezeichnet man mit „Chi-Quadrat-Test“ (bzw. \(\chi^2\)-Test, das ist der griechische Buchstabe „Chi“) auch eine Reihe von verschiedenen Tests. Was sie alle gemeinsam haben, ist dass ihre Prüfgröße eine Chi-Quadrat-Verteilung hat.

Ein häufiger Anwendungsfall für den Chi-Quadrat-Test, den wir auch in diesem Artikel behandeln, ist das Testen ob zwei nominale Variablen voneinander abhängig sind, ob sie sich also gegenseitig beeinflussen. Wir fragen z.B. 80 Personen nach ihrem Geschlecht, und nach der von ihr zuletzt gewählten Partei. Wenn wir nun untersuchen möchten ob Frauen und Männer ein unterschiedliches Wahlverhalten haben, geht das mit dem Chi-Quadrat-Test.

Allgemein formuliert testen wir, ob zwei nominalskalierte Variablen abhängig sind. Falls z.B. das Geschlecht einer Person und die zuletzt gewählte Partei voneinander abhängig sind, und wir die gewählte Partei erraten wollen, dann hilft es uns, von einer bestimmten Person das Geschlecht zu kennen. Bei unabhängigen Variablen würde uns die eine Variable nicht helfen, die andere vorherzusagen. Ein Beispiel für zwei unabhängige Variablen wäre das Geschlecht einer Person, und ihre Augenfarbe. Es hilft uns wahrscheinlich nicht dabei, die Augenfarbe von Person X vorherzusagen, wenn wir erfahren, dass es sich dabei um eine Frau handelt.

Eine weitere Analyse die einen Chi-Quadrat-Test verwendet, wäre das Testen ob eine einzelne nominale Variable eine bestimmte Verteilung hat. So könnte z.B. ein Betreiber des öffentlichen Nahverkehrs vermuten, dass bei ihm 30% der Passagiere eine Einzelfahrkarte haben, 65% eine Monatskarte, und 5% Schwarzfahrer sind. Wenn es nun 100 Personen nach ihrer Fahrkarte fragt, kann es mit diesen Daten einen Chi-Quadrat-Test durchführen, um seine Annahme zu überprüfen. Diese Variante wird oft auch Chi-Quadrat-Anpassungstest genannt (Dieser Fall findet sich auch in der Tabelle zur Testwahl wieder, wird aber hier nicht behandelt).

Einführende Artikel

Zum Einstieg sollte man sich zu Beginn die folgenden beiden Artikel durchlesen:

In ihnen beschreibe ich ganz allgemein die Schritte, mit denen man einen Hypothesentest durchführt. Dadurch werden die einzelnen Teile in diesem Artikel verständlicher.

1. Hypothesen aufstellen

Wir betrachten in diesem Artikel das oben erwähnte Beispiel. Wir fragen 80 Personen nach ihrem Geschlecht, und der zuletzt gewählten Partei. Die Hypothesen bei diesem Test lauten immer gleich:

  • \(H_0\): Die beiden Variablen \(X\) und \(Y\) sind unabhängig
  • \(H_1\): Die beiden Variablen \(X\) und \(Y\) sind voneinander abhängig

Welche der Variablen man \(X\) und welche man \(Y\) nennt, ist eigentlich egal. Man kann auch andere Buchstaben verwenden die man sich leichter merken kann, z.B. \(G\) für das Geschlecht, und \(P\) für die Partei.

Welche Hypothese die Null- und welche die Alternativhypothese wird, ist bei dieser Aufgabenformulierung manchmal nicht eindeutig formuliert. Aber man kann sich merken, dass man solche Tests immer nur in eine Richtung rechnen kann: Die Situation „die beiden Variablen sind abhängig“ muss immer in die Alternativhypothese.

2. Test wählen

Wir führen hier einen Chi-Quadrat-Test durch. Die Tabelle zur Testwahl hätte uns das auch vorgeschlagen, da wir eine nominale Zielgröße haben (die Partei) und eine nominale Einflussgröße (das Geschlecht).

Notiz am Rande: Der Fisher-Test, der in dieser Tabelle als Alternative vorgeschlagen wird, hat das gleiche Ziel wie der Chi-Quadrat-Test, aber ist im Ergebnis etwas genauer – dafür aber auch rechenaufwändiger. Als Faustregel hat sich eingebürgert, dass man den Chi-Quadrat-Test immer dann verwenden darf, wenn in jeder einzelnen Zelle der in Schritt 4 erstellten Kreuztabelle eine Zahl größer oder gleich 5 steht.

3. Signifikanzniveau festlegen

Wie in allen anderen besprochenen Tests hier können wir auch beim Chi-Quadrat-Test das Signifikanzniveau wählen. Hier verwenden wir die üblichen 5%, also setzen wir das Signifikanzniveau \(\alpha = 0.05\) fest.

4. Daten sammeln

Die Ausgangslage, die wir für einen Chi-Quadrat-Test benötigen, ist immer eine Kreuztabelle der beiden Variablen.

Die Ergebnisse bekommen wir als Liste, aber wir können sie einfach in eine Kreuztabelle zusammenfassen. Als Ausgangssituation haben wir oft eine Liste der folgenden Form:

Person \(i\) Geschlecht Partei
1 männlich CDU/CSU
2 weiblich Sonstige
3 männlich SPD
\(\vdots\) \(\vdots\) \(\vdots\)

Wir formen diese Daten um in eine Kreuztabelle (Diese Tabelle haben wir im Artikel zu Kreuztabellen schon mal gesehen):

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 26 22 8 12 16 84
Frauen 36 28 14 14 24 116
Summe 62 50 22 26 40 200

5. Prüfgröße berechnen

Die Prüfgröße kennen wir bereits aus der deskriptiven Statistik. Sie ist nämlich exakt dasselbe wie der Chi-Quadrat-Koeffizient \(\chi^2\). Die Berechnung dieses Wertes ist im dortigen Artikel erklärt, auch die Herleitung, warum man ihn so berechnet, wird dort erläutert. Ich gebe hier daher die Herleitung der Prüfgröße relativ knapp erklärt wieder.

Wir gehen in zwei Schritten vor. Zuerst berechnen wir die Unabhängigkeitstabelle, und danach den Chi-Quadrat-Koeffizienten, d.h. die Prüfgröße.

Um die Unabhängigkeitstabelle zu erstellen, beginnen wir mit der (bis auf die Randhäufigkeiten) leeren Kreuztabelle der Umfragewerte:

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 84
Frauen 116
Summe 62 50 22 26 40 200

Dort fügen wir jetzt für jede Zelle die erwartete Häufigkeit ein, d.h. die Anzahl an Personen, die wir erwarten würden wenn die beiden Merkmale „Geschlecht“ und „Partei“ nichts miteinander zu tun hätten. Die Formel dafür (für Zeile \(i\) und Spalte \(j\)) lautet:

\[ e_{ij} = \frac{h_{i\cdot} \cdot h_{\cdot j}}{n} \]

Zum Beispiel ist der erwartete Anteil der männlichen FDP-Wähler \(e_{13} = \frac{84\cdot 22}{200} = 9.24\).

Wie gesagt, im Artikel zum Chi-Quadrat-Koeffizienten ist dieses Vorgehen ein bisschen detaillierter erklärt.

Die erwarteten Häufigkeiten können wir jetzt in die Tabelle eintragen, um den zweiten Schritt, das Berechnen von \(\chi^2\), übersichtlicher machen zu können:

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 26.04 21 9.24 10.92 16.80 84
Frauen 35.96 29 12.76 15.08 23.20 116
Summe 62 50 22 26 40 200

Mit den übersichtlich gesammelten Werten für \(e_{ij}\) können wir nun die Prüfgröße anhand der folgenden Formel berechnen:

\[ \chi^2 = \sum_{i=1}^I \sum_{j=1}^J \frac{(h_{ij}-e_{ij})^2}{e_{ij}} \]

Was das in Worten bedeutet: Wir müssen für jede der 10 Zellen den Unterschied zwischen tatsächlicher und erwarteter Häufigkeit berechnen, diesen Unterschied dann quadrieren, und ihn nochmal durch die erwartete Häufigkeit teilen. Die so erhaltenen 10 Werte summieren wir einfach auf, und das Ergebnis ist die Prüfgröße.

Für die Zelle „weibliche FDP-Wähler“, also Zeile 2 und Spalte 3, sähe das beispielhaft so aus: \(\frac{(14-12.76)^2}{12.76} = 0.1205\)

Alle 10 Werte, wer es selbst nachrechnen möchte, fasse ich hier kurz zusammen:

SPD CDU/CSU FDP Grüne Sonstige
Männer 0.00006 0.0476 0.1664 0.1068 0.0381
Frauen 0.00004 0.0344 0.1205 0.0773 0.0276

Und die fertige Prüfgröße \(\chi^2\) ist jetzt einfach die Summe dieser 10 Werte:

\[ \chi^2 = 0.6188 \]

6. Verteilung der Prüfgröße bestimmen

Die Prüfgröße heißt \(\chi^2\), und sie hat passenderweise auch eine \(\chi^2\)-Verteilung. Wir müssen zum richtigen Ablesen der kritischen Werte allerdings noch die Anzahl der Freiheitsgrade bestimmen. Was damit gemeint ist, ist für einführende Statistikveranstaltungen nicht so wichtig – man darf nur nicht vergessen, diesen Wert zu berechnen, und dann in der Verteilungstabelle auch am richtigen Ort nachzusehen.

Die Prüfgröße ist also \(\chi^2\)-verteilt, und zwar  mit \((I-1)\cdot (J-1)\) Freiheitsgraden. Dabei ist mit \(I\) die Anzahl der Zeilen in der Kreuztabelle gemeint, und mit \(J\) die Anzahl der Spalten.

Bei unserem Beispiel sind es also \((2-1) \cdot (5-1) = 4\) Freiheitsgrade.

7. Kritischen Bereich (oder p-Wert) berechnen

Beim Chi-Quadrat-Test gibt es glücklicherweise nur eine Testvariante. Beim t-Test hatten wir dagegen drei mögliche Testrichtungen, je nachdem wie die Alternativhypothese formuliert war: kleiner, größer, oder ungleich einem vorher bestimmten Mittelwert.

Das Berechnen des kritischen Bereichs ist beim Chi-Quadrat-Test also im Gegensatz zum t-Test sehr einfach: Wenn unser Signifikanzniveau \(\alpha\) die üblichen 5% sind, also \(\alpha=0.05\), dann suchen wir das 95%-Quantil (also allgemein \(1-\alpha\)) der \(\chi^2\)-Verteilung mit den vorher berechneten Freiheitsgraden – bei uns 4.

In der Verteilungstabelle lesen wir dann ab: Für 4 Freiheitsgrade und dem Quantil 0.95, also 95%, beträgt der Wert 9.488.

Die Schranke zum kritischen Wert ist also 9.488, und beim Chi-Quadrat-Test ist der kritische Bereich immer der Bereich über der kritischen Schranke. Das heißt, dass alle Prüfgrößen über 9.488 in unserem Fall dazu führen dass wir die Nullhypothese ablehnen, und damit die beiden Variablen „Geschlecht“ und „Partei“ voneinander abhängig sind.

8. Testentscheidung treffen

Im 5. Schritt haben wir die Prüfgröße berechnet als 0.6188. Der kritische Bereich, den wir im 7. Schritt berechnet haben, ist der Bereich über 9.488. Da unsere Prüfgröße aber nicht im kritischen Bereich liegt, können wir in dieser Analyse die Nullhypothese nicht ablehnen.

Wir konnten also hier keine ausreichenden Beweise dafür finden, dass das Wahlverhalten von Männern und Frauen unterschiedlich ist.

Klausuraufgabe

Ein KFZ-Versicherer gibt eine Studie in Auftrag, um zu überprüfen ob Fahrer von verschiedenen Autotypen unterschiedlich oft Geschwindigkeitsüberschreitungen begehen. Dazu werden einen Tag lang Daten von einem Blitzer erfasst, und zwar von insgesamt 450 Autos der Typ (Kleinwagen, Limousine, Kombi, sonstige), und ob sie zu schnell waren oder nicht. Das Ergebnis dieser Erhebung ist in der folgenden Tabelle zusammengefasst:

Kleinwagen Limousine Kombi Sonstige
nicht zu schnell 87 82 78 80
zu schnell 21 44 35 23

Führe einen geeigneten Hypothesentest zum Niveau \(\alpha=0.01\) durch, um zu überprüfen ob die beiden Variablen abhängig sind oder nicht.

Lösung (klick)

Wir gehen nach den üblichen 8 Schritten beim Testen vor:

1. Hypothesen aufstellen

Das Versicherungsunternehmen möchte testen ob die beiden Variablen abhängig sind. Die Hypothesen lauten also „Autotyp und Geschwindigkeitsüberschreitung sind unabhängig“, und „Autotyp und Geschwindigkeitsüberschreitung sind abhängig“.

Da die Situation „die Variablen sind Abhängig“ bei dieser Testform immer in die Alternativhypothese muss, lauten die Hypothesen schließlich:

  • \(H_0\): Der Autotyp und die Geschwindigkeitsüberschreitung sind unabhängig
  • \(H_1\): Der Autotyp und die Geschwindigkeitsüberschreitung sind abhängig

2. Test wählen

Da wir eine nominale Zielgröße haben (die Geschwindigkeitsüberschreitung) und eine nominale Einflussgröße (der Autotyp), führen wir hier einen Chi-Quadrat-Test durch. In der Tabelle zur Testwahl kann man diese Situation auch nachschlagen.

3. Signifikanzniveau festlegen

In dieser Aufgabe wurde uns vorgegeben, zum Niveau \(\alpha=0.01\) zu testen.

4. Daten sammeln

Die Daten wurden uns in der Aufgabe schon gegeben. Allerdings fehlen noch die für den Test wichtigen Randhäufigkeiten. Wir summieren also jede Zeile und Spalte und schreiben uns diese Werte noch zusätzlich an die Tabelle:

Kleinwagen Limousine Kombi Sonstige Summe
nicht zu schnell 87 82 78 80 327
zu schnell 21 44 35 23 123
Summe 108 126 113 103 450

5. Prüfgröße berechnen

Um die Prüfgröße zu berechnen, gehen wir am besten in zwei Schritten vor, um nicht durcheinanderzukommen und keine Flüchtigkeitsfehler zu machen.

Wir berechnen also zuerst die Unabhängigkeitstabelle. Dazu beginnen wir mit der Tabelle, in der nur noch die Randhäufigkeiten stehen:

Kleinwagen Limousine Kombi Sonstige Summe
nicht zu schnell 327
zu schnell 123
Summe 108 126 113 103 450

Jetzt füllen wir für jede Zeile \(i\) und jede Spalte \(j\) die erwarteten Häufigkeiten \(e_{ij}\) ein, nach der üblichen Formel:

\[ e_{ij} = \frac{h_{i\cdot} \cdot h_{\cdot j}}{n} \]

Zum Beispiel ist der erwartete Anteil der zu schnellen Autos unter den Kombis \(e_{23} = \frac{123\cdot 113}{450} = 30.89\). Analog dazu füllen wir die restlichen Werte ein:

Kleinwagen Limousine Kombi Sonstige Summe
nicht zu schnell 78.48 91.56 82.11 74.85 327
zu schnell 29.52 34.44 30.89 28.15 123
Summe 108 126 113 103 450

Damit berechnen wir nun die Prüfgröße anhand der Formel

\[ \chi^2 = \sum_{i=1}^I \sum_{j=1}^J \frac{(h_{ij}-e_{ij})^2}{e_{ij}} \]

Wir berechnen also für jede Zelle den Wert \(\frac{(h_{ij}-e_{ij})^2}{e_{ij}}\). In der ersten Zeile und ersten Spalte, d.h. für die „nicht zu schnellen“ Kleinwägen, wäre das \(\frac{(87-78.48)^2}{78.48} = 0.925\). Für die restlichen Zellen rechnen wir die Werte ebenso aus, und können sie der Übersichtlichkeit halber auch in einer Tabelle notieren:

Kleinwagen Limousine Kombi Sonstige
nicht zu schnell 0.925 0.998 0.206 0.354
zu schnell 2.459 2.654 0.547 0.942

Die Prüfgröße \(\chi^2\) ist nun die Summe all dieser Werte, insgesamt also

\[\chi^2 = 9.085 \]

6. Verteilung der Prüfgröße bestimmen

Die Prüfgröße beim Chi-Quadrat-Test ist \(\chi^2\)-verteilt mit \((I-1)\cdot (J-1)\) Freiheitsgraden. wobei \(I\) die Anzahl der Zeilen, und \(J\) die Anzahl der Spalten der Kreuztabelle ist. Bei uns haben wir also \(1\cdot 3 = 3\) Freiheitsgrade. Das heißt also:

\[\chi^2 \sim \chi^2(3)\]

7. Kritischen Bereich (oder p-Wert) berechnen

Da wir bei diesem Test zum Signifikanzniveau 1%, also \(\alpha=0.01\) testen, benötigen wir das äußerste 1% der Chi-Quadrat-Verteilung. Das äußerste 1% ist der Teil der größer ist als das 99%-Quantil dieser Verteilung. In der \(\chi^2\)-Verteilungstabelle sehen wir nach, welchen Wert das 99%-Quantil der \(\chi^2\)-Verteilung mit 3 Freiheitsgraden hat, und bekommen als Ergebnis 11.345.

Der kritische Bereich ist also jeder Wert von \(\chi^2\) der größer als 11.345 ist. Falls also unsere Prüfgröße über 11.345 liegt, dann können wir die Nullhypothese ablehnen, was bedeutet dass wir nachgewiesen haben, dass der Autotyp und die Geschwindigkeitsüberschreitung zusammenhängen, d.h. abhängig voneinander sind.

8. Testentscheidung treffen

Bei uns ist die Prüfgröße in Schritt 5 allerdings 9.085, d.h. sie liegt nicht im kritischen Bereich. Wir können also zum Niveau von \(\alpha=0.01\) nicht nachweisen, dass eine Abhängigkeit zwischen den beiden Variablen besteht.

Anmerkung: Falls als Signifikanzniveau „nur“ ein Wert von \(\alpha=0.05\) vorgegeben worden wäre, dann hätten wir bei diesem Test die Nullhypothese abgelehnt, und hätten eine Abhängigkeit nachgewiesen. Für das „strengere“ Signifikanzniveau von \(\alpha=0.01\) waren die Daten aber noch nicht eindeutig genug, um auf eine Abhängigkeit schließen zu können.

Zweistichproben-t-Test: Mittelwerte zweier Gruppen vergleichen

Einführende Artikel

Zum Einstieg in das Thema Hypothesentests sollte man sich zu Beginn die folgenden beiden Artikel durchlesen:

In ihnen beschreibe ich ganz allgemein die Schritte, mit denen man einen Hypothesentest durchführt. Dadurch werden die einzelnen Teile in diesem Artikel verständlicher.

Außerdem macht es Sinn, den Artikel zum Binomialtest zu lesen, da ich dort noch etwas ausführlicher beschrieben habe, wie man die allgemeinen Prinzipien auf einen speziellen Test anwendet. Falls hier etwas nur kurz beschrieben wird, dann ist es im Artikel zum BInomialtest evtl. ausführlicher verständlicher erklärt worden.

Der Zweistichproben-t-Test

Der einfachste Fall eines t-Tests ist der Einstichproben-t-Test, den wir in einem eigenen Artikel bereits behandelt haben. Allerdings ist es in der Praxis üblicher, dass man nicht nur eine, sondern zwei Gruppen hat, und deren Mittelwerte vergleichen möchte. Ein typisches Beispiel sind Messungen, die an Patienten mit einer bestimmten Krankheit vorgenommen werden, und dann „zur Kontrolle“ an einer anderen Gruppe von gesunden Menschen.

In diesem Fall handelt es sich um zwei unabhängige Gruppen. Unabhängig bedeutet hier, dass die Personen (oder Objekte) aus der ersten Gruppe nichts mit denen aus der zweiten Gruppe zu tun haben. Im gepaarten t-Test war das anders, da waren in der ersten und zweiten Gruppe dieselben Personen, nur eben vor bzw. nach einer bestimmten Behandlung.

1. Hypothesen aufstellen

Beim t-Test gibt es, genau wie beim Binomialtest, drei verschiedene Möglichkeiten, seine Hypothesen zu formulieren. Welche Variante man verwenden muss, hängt von der Fragestellung ab, die man untersucht. Dazu drei Beispiele:

  1. Ein Forschungsinstitut hat in den 1960er-Jahren untersucht, ob Nichtraucher eine längere Lebenserwartung haben. Dazu wurden in einer ersten Stichprobe von 8 bereits verstorbenen Rauchern das Alter zum Todeszeitpunkt notiert, und in einer zweiten Stichprobe von 6 Nichtrauchern ebenso.
    Um nachzuweisen, dass Nichtraucher eine längere Lebenserwartung haben, kommt dieser Fall in die Alternativhypothese (warum, wird hier erklärt). Wenn wir also die Lebenserwartung von Nichtrauchern mit \(\mu_N\) bezeichnen, und die der Raucher mit \(\mu_R\), lauten unsere Hypothesen:

    • \(H_0: \mu_N \leq \mu_R\)
    • \(H_1: \mu_N > \mu_R\)
  2. Um nachzuweisen, dass regelmäßiges Meditieren den Blutdruck senkt, hat ein Studio bei 7 seiner meditierenden Mitglieder den Blutdruck gemessen. Als Kontrollgruppe wurden 7 zufällige Leute auf der Straße, die nicht meditieren, angehalten, und bei ihnen ebefalls der Blutdruck gemessen.
    Da das Studio nachweisen möchte, dass die Meditierer einen niedrigeren durchschnittlichen Blutdruck haben, kommt dieser Fall in die Alternativhypothese. Wir bezeichnen mit \(\mu_M\) den mittleren Blutdruck von Meditierern, und mit \(\mu_N\) den der Nicht-meditierenden, und formen die folgenden Hypothesen:

    • \(H_0: \mu_M \geq \mu_N\)
    • \(H_1: \mu_M < \mu_N\)

    Es ist wohl hilfreich, wenn man diesen Fall genau betrachtet, und mit dem Beispiel aus dem Artikel zum gepaarten t-Test vergleicht: Dort wurde nämlich genau dieselbe Forschungsfrage untersucht, aber mit einem anderen Versuchsplan. Genauer gesagt: Es wurde hier kein vorher/nachher-Vergleich gemacht, in dem der Blutdruck für dieselbe Person vor und nach einer Meditation gemessen wurde, sondern es wurden zwei unabhängige Gruppen untersucht. Diese Tatsache führt dazu, dass wir in diesem Beispiel einen Zweistichproben-t-Test brauchen.

  3. Ein Forscher vermutet, dass ein Masterabschluss an einer Fachhochschule (FH) eher praktische Fähigkeiten vermittelt, und einer an der Universität eher theoretische Fähigkeiten. Er möchte nun untersuchen, ob diese unterschiedlichen Ansätze eine Auswirkung auf das spätere Einkommen haben. Dazu sucht er sich eine Gruppe von 100 Berufstätigen im ungefähr gleichen Alter von 40-45 Jahren, und notiert jeweils den Studienabschluss (also „Uni“ oder „FH“) sowie das Einkommen dieser Person.
    Da man theoretisch beide Möglichkeiten (FH-Absolventen verdienen mehr, oder Uni-Absolventen verdienen mehr) für denkbar hält, möchte man bezüglich der Richtung unvoreingenommen vorgehen – man führt also einen zweiseitigen Test durch. Wir bezeichnen das mittlere Einkommen von FH-Absolventen mit \(\mu_F\), das der Uni-Absolventen mit \(\mu_U\). Die Hypothesen lauten dann:

    • \(H_0: \mu_F = \mu_U\)
    • \(H_0: \mu_F \neq \mu_U\)

Die drei verschiedenen Möglichkeiten hängen also davon ab, in welche Richtung die Alternativhypothese geht (kleiner oder größer), bzw. ob sie einseitig oder – wie im dritten Beispiel – zweiseitig ist.

Für den restlichen Artikel konzentrieren wir uns auf das erste Beispiel, das mit der höheren Lebenserwartung von Nichtrauchern.

2. Test wählen

Um die Abfolge der 8 Schritte nicht zu verändern, die wir in den beiden einführenden Artikeln aufgestellt haben (erster und zweiter Artikel), nehme ich hier den 2. Schritt auch mit auf. Es ist natürlich schon klar, dass wir einen Zweistichproben-t-Test verwenden werden.

3. Signifikanzniveau festlegen

Wie in den vorherigen Artikeln schon beschrieben, legt das Signifikanzniveau die Wahrscheinlichkeit fest, mit der man einen bestimmten Fehler macht, nämlich die fälschliche Entscheidung dass die Alternativhypothese gilt, obwohl in Wirklichkeit die Nullhypothese wahr ist.

Allgemeiner Konsens ist hier ein Wert von 5%, also \(\alpha=0.05\). In besonders kritischen Fragestellungen, z.B. solchen, die die menschliche Gesundheit betreffen, muß das Signifikanzniveau oft niedriger gewählt werden, der Test wird dann konservativer. Hier wählt man z.B. \(\alpha=0.01\).

Für unsere Beispielaufgabe nehmen wir das übliche Signifikanzniveau von \(\alpha=0.05\).

4. Daten sammeln

In einer Klausur sind die Daten meist schon gegeben, aber in einer echten Untersuchung müssen wir sie natürlich erst sammeln. Beim Zweistichproben-t-Test brauchen wir, wie der Name schon sagt, zwei Stichproben. Das erreichte Lebensalter der 6 Nichtraucher sind in unserer Aufgabe die folgenden Werte:

\[ N = (80, 92, 74, 99, 69, 78) \]

Wir haben auch das Alter von 8 Rauchern erhalten:

\[ R = (81, 72, 68, 71, 59, 91, 71, 70) \]

5. Prüfgröße berechnen

Beim Zweistichproben-t-Test gibt es einige Spezialfälle, je nachdem ob die Varianz in den beiden Gruppen gleich bzw. verschieden ist, oder ob sie bekannt bzw. unbekannt ist. Ich möchte aber nicht auf alle diese Fälle eingehen, sondern nur auf den in der Praxis relevantesten: Die Varianzen der Merkmale in den zwei Gruppen sind nicht notwendigerweise gleich, und sie sind unbekannt.

Erstens tritt dieser Fall am häufigsten auf, und zweitens kann man diese Variante bei realistischen Stichproben immer, in jedem Fall, anwenden (als Faustregel gilt, wenn in beiden Gruppen mindestens 30 Beobachtungen gemacht wurden).

In diesem Fall müssen wir die folgenden Werte berechnen:

  • \(\bar{x}\), der Mittelwert in der ersten Gruppe (Nichtraucher). Bei uns ist \(\bar{x} = 82\).
    Vorsicht: Hier muss man aufpassen, die beiden Gruppen nicht zu verwechseln. Die Gruppe, die in den beiden Hypothesen zuerst, d.h. auf der linken Seite steht (die Nichtraucher), ist jetzt auch die erste Gruppe \(X\). Im Idealfall nennt man die Gruppen einfach von Anfang an \(X\) und \(Y\), aber es ist vielleicht zu Beginn etwas einleuchtender wenn man die Anfangsbuchstaben der zwei Gruppen verwendet.
  • \(n_x\), die Anzahl der Beobachtungen in der ersten Gruppe. Bei uns ist \(n_x = 6\), da wir 6 Nichtraucher untersucht haben.
  • \(s^2_x\), die Varianz in der ersten Gruppe. Bei uns ist \(s^2_x = 128.4\).
  • \(\bar{y}\), der Mittelwert in der zweiten Gruppe (Raucher). Bei uns ist \(\bar{y} = 72.875\). Das mittlere Lebensalter von Nichtrauchern ist also schonmal höher als das der Raucher. Ob es statistisch signifikant höher ist, finden wir jetzt heraus.
  • \(n_y\), die Anzahl der Beobachtungen in der zweiten Gruppe. Bei uns ist \(n_y = 8\)
  • \(s^2_y\), die Varianz in der zweiten Gruppe. Bei uns ist \(s^2_y = 89.554\).

Dann lautet die Prüfgröße \(T\):

\[ T = \frac{\bar{x} – \bar{y}}{\sqrt{\frac{s^2_x}{n_x} + \frac{s^2_y}{n_y}}} \]

Bei uns setzen wir also ein und erhalten:

\[ T = \frac{82 – 72.875}{\sqrt{\frac{128.4}{6} + \frac{89.554}{8}}} = 1.598 \]

Unsere Prüfgröße T hat also den Wert 1.598.

6. Verteilung der Prüfgröße bestimmen

Falls die Nullhypothese gilt, ist die Prüfgröße t-verteilt mit \(n_x + n_y – 2\) Freiheitsgraden:

\[ T \sim t(n_x + n_y – 2) \]

Bei uns ist das also eine t-Verteilung mit 6+8-2, also 12 Freiheitsgraden:

\[ T \sim t(12) \]

Notiz am Rande: In unterschiedlicher Literatur gibt es sowohl für den Nenner bei der Prüfgröße, als auch für die Anzahl der Freiheitsgrade hier, verschiedene Formeln. Das Thema ist etwas komplexer, aber in der Praxis vereinfacht sich das ungemein, da wir dann für die beiden Gruppen genügend Beobachtungen haben, und einen einfacheren Test verwenden können (wer es genau wissen will: Dann greift der zentrale Grenzwertsatz und wir können als Approximation die Normalverteilung statt der t-Verteilung verwenden).
In Klausuren ist es allerdings nicht machbar, Mittelwerte und Varianzen von mehr als 30 Beobachtungen zu berechnen, weswegen es in diesen Fällen dann doch immer zu diesen Formeln führt. Falls sich Formeln in euren Vorlesungen oder Formelsammlungen von den hier genannten unterscheiden, verwendet natürlich immer die Formeln die euer Professor euch vorgegeben hat.
Das grundlegende Prinzip wird sich dadurch nicht ändern, dieser Artikel ist also trotzdem sinnvoll. Nur die Zahl im Ergebnis wird ein wenig anders sein.

7. Kritischen Bereich (oder p-Wert) berechnen

Den kritischen Bereich berechnen wir genau so wie wir es beim Einstichproben-t-Test und beim gepaarten t-Test schon gemacht haben. Eine Einführung in diese Aufgabe, und ein paar weiter verdeutlichende Beispiele gibt es in diesen beiden Artikeln.

In dieser Aufgabe führen wir einen einseitigen t-Test durch, in dem die Alternative nach rechts zielt. Der kritische Bereich ist also der „höchste“ Bereich, d.h. die höchsten 5%, in die die t-Verteilung mit 12 Freiheitsgraden fällt. Mathematisch gesagt suchen wir als Schranke zu diesem Bereich das 95%-Quantil der t-Verteilung mit 12 Freiheitsgraden.

Alle Werte, die „rechts“ von dieser Schranke liegen, d.h. größer als diese Schranke sind, liegen nun im kritischen Bereich. Falls unsere Prüfgröße dort gelandet ist, lehnen wir die Nullhypothese ab.

Die genauen Werte erhalten wir aus der Tabelle der t-Verteilung (im Artikel zur t-Verteilung ist auch genauer erklärt, wie man das macht). Die rechte Schranke ist, wie schon gesagt, das 95%-Quantil der t-Verteilung mit 12 Freiheitsgraden, und aus der Tabelle lesen wir dafür den Wert 1.782 ab. Prüfe das am besten selbst nach, es ist für eine Klausur unerlässlich, das schnell und sicher zu können.

8. Testentscheidung treffen

Für die Entscheidung haben wir jetzt alle Informationen zusammen:

  • Die Prüfgröße ist \(T = 1,.598\).
  • Die Schranke zum kritischen Bereich ist bei 1.782. Der kritische Bereich sind alle Werte größer als diese Schranke (da wir einen einseitigen Test rechnen, bei dem die Alternativhypothese nach rechts zielt).

Unsere Prüfgröße liegt also nicht im kritischen Bereich. Daher können wir schlussfolgern, dass wir in dieser Analyse die Nullhypothese nicht ablehnen können. Es wurde also hier kein Beweis dafür gefunden, dass Nichtraucher länger leben als Raucher.

Hinweis: Das bedeutet ausdrücklich nicht, dass wir bewiesen haben dass Nichtraucher nicht länger leben als Raucher. Denn wir können \(H_0\) niemals „statistisch beweisen“, sondern nur \(H_1\). Diese Tatsache ist in diesem Artikel genauer erklärt.

Änderungen bei den zwei anderen Beispielen

Für die übrigen zwei Beispiele aus dem 1. Schritt, wenn die Alternativhypothese entweder zweiseitig ist, oder nach links statt nach rechts zielt, verändert sich nur der kritische Bereich in Schritt 7; die Prüfgröße \(T\) wird aber auf dieselbe Weise berechnet. Die Änderungen sind identisch wie im Einstichproben-t-Test, weswegen der Abschnitt im dortigen Artikel hier genauso angewendet werden kann.

Klasuraufgabe

Du wohnst gleich weit entfernt von zwei Lieferdiensten, dem Asiaten A, und der Pizzeria B. Du interessierst dich dafür, ob die durchschnittliche Zeit bis deine Bestellung bei dir ankommt bei beiden Diensten gleich ist, oder ob es Unterschiede gibt.

Daher bestellst du über ein Jahr lang abwechselnd bei den beiden Lieferanten, 7-mal beim Asiaten A, und 8-mal bei Pizzeria B (die schmeckt ein bisschen besser).

Die resultierenden Lieferzeiten sind in der folgenden Tabelle zusammengefasst:

Asiate A Pizzeria B
30 42
45 24
43 38
34 34
29 41
38 22
51 40
33

Führe einen Hypothesentest zum Niveau \(\alpha=0.1\) durch, um zu prüfen ob sich die beiden Mittelwerte der Lieferzeiten voneinander unterscheiden.

(Zur Vereinfachung können wir hier von einer Normalverteilung der Lieferzeiten ausgehen – ein t-Test ist also in Ordnung).

Lösung (klick)

Wir gehen nach den üblichen 8 Schritten beim Testen vor:

1. Hypothesen aufstellen

Uns interessiert, ob die beiden durchschnittlichen Lieferzeiten prinzipiell unterschiedlich sind, d.h. egal in welche Richtung. Wir müssen also einen zweiseitigen Test rechnen. Bezeichnen wir dazu die mittlere Lieferzeit des Asiaten mit \(\mu_A\), und die der Pizzeria mit \(\mu_B\), lauten die Hypothesen:

  • \(H_0: \mu_A = \mu_B\)
  • \(H_1: \mu_A \neq \mu_B\)

2. Test wählen

Anhand der Tabelle zur Testwahl lesen wir ab: Wir haben eine normalverteilte Zielgröße, und als Einflussgröße zwei Gruppen, die ungepaart, also unabhängig sind. Daher ist hier der Zweistichproben-t-Test angebracht.

3. Signifikanzniveau festlegen

Das Niveau \(\alpha\) wird in Klausuraufgaben meist vorgegeben sein. Hier ist es \(\alpha = 0.1\)

4. Daten sammeln

Die Daten haben wir schon erhalten, und sind oben gegeben.

5. Prüfgröße berechnen

Die Prüfgröße beim Zweistichproben-t-Test berechnet man durch

\[ T = \frac{\bar{x} – \bar{y}}{\sqrt{\frac{s^2_x}{n_x} + \frac{s^2_y}{n_y}}} \]

Die in der Formel allgemeinen Bezeichnungen X und Y beziehen sich hier auf den Asiaten A und die Pizzeria B. Wir berechnen die einzelnen Werte dieser Formel:

  • Die Stichprobengröße des Asiaten \(n_x = 7\)
  • Der Mittelwert des Asiaten \(\bar{x} = 38.57\)
  • Die Varianz des Asiaten \(s^2_x = 66.95\)
  • Die Stichprobengröße der Pizzeria \(n_y = 8\)
  • Der Mittelwert der Pizzeria \(\bar{y} = 34.25\)
  • Die Varianz der Pizzeria \(s^2_y = 58.5\)

Die Prüfgröße ist im Ergebnis also:

\[ T = \frac{38.57 – 34.25}{\sqrt{\frac{66.95}{7} + \frac{58.5}{8}}} = 1.052 \]

6. Verteilung der Prüfgröße bestimmen

Falls die Nullhypothese gilt, und beide Lieferdienste im Durchschnitt gleich lang brauchen, dann ist unsere Prüfgröße \(T\) am Ende t-verteilt mit \(n_x + n_y – 2\), also mit 13 Freiheitsgraden:

\[ T \sim t(13)\]

7. Kritischen Bereich (oder p-Wert) berechnen

Den kritischen Bereich erhalten wir aus der Tabelle der t-Verteilung. Unser Signifikanzniveau ist in dieser Aufgabe \(\alpha = 0.1\), wir suchen daher die „extremen“ 10% der t-Verteilung. Da wir einen zweiseitigen Test verwenden, suchen wir zwei Bereiche, nämlich jeweils die Hälfte, also 5%, auf der linken bzw. rechten Seite dieser Verteilung. Wir brauchen also zwei Schranken zum kritischen Bereich: das 5%-Quantil sowie das 95%-Quantil der t-Verteilung mit 13 Freiheitsgraden.

Die genauen Werte erhalten wir aus der Tabelle der t-Verteilung. Die rechte Schranke ist das 95%-Quantil der t-Verteilung mit 13 Freiheitsgraden, und aus der Tabelle lesen wir den Wert 1,771 ab. Prüfe das am besten selbst nach, es ist für eine Klausur unerlässlich, das schnell und sicher zu können.

Die linke Schranke ist -1,771, denn da die t-Verteilung symmetrisch um 0 ist, können wir einfach den negativen Wert von der rechten Schranke (1,771) nehmen (im Artikel zur t-Verteilung ist auch genauer erklärt, wie man das macht). Der kritische Bereich ist also der in der Grafik rot eingefärbte Bereich, es ist der Bereich außerhalb der beiden Schranken.

8. Testentscheidung treffen

In Schritt 5 haben wir die Prüfgröße berechnet als \(T=1.052\). In Schritt 7 haben wir den kritischen Bereich bestimmt als der Bereich kleiner als -1,771 und größer als 1,771. Da die Prüfgröße nicht im kritischen Bereich liegt (das erkennt man auch an der Grafik), behalten wir die Nullhypothese bei.

Wir können also schlussfolgernd nicht nachweisen, dass die beiden Lieferdienste unterschiedlich schnell liefern.

Gepaarter t-Test: Vorher/Nachher-Mittelwertsvergleich

Der gepaarte t-Test wird immer dann verwendet, wenn man zwar zwei Stichproben (d.h. zwei „Gruppen“) hat, diese aber verbunden sind. Verbunden bedeutet in diesem Fall, dass jeder Beobachtung aus der ersten Gruppe direkt eine aus der zweiten Gruppe zugeordnet werden kann, die beiden Beobachtungen gehören also zusammen. In den meisten Fällen ist das der Fall, wenn man einen vorher/nachher-Vergleich machen möchte. Andere Fälle, in denen die Beobachtungen zweier Gruppen „zusammengehören“, also verbunden sind, sind zum Beispiel Zwillingsstudien, in denen je ein Zwilling in eine Gruppe kommt, und dann Unterschiede bezüglich Verhalten oder Eigenschaften getestet werden.

Als Beispiel eines vorher/nachher-Vergleichs misst man etwa bei 9 Personen den Blutdruck, führt sie dann 30 Minuten durch eine Meditation, und misst danach an denselben Personen nochmal den Blutdruck.

In diesem Beispiel könnten die Daten dann wie folgt aussehen:

Person \(x_i\) Blutdruck vorher Blutdruck nachher
1 130 124
2 145 142
3 151 138
4 143 143
5 129 122
6 138 141
7 143 140
8 113 108
9 133 127

Wir möchten nun zum Signifikanzniveau \(\alpha=0.1\) testen, ob diese Personen nach der 30-minütigen Meditation einen niedrigeren Blutdruck haben, ob sich also der durchschnittliche Blutdruck gesenkt hat.

Das Schöne an einer gepaarten Stichprobe ist nun, dass wir uns eines Tricks bedienen können, nach dem wir dann einfach den bekannten Einstichproben-t-Test verwenden können:

Da die beiden Gruppen verbunden sind, es also jeweils dieselbe Person in der vorher- bzw. nachher-Gruppe ist, können wir für jede Person die Differenz der beiden Messungen berechnen. Wir fügen eine neue Spalte an die Tabelle von eben an, in der wir einfach „nachher minus vorher“ rechnen:

Person \(x_i\) Blutdruck vorher Blutdruck nachher Differenz / „Effekt“
1 130 124 -6
2 145 142 -3
3 151 138 -13
4 143 143 0
5 129 122 -7
6 138 141 +3
7 143 140 -3
8 113 108 -5
9 133 127 -6

Wir rechnen „nachher minus vorher“, und nicht „vorher minus nachher“, damit eine negative Zahl, z.B. -6, darauf hindeutet, dass der Blutdruck nach der Meditation gesunken ist.

Die letzte Spalte beinhaltet nun also den „Effekt“ der Meditation (falls es einen gibt). Die erste Person hatte zum Beispiel nach der Meditation einen um 6 Punkte niedrigeren Blutdruck als vorher.

Der bequeme und erfreuliche Effekt dieser Nebenrechnung ist jetzt, dass wir die Vorher- bzw. Nachher-Messungen wegwerfen können, und nur noch mit der Differenz weiterarbeiten. Da das nur noch eine einzige Variable ist, können wir mit ihr den bereits bekannten Einstichproben-t-Test durchführen.

Die Hypothesen werden dann abhängig davon gebildet, welchen Effekt man testen möchte. Wenn wir – wie in diesem Beispiel – nachweisen möchten, dass die Nachher-Messung niedriger ist, dann wäre die Alternativhypotese demnach, dass der Mittelwert der eben berechneten Differenzen kleiner als Null ist, also \(H_1: \mu < 0\). (Warum das so ist, wird in diesem Artikel erklärt).

Ab jetzt können wir also den Einstichproben-t-Test durchführen, und brauchen hier daher kein neues Vorgehen, keine separate Erklärung mehr. Die Daten, mit denen wir den Einstichproben-t-Test durchführen, sind:

  • \(H_0: \mu \geq 0\)
  • \(H_1: \mu < 0\)
  • Signifikanzniveau: \(\alpha = 0.1\)
  • \(x = (-6, -3, -13, 0, -7, +3, -3, -5, -6)\). Das ist die letzte Spalte der Tabelle oben, unsere „neue“ Stichprobe, nämlich die der Differenzen von vorher zu nachher.

Damit können wir direkt in Schritt 5 der Abfolge beim Hypothesentest einsteigen, dem Berechnen der Prüfgröße. Dieser und alle weiteren Schritte kann man nun genauso durchführen wie im Artikel zum Einstichproben-t-Test erklärt.

Ergebnis

Wer diese Aufgabe selbst zuende rechnen und nachprüfen möchte, für den fasse ich hier die Ergebnisse kurz zusammen. Das Vorgehen ist wie gesagt im entsprechenden Artikel detailliert beschrieben.

  • Mittelwert: \(\bar{x} = -4.444\)
  • Standardabweichung: \(s = 4.531\)
  • Stichprobengröße: \(n = 9\)

Schritt 5: Prüfgröße berechnen

\[T = \sqrt{n} \cdot \frac{\bar{x} \, – \, \mu_0}{s} = \sqrt{9} \cdot \frac{-4.444 \, – \, 0}{4.531} = -2.942 \]

Schritt 6: Verteilung der Prüfgröße bestimmen

\[T \sim t(8) \]

Schritt 7: Kritischen Bereich (oder p-Wert) berechnen

Vorsicht: In dieser Aufgabe ist das Signifikanzniveau \(\alpha\) nicht 0.05, wie es normalerweise ist, sondern 0.1.

Der kritische Bereich ist das linke Ende der t-Verteilung, die „niedrigen“ Zahlen, denn die Alternativhypothese zielt auf Bereiche ab, in denen die Differenz stark negativ ist.

Für die kritische Schranke brauchen wir das 10%-Quantil der t-Verteilung mit 8 Freiheitsgraden. Laut t-Tabelle ist es -1.383.

Der kritische Bereich, in dem wir die Nullhypothese ablehnen, sind also alle Werte für \(T\), die kleiner als -1,383 sind.

Schritt 8: Testentscheidung treffen

Hier ist \(T=-2.942\), und der kritische Bereich ist alles was kleiner als -1,383 ist. Daher liegt die Prüfgröße im kritischen Bereich, und somit können wir die Nullhypothese bei dieser Untersuchung ablehnen.

Klausuraufgabe

Für ein neues Medikament soll geprüft werden, ob es einen Einfluss auf die Reaktionszeit von Patienten hat. Dabei sollen beide Seiten geprüft werden, also sowohl ob sie länger wird, als auch ob sie kürzer wird.

Dazu wird bei 8 Patienten die Reaktionszeit in einem kurzen Test gemessen: Man zeigt ein großes X auf dem Bildschirm, und misst die Zeit in Millisekunden (ms), bis die Person mit der Maus klickt.

Im Anschluß wird diesen Patienten eine Dosis des neuen Medikaments gegeben, und derselbe Test nochmal durchgeführt. Die Ergebnisse sind in der folgenden Tabelle zusammengefasst:

Person \(x_i\) Reaktionszeit vorher Reaktionszeit nachher
1 300ms 268ms
2 520ms 522ms
3 412ms 384ms
4 324ms 295ms
5 292ms 262ms
6 378ms 339ms
7 401ms 359ms
8 264ms 235ms

Führe einen Hypothesentest zum Niveau \(\alpha=0.1\) durch, um zu prüfen ob die mittlere Reaktionszeit durch das Medikament verändert wurde. Wir können für diese Aufgabe vereinfachend von einer Normalverteilung der Reaktionszeit ausgehen.

Lösung (klick)

Wir gehen nach den üblichen 8 Schritten beim Testen vor:

1. Hypothesen aufstellen

Da wir sowohl eine kürzere als auch eine längere Reaktionszeit entdecken möchten, verwenden wir hier einen zweiseitigen Test. Die Hypothesen lauten also erstmal

  • \(H_0: \mu_{\text{vorher}} = \mu_{\text{nachher}}\)
  • \(H_1: \mu_{\text{vorher}} \neq \mu_{\text{nachher}}\)

Wir sehen aber, dass es sich um eine verbundene Stichprobe handelt, daher können wir direkt die Differenzen der beiden Reaktionszeiten verwenden. Wenn wir uns nur auf diese Differenzen und ihren Mittelwert konzentrieren, können wir die Hypothesen umformen und vereinfachen:

  • \(H_0: \mu_d = 0\)
  • \(H_1: \mu_d \neq 0\)

2. Test wählen

Anhand der Tabelle zur Testwahl finden wir den passenden Test: Wir haben eine normalverteilte Zielgröße, und als Einflussgröße zwei Gruppen, die allerdings gepaart sind. Daher ist der gepaarte t-Test hier angebracht.

3. Signifikanzniveau festlegen

Das Niveau \(\alpha\) wird in Klausuraufgaben meist vorgegeben sein. Hier ist es \(\alpha = 0.1\)

4. Daten sammeln

Die rohen Daten sind schon gegeben, aber wir müssen noch die Differenzen berechnen. Für die erste Person erhalten wir z.B. 268ms – 300ms = -32ms, also eine um 32ms niedrigere Reaktionszeit. Insgesamt sind unsere Daten dann:

\[x = (-32, +2, -28, -29, -30, -39, -42, -29) \]

5. Prüfgröße berechnen

Ab hier geht es weiter wie beim Einstichproben-t-Test. Die Prüfgröße berechnet man durch

\[ T = \sqrt{n} \cdot \frac{\bar{x} \, – \, \mu_0}{s} \]

Die einzelnen Werte berechnen wir:

  • Die Stichprobengröße \(n = 8\)
  • Der Mittelwert \(\bar{x} = -28.375\)
  • Die Standardabweichung \(s = 13.298\)
  • Der unter \(H_0\) angenommene Mittelwert der Differenz. Da unter \(H_0\) die beiden Mittelwerte gleich sein sollen, wäre dann der Mittelwert der Differenz \(\mu_0 = 0 \)

Die Prüfgröße ist im Ergebnis also:

\[ T = \sqrt{8} \cdot \frac{-28.375 \, – \, 0}{13.298} = -6.035\]

6. Verteilung der Prüfgröße bestimmen

Falls die Nullhypothese gilt, dann ist unsere Prüfgröße \(T\) t-verteilt mit \(n-1\), also mit 7 Freiheitsgraden:

\[ T \sim t(7)\]

7. Kritischen Bereich (oder p-Wert) berechnen

Den kritischen Bereich erhalten wir aus der Tabelle der t-Verteilung. Da wir einen zweiseitigen Test verwenden, und das Signifikanzniveau aus dem 2. Schritt \(\alpha = 0.10\) ist, suchen wir zwei Schranken, auf der linken sowie rechten Seite der t-Verteilung, wo sich jeweils die äußeren 5%, also die Hälfte der 10% aus dem Signifikanzniveau 0.10 befinden. Wir brauchen also das 5%-Quantil sowie das 95%-Quantil der t-Verteilung mit 7 Freiheitsgraden.

Laut Tabelle ist das 95%-Quantil bei 7 Freiheitsgraden 1,895. Wegen der Symmetrie der t-Verteilung wissen wir dann auch, dass das 5%-Quantil genau das Negative des 95%-Quantils ist, also -1.895.

Falls also die Prüfgröße \(T\) kleiner als -1.895 oder größer als 1.895 ist, können wir die Nullhypothese ablehnen, andernfalls behalten wir sie bei.

8. Testentscheidung treffen

In Schritt 5 haben wir die Prüfgröße berechnet als \(T=-6.035\). In Schritt 7 haben wir den kritischen Bereich bestimmt als der Bereich kleiner als -1.895, und der Bereich größer als 1.895. Da die Prüfgröße extrem klein ist, liegt sie im kritischen Bereich (im linken Teil). Wir lehnen die Nullhypothese daher ab, und haben ausreichende Beweise für die Alternativhypothese \(H_1\) gefunden.

Wir können also schlussfolgernd nachweisen, dass die Reaktionszeit durch das Medikament verändert, und genauer gesagt verkürzt wurde.