Archiv der Kategorie: Hypothesentests

Chi-Quadrat-Test: Abhängigkeit zwischen zwei nominalen Variablen testen

Was ist ein Chi-Quadrat-Test?

Den Chi-Quadrat-Test gibt es eigentlich nicht. Genauso wie es einige verschiedene t-Tests gibt, so bezeichnet man mit „Chi-Quadrat-Test“ (bzw. \(\chi^2\)-Test, das ist der griechische Buchstabe „Chi“) auch eine Reihe von verschiedenen Tests. Was sie alle gemeinsam haben, ist dass ihre Prüfgröße eine Chi-Quadrat-Verteilung hat.

Ein häufiger Anwendungsfall für den Chi-Quadrat-Test, den wir auch in diesem Artikel behandeln, ist das Testen ob zwei nominale Variablen voneinander abhängig sind, ob sie sich also gegenseitig beeinflussen. Wir fragen z.B. 80 Personen nach ihrem Geschlecht, und nach der von ihr zuletzt gewählten Partei. Wenn wir nun untersuchen möchten ob Frauen und Männer ein unterschiedliches Wahlverhalten haben, geht das mit dem Chi-Quadrat-Test.

Allgemein formuliert testen wir, ob zwei nominalskalierte Variablen abhängig sind. Falls z.B. das Geschlecht einer Person und die zuletzt gewählte Partei voneinander abhängig sind, und wir die gewählte Partei erraten wollen, dann hilft es uns, von einer bestimmten Person das Geschlecht zu kennen. Bei unabhängigen Variablen würde uns die eine Variable nicht helfen, die andere vorherzusagen. Ein Beispiel für zwei unabhängige Variablen wäre das Geschlecht einer Person, und ihre Augenfarbe. Es hilft uns wahrscheinlich nicht dabei, die Augenfarbe von Person X vorherzusagen, wenn wir erfahren, dass es sich dabei um eine Frau handelt.

Eine weitere Analyse die einen Chi-Quadrat-Test verwendet, wäre das Testen ob eine einzelne nominale Variable eine bestimmte Verteilung hat. So könnte z.B. ein Betreiber des öffentlichen Nahverkehrs vermuten, dass bei ihm 30% der Passagiere eine Einzelfahrkarte haben, 65% eine Monatskarte, und 5% Schwarzfahrer sind. Wenn es nun 100 Personen nach ihrer Fahrkarte fragt, kann es mit diesen Daten einen Chi-Quadrat-Test durchführen, um seine Annahme zu überprüfen. Diese Variante wird oft auch Chi-Quadrat-Anpassungstest genannt (Dieser Fall findet sich auch in der Tabelle zur Testwahl wieder, wird aber hier nicht behandelt).

Einführende Artikel

Zum Einstieg sollte man sich zu Beginn die folgenden beiden Artikel durchlesen:

In ihnen beschreibe ich ganz allgemein die Schritte, mit denen man einen Hypothesentest durchführt. Dadurch werden die einzelnen Teile in diesem Artikel verständlicher.

1. Hypothesen aufstellen

Wir betrachten in diesem Artikel das oben erwähnte Beispiel. Wir fragen 80 Personen nach ihrem Geschlecht, und der zuletzt gewählten Partei. Die Hypothesen bei diesem Test lauten immer gleich:

  • \(H_0\): Die beiden Variablen \(X\) und \(Y\) sind unabhängig
  • \(H_1\): Die beiden Variablen \(X\) und \(Y\) sind voneinander abhängig

Welche der Variablen man \(X\) und welche man \(Y\) nennt, ist eigentlich egal. Man kann auch andere Buchstaben verwenden die man sich leichter merken kann, z.B. \(G\) für das Geschlecht, und \(P\) für die Partei.

Welche Hypothese die Null- und welche die Alternativhypothese wird, ist bei dieser Aufgabenformulierung manchmal nicht eindeutig formuliert. Aber man kann sich merken, dass man solche Tests immer nur in eine Richtung rechnen kann: Die Situation „die beiden Variablen sind abhängig“ muss immer in die Alternativhypothese.

2. Test wählen

Wir führen hier einen Chi-Quadrat-Test durch. Die Tabelle zur Testwahl hätte uns das auch vorgeschlagen, da wir eine nominale Zielgröße haben (die Partei) und eine nominale Einflussgröße (das Geschlecht).

Notiz am Rande: Der Fisher-Test, der in dieser Tabelle als Alternative vorgeschlagen wird, hat das gleiche Ziel wie der Chi-Quadrat-Test, aber ist im Ergebnis etwas genauer – dafür aber auch rechenaufwändiger. Als Faustregel hat sich eingebürgert, dass man den Chi-Quadrat-Test immer dann verwenden darf, wenn in jeder einzelnen Zelle der in Schritt 4 erstellten Kreuztabelle eine Zahl größer oder gleich 5 steht.

3. Signifikanzniveau festlegen

Wie in allen anderen besprochenen Tests hier können wir auch beim Chi-Quadrat-Test das Signifikanzniveau wählen. Hier verwenden wir die üblichen 5%, also setzen wir das Signifikanzniveau \(\alpha = 0.05\) fest.

4. Daten sammeln

Die Ausgangslage, die wir für einen Chi-Quadrat-Test benötigen, ist immer eine Kreuztabelle der beiden Variablen.

Die Ergebnisse bekommen wir als Liste, aber wir können sie einfach in eine Kreuztabelle zusammenfassen. Als Ausgangssituation haben wir oft eine Liste der folgenden Form:

Person \(i\) Geschlecht Partei
1 männlich CDU/CSU
2 weiblich Sonstige
3 männlich SPD
\(\vdots\) \(\vdots\) \(\vdots\)

Wir formen diese Daten um in eine Kreuztabelle (Diese Tabelle haben wir im Artikel zu Kreuztabellen schon mal gesehen):

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 26 22 8 12 16 84
Frauen 36 28 14 14 24 116
Summe 62 50 22 26 40 200

5. Prüfgröße berechnen

Die Prüfgröße kennen wir bereits aus der deskriptiven Statistik. Sie ist nämlich exakt dasselbe wie der Chi-Quadrat-Koeffizient \(\chi^2\). Die Berechnung dieses Wertes ist im dortigen Artikel erklärt, auch die Herleitung, warum man ihn so berechnet, wird dort erläutert. Ich gebe hier daher die Herleitung der Prüfgröße relativ knapp erklärt wieder.

Wir gehen in zwei Schritten vor. Zuerst berechnen wir die Unabhängigkeitstabelle, und danach den Chi-Quadrat-Koeffizienten, d.h. die Prüfgröße.

Um die Unabhängigkeitstabelle zu erstellen, beginnen wir mit der (bis auf die Randhäufigkeiten) leeren Kreuztabelle der Umfragewerte:

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 84
Frauen 116
Summe 62 50 22 26 40 200

Dort fügen wir jetzt für jede Zelle die erwartete Häufigkeit ein, d.h. die Anzahl an Personen, die wir erwarten würden wenn die beiden Merkmale „Geschlecht“ und „Partei“ nichts miteinander zu tun hätten. Die Formel dafür (für Zeile \(i\) und Spalte \(j\)) lautet:

\[ e_{ij} = \frac{h_{i\cdot} \cdot h_{\cdot j}}{n} \]

Zum Beispiel ist der erwartete Anteil der männlichen FDP-Wähler \(e_{13} = \frac{84\cdot 22}{200} = 9.24\).

Wie gesagt, im Artikel zum Chi-Quadrat-Koeffizienten ist dieses Vorgehen ein bisschen detaillierter erklärt.

Die erwarteten Häufigkeiten können wir jetzt in die Tabelle eintragen, um den zweiten Schritt, das Berechnen von \(\chi^2\), übersichtlicher machen zu können:

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 26.04 21 9.24 10.92 16.80 84
Frauen 35.96 29 12.76 15.08 23.20 116
Summe 62 50 22 26 40 200

Mit den übersichtlich gesammelten Werten für \(e_{ij}\) können wir nun die Prüfgröße anhand der folgenden Formel berechnen:

\[ \chi^2 = \sum_{i=1}^I \sum_{j=1}^J \frac{(h_{ij}-e_{ij})^2}{e_{ij}} \]

Was das in Worten bedeutet: Wir müssen für jede der 10 Zellen den Unterschied zwischen tatsächlicher und erwarteter Häufigkeit berechnen, diesen Unterschied dann quadrieren, und ihn nochmal durch die erwartete Häufigkeit teilen. Die so erhaltenen 10 Werte summieren wir einfach auf, und das Ergebnis ist die Prüfgröße.

Für die Zelle „weibliche FDP-Wähler“, also Zeile 2 und Spalte 3, sähe das beispielhaft so aus: \(\frac{(14-12.76)^2}{12.76} = 0.1205\)

Alle 10 Werte, wer es selbst nachrechnen möchte, fasse ich hier kurz zusammen:

SPD CDU/CSU FDP Grüne Sonstige
Männer 0.00006 0.0476 0.1664 0.1068 0.0381
Frauen 0.00004 0.0344 0.1205 0.0773 0.0276

Und die fertige Prüfgröße \(\chi^2\) ist jetzt einfach die Summe dieser 10 Werte:

\[ \chi^2 = 0.6188 \]

6. Verteilung der Prüfgröße bestimmen

Die Prüfgröße heißt \(\chi^2\), und sie hat passenderweise auch eine \(\chi^2\)-Verteilung. Wir müssen zum richtigen Ablesen der kritischen Werte allerdings noch die Anzahl der Freiheitsgrade bestimmen. Was damit gemeint ist, ist für einführende Statistikveranstaltungen nicht so wichtig – man darf nur nicht vergessen, diesen Wert zu berechnen, und dann in der Verteilungstabelle auch am richtigen Ort nachzusehen.

Die Prüfgröße ist also \(\chi^2\)-verteilt, und zwar  mit \((I-1)\cdot (J-1)\) Freiheitsgraden. Dabei ist mit \(I\) die Anzahl der Zeilen in der Kreuztabelle gemeint, und mit \(J\) die Anzahl der Spalten.

Bei unserem Beispiel sind es also \((2-1) \cdot (5-1) = 4\) Freiheitsgrade.

7. Kritischen Bereich (oder p-Wert) berechnen

Beim Chi-Quadrat-Test gibt es glücklicherweise nur eine Testvariante. Beim t-Test hatten wir dagegen drei mögliche Testrichtungen, je nachdem wie die Alternativhypothese formuliert war: kleiner, größer, oder ungleich einem vorher bestimmten Mittelwert.

Das Berechnen des kritischen Bereichs ist beim Chi-Quadrat-Test also im Gegensatz zum t-Test sehr einfach: Wenn unser Signifikanzniveau \(\alpha\) die üblichen 5% sind, also \(\alpha=0.05\), dann suchen wir das 95%-Quantil (also allgemein \(1-\alpha\)) der \(\chi^2\)-Verteilung mit den vorher berechneten Freiheitsgraden – bei uns 4.

In der Verteilungstabelle lesen wir dann ab: Für 4 Freiheitsgrade und dem Quantil 0.95, also 95%, beträgt der Wert 9.488.

Die Schranke zum kritischen Wert ist also 9.488, und beim Chi-Quadrat-Test ist der kritische Bereich immer der Bereich über der kritischen Schranke. Das heißt, dass alle Prüfgrößen über 9.488 in unserem Fall dazu führen dass wir die Nullhypothese ablehnen, und damit die beiden Variablen „Geschlecht“ und „Partei“ voneinander abhängig sind.

8. Testentscheidung treffen

Im 5. Schritt haben wir die Prüfgröße berechnet als 0.6188. Der kritische Bereich, den wir im 7. Schritt berechnet haben, ist der Bereich über 9.488. Da unsere Prüfgröße aber nicht im kritischen Bereich liegt, können wir in dieser Analyse die Nullhypothese nicht ablehnen.

Wir konnten also hier keine ausreichenden Beweise dafür finden, dass das Wahlverhalten von Männern und Frauen unterschiedlich ist.

Klausuraufgabe

Ein KFZ-Versicherer gibt eine Studie in Auftrag, um zu überprüfen ob Fahrer von verschiedenen Autotypen unterschiedlich oft Geschwindigkeitsüberschreitungen begehen. Dazu werden einen Tag lang Daten von einem Blitzer erfasst, und zwar von insgesamt 450 Autos der Typ (Kleinwagen, Limousine, Kombi, sonstige), und ob sie zu schnell waren oder nicht. Das Ergebnis dieser Erhebung ist in der folgenden Tabelle zusammengefasst:

Kleinwagen Limousine Kombi Sonstige
nicht zu schnell 87 82 78 80
zu schnell 21 44 35 23

Führe einen geeigneten Hypothesentest zum Niveau \(\alpha=0.01\) durch, um zu überprüfen ob die beiden Variablen abhängig sind oder nicht.

Lösung (klick)

Wir gehen nach den üblichen 8 Schritten beim Testen vor:

1. Hypothesen aufstellen

Das Versicherungsunternehmen möchte testen ob die beiden Variablen abhängig sind. Die Hypothesen lauten also „Autotyp und Geschwindigkeitsüberschreitung sind unabhängig“, und „Autotyp und Geschwindigkeitsüberschreitung sind abhängig“.

Da die Situation „die Variablen sind Abhängig“ bei dieser Testform immer in die Alternativhypothese muss, lauten die Hypothesen schließlich:

  • \(H_0\): Der Autotyp und die Geschwindigkeitsüberschreitung sind unabhängig
  • \(H_1\): Der Autotyp und die Geschwindigkeitsüberschreitung sind abhängig

2. Test wählen

Da wir eine nominale Zielgröße haben (die Geschwindigkeitsüberschreitung) und eine nominale Einflussgröße (der Autotyp), führen wir hier einen Chi-Quadrat-Test durch. In der Tabelle zur Testwahl kann man diese Situation auch nachschlagen.

3. Signifikanzniveau festlegen

In dieser Aufgabe wurde uns vorgegeben, zum Niveau \(\alpha=0.01\) zu testen.

4. Daten sammeln

Die Daten wurden uns in der Aufgabe schon gegeben. Allerdings fehlen noch die für den Test wichtigen Randhäufigkeiten. Wir summieren also jede Zeile und Spalte und schreiben uns diese Werte noch zusätzlich an die Tabelle:

Kleinwagen Limousine Kombi Sonstige Summe
nicht zu schnell 87 82 78 80 327
zu schnell 21 44 35 23 123
Summe 108 126 113 103 450

5. Prüfgröße berechnen

Um die Prüfgröße zu berechnen, gehen wir am besten in zwei Schritten vor, um nicht durcheinanderzukommen und keine Flüchtigkeitsfehler zu machen.

Wir berechnen also zuerst die Unabhängigkeitstabelle. Dazu beginnen wir mit der Tabelle, in der nur noch die Randhäufigkeiten stehen:

Kleinwagen Limousine Kombi Sonstige Summe
nicht zu schnell 327
zu schnell 123
Summe 108 126 113 103 450

Jetzt füllen wir für jede Zeile \(i\) und jede Spalte \(j\) die erwarteten Häufigkeiten \(e_{ij}\) ein, nach der üblichen Formel:

\[ e_{ij} = \frac{h_{i\cdot} \cdot h_{\cdot j}}{n} \]

Zum Beispiel ist der erwartete Anteil der zu schnellen Autos unter den Kombis \(e_{23} = \frac{123\cdot 113}{450} = 30.89\). Analog dazu füllen wir die restlichen Werte ein:

Kleinwagen Limousine Kombi Sonstige Summe
nicht zu schnell 78.48 91.56 82.11 74.85 327
zu schnell 29.52 34.44 30.89 28.15 123
Summe 108 126 113 103 450

Damit berechnen wir nun die Prüfgröße anhand der Formel

\[ \chi^2 = \sum_{i=1}^I \sum_{j=1}^J \frac{(h_{ij}-e_{ij})^2}{e_{ij}} \]

Wir berechnen also für jede Zelle den Wert \(\frac{(h_{ij}-e_{ij})^2}{e_{ij}}\). In der ersten Zeile und ersten Spalte, d.h. für die „nicht zu schnellen“ Kleinwägen, wäre das \(\frac{(87-78.48)^2}{78.48} = 0.925\). Für die restlichen Zellen rechnen wir die Werte ebenso aus, und können sie der Übersichtlichkeit halber auch in einer Tabelle notieren:

Kleinwagen Limousine Kombi Sonstige
nicht zu schnell 0.925 0.998 0.206 0.354
zu schnell 2.459 2.654 0.547 0.942

Die Prüfgröße \(\chi^2\) ist nun die Summe all dieser Werte, insgesamt also

\[\chi^2 = 9.085 \]

6. Verteilung der Prüfgröße bestimmen

Die Prüfgröße beim Chi-Quadrat-Test ist \(\chi^2\)-verteilt mit \((I-1)\cdot (J-1)\) Freiheitsgraden. wobei \(I\) die Anzahl der Zeilen, und \(J\) die Anzahl der Spalten der Kreuztabelle ist. Bei uns haben wir also \(1\cdot 3 = 3\) Freiheitsgrade. Das heißt also:

\[\chi^2 \sim \chi^2(3)\]

7. Kritischen Bereich (oder p-Wert) berechnen

Da wir bei diesem Test zum Signifikanzniveau 1%, also \(\alpha=0.01\) testen, benötigen wir das äußerste 1% der Chi-Quadrat-Verteilung. Das äußerste 1% ist der Teil der größer ist als das 99%-Quantil dieser Verteilung. In der \(\chi^2\)-Verteilungstabelle sehen wir nach, welchen Wert das 99%-Quantil der \(\chi^2\)-Verteilung mit 3 Freiheitsgraden hat, und bekommen als Ergebnis 11.345.

Der kritische Bereich ist also jeder Wert von \(\chi^2\) der größer als 11.345 ist. Falls also unsere Prüfgröße über 11.345 liegt, dann können wir die Nullhypothese ablehnen, was bedeutet dass wir nachgewiesen haben, dass der Autotyp und die Geschwindigkeitsüberschreitung zusammenhängen, d.h. abhängig voneinander sind.

8. Testentscheidung treffen

Bei uns ist die Prüfgröße in Schritt 5 allerdings 9.085, d.h. sie liegt nicht im kritischen Bereich. Wir können also zum Niveau von \(\alpha=0.01\) nicht nachweisen, dass eine Abhängigkeit zwischen den beiden Variablen besteht.

Anmerkung: Falls als Signifikanzniveau „nur“ ein Wert von \(\alpha=0.05\) vorgegeben worden wäre, dann hätten wir bei diesem Test die Nullhypothese abgelehnt, und hätten eine Abhängigkeit nachgewiesen. Für das „strengere“ Signifikanzniveau von \(\alpha=0.01\) waren die Daten aber noch nicht eindeutig genug, um auf eine Abhängigkeit schließen zu können.

Zweistichproben-t-Test: Mittelwerte zweier Gruppen vergleichen

Einführende Artikel

Zum Einstieg in das Thema Hypothesentests sollte man sich zu Beginn die folgenden beiden Artikel durchlesen:

In ihnen beschreibe ich ganz allgemein die Schritte, mit denen man einen Hypothesentest durchführt. Dadurch werden die einzelnen Teile in diesem Artikel verständlicher.

Außerdem macht es Sinn, den Artikel zum Binomialtest zu lesen, da ich dort noch etwas ausführlicher beschrieben habe, wie man die allgemeinen Prinzipien auf einen speziellen Test anwendet. Falls hier etwas nur kurz beschrieben wird, dann ist es im Artikel zum BInomialtest evtl. ausführlicher verständlicher erklärt worden.

Der Zweistichproben-t-Test

Der einfachste Fall eines t-Tests ist der Einstichproben-t-Test, den wir in einem eigenen Artikel bereits behandelt haben. Allerdings ist es in der Praxis üblicher, dass man nicht nur eine, sondern zwei Gruppen hat, und deren Mittelwerte vergleichen möchte. Ein typisches Beispiel sind Messungen, die an Patienten mit einer bestimmten Krankheit vorgenommen werden, und dann „zur Kontrolle“ an einer anderen Gruppe von gesunden Menschen.

In diesem Fall handelt es sich um zwei unabhängige Gruppen. Unabhängig bedeutet hier, dass die Personen (oder Objekte) aus der ersten Gruppe nichts mit denen aus der zweiten Gruppe zu tun haben. Im gepaarten t-Test war das anders, da waren in der ersten und zweiten Gruppe dieselben Personen, nur eben vor bzw. nach einer bestimmten Behandlung.

1. Hypothesen aufstellen

Beim t-Test gibt es, genau wie beim Binomialtest, drei verschiedene Möglichkeiten, seine Hypothesen zu formulieren. Welche Variante man verwenden muss, hängt von der Fragestellung ab, die man untersucht. Dazu drei Beispiele:

  1. Ein Forschungsinstitut hat in den 1960er-Jahren untersucht, ob Nichtraucher eine längere Lebenserwartung haben. Dazu wurden in einer ersten Stichprobe von 8 bereits verstorbenen Rauchern das Alter zum Todeszeitpunkt notiert, und in einer zweiten Stichprobe von 6 Nichtrauchern ebenso.
    Um nachzuweisen, dass Nichtraucher eine längere Lebenserwartung haben, kommt dieser Fall in die Alternativhypothese (warum, wird hier erklärt). Wenn wir also die Lebenserwartung von Nichtrauchern mit \(\mu_N\) bezeichnen, und die der Raucher mit \(\mu_R\), lauten unsere Hypothesen:

    • \(H_0: \mu_N \leq \mu_R\)
    • \(H_1: \mu_N > \mu_R\)
  2. Um nachzuweisen, dass regelmäßiges Meditieren den Blutdruck senkt, hat ein Studio bei 7 seiner meditierenden Mitglieder den Blutdruck gemessen. Als Kontrollgruppe wurden 7 zufällige Leute auf der Straße, die nicht meditieren, angehalten, und bei ihnen ebefalls der Blutdruck gemessen.
    Da das Studio nachweisen möchte, dass die Meditierer einen niedrigeren durchschnittlichen Blutdruck haben, kommt dieser Fall in die Alternativhypothese. Wir bezeichnen mit \(\mu_M\) den mittleren Blutdruck von Meditierern, und mit \(\mu_N\) den der Nicht-meditierenden, und formen die folgenden Hypothesen:

    • \(H_0: \mu_M \geq \mu_N\)
    • \(H_1: \mu_M < \mu_N\)

    Es ist wohl hilfreich, wenn man diesen Fall genau betrachtet, und mit dem Beispiel aus dem Artikel zum gepaarten t-Test vergleicht: Dort wurde nämlich genau dieselbe Forschungsfrage untersucht, aber mit einem anderen Versuchsplan. Genauer gesagt: Es wurde hier kein vorher/nachher-Vergleich gemacht, in dem der Blutdruck für dieselbe Person vor und nach einer Meditation gemessen wurde, sondern es wurden zwei unabhängige Gruppen untersucht. Diese Tatsache führt dazu, dass wir in diesem Beispiel einen Zweistichproben-t-Test brauchen.

  3. Ein Forscher vermutet, dass ein Masterabschluss an einer Fachhochschule (FH) eher praktische Fähigkeiten vermittelt, und einer an der Universität eher theoretische Fähigkeiten. Er möchte nun untersuchen, ob diese unterschiedlichen Ansätze eine Auswirkung auf das spätere Einkommen haben. Dazu sucht er sich eine Gruppe von 100 Berufstätigen im ungefähr gleichen Alter von 40-45 Jahren, und notiert jeweils den Studienabschluss (also „Uni“ oder „FH“) sowie das Einkommen dieser Person.
    Da man theoretisch beide Möglichkeiten (FH-Absolventen verdienen mehr, oder Uni-Absolventen verdienen mehr) für denkbar hält, möchte man bezüglich der Richtung unvoreingenommen vorgehen – man führt also einen zweiseitigen Test durch. Wir bezeichnen das mittlere Einkommen von FH-Absolventen mit \(\mu_F\), das der Uni-Absolventen mit \(\mu_U\). Die Hypothesen lauten dann:

    • \(H_0: \mu_F = \mu_U\)
    • \(H_0: \mu_F \neq \mu_U\)

Die drei verschiedenen Möglichkeiten hängen also davon ab, in welche Richtung die Alternativhypothese geht (kleiner oder größer), bzw. ob sie einseitig oder – wie im dritten Beispiel – zweiseitig ist.

Für den restlichen Artikel konzentrieren wir uns auf das erste Beispiel, das mit der höheren Lebenserwartung von Nichtrauchern.

2. Test wählen

Um die Abfolge der 8 Schritte nicht zu verändern, die wir in den beiden einführenden Artikeln aufgestellt haben (erster und zweiter Artikel), nehme ich hier den 2. Schritt auch mit auf. Es ist natürlich schon klar, dass wir einen Zweistichproben-t-Test verwenden werden.

3. Signifikanzniveau festlegen

Wie in den vorherigen Artikeln schon beschrieben, legt das Signifikanzniveau die Wahrscheinlichkeit fest, mit der man einen bestimmten Fehler macht, nämlich die fälschliche Entscheidung dass die Alternativhypothese gilt, obwohl in Wirklichkeit die Nullhypothese wahr ist.

Allgemeiner Konsens ist hier ein Wert von 5%, also \(\alpha=0.05\). In besonders kritischen Fragestellungen, z.B. solchen, die die menschliche Gesundheit betreffen, muß das Signifikanzniveau oft niedriger gewählt werden, der Test wird dann konservativer. Hier wählt man z.B. \(\alpha=0.01\).

Für unsere Beispielaufgabe nehmen wir das übliche Signifikanzniveau von \(\alpha=0.05\).

4. Daten sammeln

In einer Klausur sind die Daten meist schon gegeben, aber in einer echten Untersuchung müssen wir sie natürlich erst sammeln. Beim Zweistichproben-t-Test brauchen wir, wie der Name schon sagt, zwei Stichproben. Das erreichte Lebensalter der 6 Nichtraucher sind in unserer Aufgabe die folgenden Werte:

\[ N = (80, 92, 74, 99, 69, 78) \]

Wir haben auch das Alter von 8 Rauchern erhalten:

\[ R = (81, 72, 68, 71, 59, 91, 71, 70) \]

5. Prüfgröße berechnen

Beim Zweistichproben-t-Test gibt es einige Spezialfälle, je nachdem ob die Varianz in den beiden Gruppen gleich bzw. verschieden ist, oder ob sie bekannt bzw. unbekannt ist. Ich möchte aber nicht auf alle diese Fälle eingehen, sondern nur auf den in der Praxis relevantesten: Die Varianzen der Merkmale in den zwei Gruppen sind nicht notwendigerweise gleich, und sie sind unbekannt.

Erstens tritt dieser Fall am häufigsten auf, und zweitens kann man diese Variante bei realistischen Stichproben immer, in jedem Fall, anwenden (als Faustregel gilt, wenn in beiden Gruppen mindestens 30 Beobachtungen gemacht wurden).

In diesem Fall müssen wir die folgenden Werte berechnen:

  • \(\bar{x}\), der Mittelwert in der ersten Gruppe (Nichtraucher). Bei uns ist \(\bar{x} = 82\).
    Vorsicht: Hier muss man aufpassen, die beiden Gruppen nicht zu verwechseln. Die Gruppe, die in den beiden Hypothesen zuerst, d.h. auf der linken Seite steht (die Nichtraucher), ist jetzt auch die erste Gruppe \(X\). Im Idealfall nennt man die Gruppen einfach von Anfang an \(X\) und \(Y\), aber es ist vielleicht zu Beginn etwas einleuchtender wenn man die Anfangsbuchstaben der zwei Gruppen verwendet.
  • \(n_x\), die Anzahl der Beobachtungen in der ersten Gruppe. Bei uns ist \(n_x = 6\), da wir 6 Nichtraucher untersucht haben.
  • \(s^2_x\), die Varianz in der ersten Gruppe. Bei uns ist \(s^2_x = 128.4\).
  • \(\bar{y}\), der Mittelwert in der zweiten Gruppe (Raucher). Bei uns ist \(\bar{y} = 72.875\). Das mittlere Lebensalter von Nichtrauchern ist also schonmal höher als das der Raucher. Ob es statistisch signifikant höher ist, finden wir jetzt heraus.
  • \(n_y\), die Anzahl der Beobachtungen in der zweiten Gruppe. Bei uns ist \(n_y = 8\)
  • \(s^2_y\), die Varianz in der zweiten Gruppe. Bei uns ist \(s^2_y = 89.554\).

Dann lautet die Prüfgröße \(T\):

\[ T = \frac{\bar{x} – \bar{y}}{\sqrt{\frac{s^2_x}{n_x} + \frac{s^2_y}{n_y}}} \]

Bei uns setzen wir also ein und erhalten:

\[ T = \frac{82 – 72.875}{\sqrt{\frac{128.4}{6} + \frac{89.554}{8}}} = 1.598 \]

Unsere Prüfgröße T hat also den Wert 1.598.

6. Verteilung der Prüfgröße bestimmen

Falls die Nullhypothese gilt, ist die Prüfgröße t-verteilt mit \(n_x + n_y – 2\) Freiheitsgraden:

\[ T \sim t(n_x + n_y – 2) \]

Bei uns ist das also eine t-Verteilung mit 6+8-2, also 12 Freiheitsgraden:

\[ T \sim t(12) \]

Notiz am Rande: In unterschiedlicher Literatur gibt es sowohl für den Nenner bei der Prüfgröße, als auch für die Anzahl der Freiheitsgrade hier, verschiedene Formeln. Das Thema ist etwas komplexer, aber in der Praxis vereinfacht sich das ungemein, da wir dann für die beiden Gruppen genügend Beobachtungen haben, und einen einfacheren Test verwenden können (wer es genau wissen will: Dann greift der zentrale Grenzwertsatz und wir können als Approximation die Normalverteilung statt der t-Verteilung verwenden).
In Klausuren ist es allerdings nicht machbar, Mittelwerte und Varianzen von mehr als 30 Beobachtungen zu berechnen, weswegen es in diesen Fällen dann doch immer zu diesen Formeln führt. Falls sich Formeln in euren Vorlesungen oder Formelsammlungen von den hier genannten unterscheiden, verwendet natürlich immer die Formeln die euer Professor euch vorgegeben hat.
Das grundlegende Prinzip wird sich dadurch nicht ändern, dieser Artikel ist also trotzdem sinnvoll. Nur die Zahl im Ergebnis wird ein wenig anders sein.

7. Kritischen Bereich (oder p-Wert) berechnen

Den kritischen Bereich berechnen wir genau so wie wir es beim Einstichproben-t-Test und beim gepaarten t-Test schon gemacht haben. Eine Einführung in diese Aufgabe, und ein paar weiter verdeutlichende Beispiele gibt es in diesen beiden Artikeln.

In dieser Aufgabe führen wir einen einseitigen t-Test durch, in dem die Alternative nach rechts zielt. Der kritische Bereich ist also der „höchste“ Bereich, d.h. die höchsten 5%, in die die t-Verteilung mit 12 Freiheitsgraden fällt. Mathematisch gesagt suchen wir als Schranke zu diesem Bereich das 95%-Quantil der t-Verteilung mit 12 Freiheitsgraden.

Alle Werte, die „rechts“ von dieser Schranke liegen, d.h. größer als diese Schranke sind, liegen nun im kritischen Bereich. Falls unsere Prüfgröße dort gelandet ist, lehnen wir die Nullhypothese ab.

Die genauen Werte erhalten wir aus der Tabelle der t-Verteilung (im Artikel zur t-Verteilung ist auch genauer erklärt, wie man das macht). Die rechte Schranke ist, wie schon gesagt, das 95%-Quantil der t-Verteilung mit 12 Freiheitsgraden, und aus der Tabelle lesen wir dafür den Wert 1.782 ab. Prüfe das am besten selbst nach, es ist für eine Klausur unerlässlich, das schnell und sicher zu können.

8. Testentscheidung treffen

Für die Entscheidung haben wir jetzt alle Informationen zusammen:

  • Die Prüfgröße ist \(T = 1,.598\).
  • Die Schranke zum kritischen Bereich ist bei 1.782. Der kritische Bereich sind alle Werte größer als diese Schranke (da wir einen einseitigen Test rechnen, bei dem die Alternativhypothese nach rechts zielt).

Unsere Prüfgröße liegt also nicht im kritischen Bereich. Daher können wir schlussfolgern, dass wir in dieser Analyse die Nullhypothese nicht ablehnen können. Es wurde also hier kein Beweis dafür gefunden, dass Nichtraucher länger leben als Raucher.

Hinweis: Das bedeutet ausdrücklich nicht, dass wir bewiesen haben dass Nichtraucher nicht länger leben als Raucher. Denn wir können \(H_0\) niemals „statistisch beweisen“, sondern nur \(H_1\). Diese Tatsache ist in diesem Artikel genauer erklärt.

Änderungen bei den zwei anderen Beispielen

Für die übrigen zwei Beispiele aus dem 1. Schritt, wenn die Alternativhypothese entweder zweiseitig ist, oder nach links statt nach rechts zielt, verändert sich nur der kritische Bereich in Schritt 7; die Prüfgröße \(T\) wird aber auf dieselbe Weise berechnet. Die Änderungen sind identisch wie im Einstichproben-t-Test, weswegen der Abschnitt im dortigen Artikel hier genauso angewendet werden kann.

Klasuraufgabe

Du wohnst gleich weit entfernt von zwei Lieferdiensten, dem Asiaten A, und der Pizzeria B. Du interessierst dich dafür, ob die durchschnittliche Zeit bis deine Bestellung bei dir ankommt bei beiden Diensten gleich ist, oder ob es Unterschiede gibt.

Daher bestellst du über ein Jahr lang abwechselnd bei den beiden Lieferanten, 7-mal beim Asiaten A, und 8-mal bei Pizzeria B (die schmeckt ein bisschen besser).

Die resultierenden Lieferzeiten sind in der folgenden Tabelle zusammengefasst:

Asiate A Pizzeria B
30 42
45 24
43 38
34 34
29 41
38 22
51 40
33

Führe einen Hypothesentest zum Niveau \(\alpha=0.1\) durch, um zu prüfen ob sich die beiden Mittelwerte der Lieferzeiten voneinander unterscheiden.

(Zur Vereinfachung können wir hier von einer Normalverteilung der Lieferzeiten ausgehen – ein t-Test ist also in Ordnung).

Lösung (klick)

Wir gehen nach den üblichen 8 Schritten beim Testen vor:

1. Hypothesen aufstellen

Uns interessiert, ob die beiden durchschnittlichen Lieferzeiten prinzipiell unterschiedlich sind, d.h. egal in welche Richtung. Wir müssen also einen zweiseitigen Test rechnen. Bezeichnen wir dazu die mittlere Lieferzeit des Asiaten mit \(\mu_A\), und die der Pizzeria mit \(\mu_B\), lauten die Hypothesen:

  • \(H_0: \mu_A = \mu_B\)
  • \(H_1: \mu_A \neq \mu_B\)

2. Test wählen

Anhand der Tabelle zur Testwahl lesen wir ab: Wir haben eine normalverteilte Zielgröße, und als Einflussgröße zwei Gruppen, die ungepaart, also unabhängig sind. Daher ist hier der Zweistichproben-t-Test angebracht.

3. Signifikanzniveau festlegen

Das Niveau \(\alpha\) wird in Klausuraufgaben meist vorgegeben sein. Hier ist es \(\alpha = 0.1\)

4. Daten sammeln

Die Daten haben wir schon erhalten, und sind oben gegeben.

5. Prüfgröße berechnen

Die Prüfgröße beim Zweistichproben-t-Test berechnet man durch

\[ T = \frac{\bar{x} – \bar{y}}{\sqrt{\frac{s^2_x}{n_x} + \frac{s^2_y}{n_y}}} \]

Die in der Formel allgemeinen Bezeichnungen X und Y beziehen sich hier auf den Asiaten A und die Pizzeria B. Wir berechnen die einzelnen Werte dieser Formel:

  • Die Stichprobengröße des Asiaten \(n_x = 7\)
  • Der Mittelwert des Asiaten \(\bar{x} = 38.57\)
  • Die Varianz des Asiaten \(s^2_x = 66.95\)
  • Die Stichprobengröße der Pizzeria \(n_y = 8\)
  • Der Mittelwert der Pizzeria \(\bar{y} = 34.25\)
  • Die Varianz der Pizzeria \(s^2_y = 58.5\)

Die Prüfgröße ist im Ergebnis also:

\[ T = \frac{38.57 – 34.25}{\sqrt{\frac{66.95}{7} + \frac{58.5}{8}}} = 1.052 \]

6. Verteilung der Prüfgröße bestimmen

Falls die Nullhypothese gilt, und beide Lieferdienste im Durchschnitt gleich lang brauchen, dann ist unsere Prüfgröße \(T\) am Ende t-verteilt mit \(n_x + n_y – 2\), also mit 13 Freiheitsgraden:

\[ T \sim t(13)\]

7. Kritischen Bereich (oder p-Wert) berechnen

Den kritischen Bereich erhalten wir aus der Tabelle der t-Verteilung. Unser Signifikanzniveau ist in dieser Aufgabe \(\alpha = 0.1\), wir suchen daher die „extremen“ 10% der t-Verteilung. Da wir einen zweiseitigen Test verwenden, suchen wir zwei Bereiche, nämlich jeweils die Hälfte, also 5%, auf der linken bzw. rechten Seite dieser Verteilung. Wir brauchen also zwei Schranken zum kritischen Bereich: das 5%-Quantil sowie das 95%-Quantil der t-Verteilung mit 13 Freiheitsgraden.

Die genauen Werte erhalten wir aus der Tabelle der t-Verteilung. Die rechte Schranke ist das 95%-Quantil der t-Verteilung mit 13 Freiheitsgraden, und aus der Tabelle lesen wir den Wert 1,771 ab. Prüfe das am besten selbst nach, es ist für eine Klausur unerlässlich, das schnell und sicher zu können.

Die linke Schranke ist -1,771, denn da die t-Verteilung symmetrisch um 0 ist, können wir einfach den negativen Wert von der rechten Schranke (1,771) nehmen (im Artikel zur t-Verteilung ist auch genauer erklärt, wie man das macht). Der kritische Bereich ist also der in der Grafik rot eingefärbte Bereich, es ist der Bereich außerhalb der beiden Schranken.

8. Testentscheidung treffen

In Schritt 5 haben wir die Prüfgröße berechnet als \(T=1.052\). In Schritt 7 haben wir den kritischen Bereich bestimmt als der Bereich kleiner als -1,771 und größer als 1,771. Da die Prüfgröße nicht im kritischen Bereich liegt (das erkennt man auch an der Grafik), behalten wir die Nullhypothese bei.

Wir können also schlussfolgernd nicht nachweisen, dass die beiden Lieferdienste unterschiedlich schnell liefern.

Gepaarter t-Test: Vorher/Nachher-Mittelwertsvergleich

Der gepaarte t-Test wird immer dann verwendet, wenn man zwar zwei Stichproben (d.h. zwei „Gruppen“) hat, diese aber verbunden sind. Verbunden bedeutet in diesem Fall, dass jeder Beobachtung aus der ersten Gruppe direkt eine aus der zweiten Gruppe zugeordnet werden kann, die beiden Beobachtungen gehören also zusammen. In den meisten Fällen ist das der Fall, wenn man einen vorher/nachher-Vergleich machen möchte. Andere Fälle, in denen die Beobachtungen zweier Gruppen „zusammengehören“, also verbunden sind, sind zum Beispiel Zwillingsstudien, in denen je ein Zwilling in eine Gruppe kommt, und dann Unterschiede bezüglich Verhalten oder Eigenschaften getestet werden.

Als Beispiel eines vorher/nachher-Vergleichs misst man etwa bei 9 Personen den Blutdruck, führt sie dann 30 Minuten durch eine Meditation, und misst danach an denselben Personen nochmal den Blutdruck.

In diesem Beispiel könnten die Daten dann wie folgt aussehen:

Person \(x_i\) Blutdruck vorher Blutdruck nachher
1 130 124
2 145 142
3 151 138
4 143 143
5 129 122
6 138 141
7 143 140
8 113 108
9 133 127

Wir möchten nun zum Signifikanzniveau \(\alpha=0.1\) testen, ob diese Personen nach der 30-minütigen Meditation einen niedrigeren Blutdruck haben, ob sich also der durchschnittliche Blutdruck gesenkt hat.

Das Schöne an einer gepaarten Stichprobe ist nun, dass wir uns eines Tricks bedienen können, nach dem wir dann einfach den bekannten Einstichproben-t-Test verwenden können:

Da die beiden Gruppen verbunden sind, es also jeweils dieselbe Person in der vorher- bzw. nachher-Gruppe ist, können wir für jede Person die Differenz der beiden Messungen berechnen. Wir fügen eine neue Spalte an die Tabelle von eben an, in der wir einfach „nachher minus vorher“ rechnen:

Person \(x_i\) Blutdruck vorher Blutdruck nachher Differenz / „Effekt“
1 130 124 -6
2 145 142 -3
3 151 138 -13
4 143 143 0
5 129 122 -7
6 138 141 +3
7 143 140 -3
8 113 108 -5
9 133 127 -6

Wir rechnen „nachher minus vorher“, und nicht „vorher minus nachher“, damit eine negative Zahl, z.B. -6, darauf hindeutet, dass der Blutdruck nach der Meditation gesunken ist.

Die letzte Spalte beinhaltet nun also den „Effekt“ der Meditation (falls es einen gibt). Die erste Person hatte zum Beispiel nach der Meditation einen um 6 Punkte niedrigeren Blutdruck als vorher.

Der bequeme und erfreuliche Effekt dieser Nebenrechnung ist jetzt, dass wir die Vorher- bzw. Nachher-Messungen wegwerfen können, und nur noch mit der Differenz weiterarbeiten. Da das nur noch eine einzige Variable ist, können wir mit ihr den bereits bekannten Einstichproben-t-Test durchführen.

Die Hypothesen werden dann abhängig davon gebildet, welchen Effekt man testen möchte. Wenn wir – wie in diesem Beispiel – nachweisen möchten, dass die Nachher-Messung niedriger ist, dann wäre die Alternativhypotese demnach, dass der Mittelwert der eben berechneten Differenzen kleiner als Null ist, also \(H_1: \mu < 0\). (Warum das so ist, wird in diesem Artikel erklärt).

Ab jetzt können wir also den Einstichproben-t-Test durchführen, und brauchen hier daher kein neues Vorgehen, keine separate Erklärung mehr. Die Daten, mit denen wir den Einstichproben-t-Test durchführen, sind:

  • \(H_0: \mu \geq 0\)
  • \(H_1: \mu < 0\)
  • Signifikanzniveau: \(\alpha = 0.1\)
  • \(x = (-6, -3, -13, 0, -7, +3, -3, -5, -6)\). Das ist die letzte Spalte der Tabelle oben, unsere „neue“ Stichprobe, nämlich die der Differenzen von vorher zu nachher.

Damit können wir direkt in Schritt 5 der Abfolge beim Hypothesentest einsteigen, dem Berechnen der Prüfgröße. Dieser und alle weiteren Schritte kann man nun genauso durchführen wie im Artikel zum Einstichproben-t-Test erklärt.

Ergebnis

Wer diese Aufgabe selbst zuende rechnen und nachprüfen möchte, für den fasse ich hier die Ergebnisse kurz zusammen. Das Vorgehen ist wie gesagt im entsprechenden Artikel detailliert beschrieben.

  • Mittelwert: \(\bar{x} = -4.444\)
  • Standardabweichung: \(s = 4.531\)
  • Stichprobengröße: \(n = 9\)

Schritt 5: Prüfgröße berechnen

\[T = \sqrt{n} \cdot \frac{\bar{x} \, – \, \mu_0}{s} = \sqrt{9} \cdot \frac{-4.444 \, – \, 0}{4.531} = -2.942 \]

Schritt 6: Verteilung der Prüfgröße bestimmen

\[T \sim t(8) \]

Schritt 7: Kritischen Bereich (oder p-Wert) berechnen

Vorsicht: In dieser Aufgabe ist das Signifikanzniveau \(\alpha\) nicht 0.05, wie es normalerweise ist, sondern 0.1.

Der kritische Bereich ist das linke Ende der t-Verteilung, die „niedrigen“ Zahlen, denn die Alternativhypothese zielt auf Bereiche ab, in denen die Differenz stark negativ ist.

Für die kritische Schranke brauchen wir das 10%-Quantil der t-Verteilung mit 8 Freiheitsgraden. Laut t-Tabelle ist es -1.383.

Der kritische Bereich, in dem wir die Nullhypothese ablehnen, sind also alle Werte für \(T\), die kleiner als -1,383 sind.

Schritt 8: Testentscheidung treffen

Hier ist \(T=-2.942\), und der kritische Bereich ist alles was kleiner als -1,383 ist. Daher liegt die Prüfgröße im kritischen Bereich, und somit können wir die Nullhypothese bei dieser Untersuchung ablehnen.

Klausuraufgabe

Für ein neues Medikament soll geprüft werden, ob es einen Einfluss auf die Reaktionszeit von Patienten hat. Dabei sollen beide Seiten geprüft werden, also sowohl ob sie länger wird, als auch ob sie kürzer wird.

Dazu wird bei 8 Patienten die Reaktionszeit in einem kurzen Test gemessen: Man zeigt ein großes X auf dem Bildschirm, und misst die Zeit in Millisekunden (ms), bis die Person mit der Maus klickt.

Im Anschluß wird diesen Patienten eine Dosis des neuen Medikaments gegeben, und derselbe Test nochmal durchgeführt. Die Ergebnisse sind in der folgenden Tabelle zusammengefasst:

Person \(x_i\) Reaktionszeit vorher Reaktionszeit nachher
1 300ms 268ms
2 520ms 522ms
3 412ms 384ms
4 324ms 295ms
5 292ms 262ms
6 378ms 339ms
7 401ms 359ms
8 264ms 235ms

Führe einen Hypothesentest zum Niveau \(\alpha=0.1\) durch, um zu prüfen ob die mittlere Reaktionszeit durch das Medikament verändert wurde. Wir können für diese Aufgabe vereinfachend von einer Normalverteilung der Reaktionszeit ausgehen.

Lösung (klick)

Wir gehen nach den üblichen 8 Schritten beim Testen vor:

1. Hypothesen aufstellen

Da wir sowohl eine kürzere als auch eine längere Reaktionszeit entdecken möchten, verwenden wir hier einen zweiseitigen Test. Die Hypothesen lauten also erstmal

  • \(H_0: \mu_{\text{vorher}} = \mu_{\text{nachher}}\)
  • \(H_1: \mu_{\text{vorher}} \neq \mu_{\text{nachher}}\)

Wir sehen aber, dass es sich um eine verbundene Stichprobe handelt, daher können wir direkt die Differenzen der beiden Reaktionszeiten verwenden. Wenn wir uns nur auf diese Differenzen und ihren Mittelwert konzentrieren, können wir die Hypothesen umformen und vereinfachen:

  • \(H_0: \mu_d = 0\)
  • \(H_1: \mu_d \neq 0\)

2. Test wählen

Anhand der Tabelle zur Testwahl finden wir den passenden Test: Wir haben eine normalverteilte Zielgröße, und als Einflussgröße zwei Gruppen, die allerdings gepaart sind. Daher ist der gepaarte t-Test hier angebracht.

3. Signifikanzniveau festlegen

Das Niveau \(\alpha\) wird in Klausuraufgaben meist vorgegeben sein. Hier ist es \(\alpha = 0.1\)

4. Daten sammeln

Die rohen Daten sind schon gegeben, aber wir müssen noch die Differenzen berechnen. Für die erste Person erhalten wir z.B. 268ms – 300ms = -32ms, also eine um 32ms niedrigere Reaktionszeit. Insgesamt sind unsere Daten dann:

\[x = (-32, +2, -28, -29, -30, -39, -42, -29) \]

5. Prüfgröße berechnen

Ab hier geht es weiter wie beim Einstichproben-t-Test. Die Prüfgröße berechnet man durch

\[ T = \sqrt{n} \cdot \frac{\bar{x} \, – \, \mu_0}{s} \]

Die einzelnen Werte berechnen wir:

  • Die Stichprobengröße \(n = 8\)
  • Der Mittelwert \(\bar{x} = -28.375\)
  • Die Standardabweichung \(s = 13.298\)
  • Der unter \(H_0\) angenommene Mittelwert der Differenz. Da unter \(H_0\) die beiden Mittelwerte gleich sein sollen, wäre dann der Mittelwert der Differenz \(\mu_0 = 0 \)

Die Prüfgröße ist im Ergebnis also:

\[ T = \sqrt{8} \cdot \frac{-28.375 \, – \, 0}{13.298} = -6.035\]

6. Verteilung der Prüfgröße bestimmen

Falls die Nullhypothese gilt, dann ist unsere Prüfgröße \(T\) t-verteilt mit \(n-1\), also mit 7 Freiheitsgraden:

\[ T \sim t(7)\]

7. Kritischen Bereich (oder p-Wert) berechnen

Den kritischen Bereich erhalten wir aus der Tabelle der t-Verteilung. Da wir einen zweiseitigen Test verwenden, und das Signifikanzniveau aus dem 2. Schritt \(\alpha = 0.10\) ist, suchen wir zwei Schranken, auf der linken sowie rechten Seite der t-Verteilung, wo sich jeweils die äußeren 5%, also die Hälfte der 10% aus dem Signifikanzniveau 0.10 befinden. Wir brauchen also das 5%-Quantil sowie das 95%-Quantil der t-Verteilung mit 7 Freiheitsgraden.

Laut Tabelle ist das 95%-Quantil bei 7 Freiheitsgraden 1,895. Wegen der Symmetrie der t-Verteilung wissen wir dann auch, dass das 5%-Quantil genau das Negative des 95%-Quantils ist, also -1.895.

Falls also die Prüfgröße \(T\) kleiner als -1.895 oder größer als 1.895 ist, können wir die Nullhypothese ablehnen, andernfalls behalten wir sie bei.

8. Testentscheidung treffen

In Schritt 5 haben wir die Prüfgröße berechnet als \(T=-6.035\). In Schritt 7 haben wir den kritischen Bereich bestimmt als der Bereich kleiner als -1.895, und der Bereich größer als 1.895. Da die Prüfgröße extrem klein ist, liegt sie im kritischen Bereich (im linken Teil). Wir lehnen die Nullhypothese daher ab, und haben ausreichende Beweise für die Alternativhypothese \(H_1\) gefunden.

Wir können also schlussfolgernd nachweisen, dass die Reaktionszeit durch das Medikament verändert, und genauer gesagt verkürzt wurde.

Einstichproben-t-Test: Einzelnen Mittelwert testen

Wann verwendet man einen Einstichproben-t-Test?

Der t-Test ist wohl der bekannteste und am häufigsten verwendete Hypothesentest. Er kommt immer dann zum Einsatz, wenn man Hypothesen prüfen möchte, die Aussagen über einen Mittelwert treffen. Zwei Beispiele:

  • „Die Bahn kommt an diesem Bahnhof im Mittel mindestens 3 Minuten zu spät.“
  • „Der durchschnittliche Blutdruck von Rauchern ist höher als der von Nichtrauchern“

Im zweiten Beispiel, das mit dem Blutdruck, haben wir zwei Gruppen, müssen also zwei Stichproben erheben: Eine von einigen Rauchern, und eine zweite von einigen Nichtrauchern. Das wäre ein Zweistichproben-t-Test, dieser Fall wird im nächsten Artikel behandelt.

Der einfachere Spezialfall unter den t-Tests ist nun der Einstichproben-t-Test. Er wird immer dann verwendet, wenn man nur eine Stichprobe (d.h. keine Gruppen) hat, also nur einen einzelnen Mittelwert testen möchte – so wie es im ersten Beispiel, mit der Verspätung der Bahn, der Fall war.

Dieser Test heißt t-Test, weil die Prüfgröße eine t-Verteilung hat.

Einführende Artikel

Zum Einstieg sollte man sich zu Beginn die folgenden beiden Artikel durchlesen:

In ihnen beschreibe ich ganz allgemein die Schritte, mit denen man einen Hypothesentest durchführt. Dadurch werden die einzelnen Teile in diesem Artikel verständlicher.

Außerdem macht es Sinn, den Artikel zum Binomialtest zu lesen, da ich dort noch etwas ausführlicher beschrieben habe, wie man die allgemeinen Prinzipien auf einen speziellen Test anwendet. Falls hier etwas nur kurz beschrieben wird, dann ist es im Artikel zum BInomialtest evtl. ausführlicher verständlicher erklärt worden.

1. Hypothesen aufstellen

Beim t-Test gibt es, genau wie beim Binomialtest, drei verschiedene Möglichkeiten, seine Hypothesen zu formulieren. Welche Variante man verwenden muss, hängt von der Fragestellung ab, die man untersucht. Dazu drei Beispiele:

  1. Ein misstrauischer Oktoberfestbesucher möchte nachweisen, dass in den Maßkrügen im Durchschnitt weniger als 1 Liter Bier eingeschenkt wurde. Die Alternativhypothese muss also sagen, dass der MIttelwert kleiner als 1000ml ist. Insgesamt also:
    • \(H_0: \mu \geq 1000ml\)
    • \(H_1: \mu < 1000ml\)
  2. Ein Dorf behauptet, dass seine Bewohner im Mittel über 100 Jahre alt werden. Um das nachzuweisen, muss der Fall „erreichtes Lebensalter (\(\mu\)) ist über 100 Jahre“ in die Alternativhypothese \(H_1\) (warum das so ist, wird in diesem Artikel beschrieben). Die Hypothesen lauten also:
    • \(H_0: \mu \leq 100\)
    • \(H_1: \mu > 100\)
  3. In einer Fabrik werden Frühstücksmüslis in Packungen zu 750g abgefüllt. Die Qualitätssicherung überprüft, dass in eine Packung im Durchschnitt weder zu wenig noch zu viel Müsli gefüllt wird. Die Nullhypothese bezeichnet also den Normalzustand, \(\mu = 750g\), und die Alternativhypothese geht nun in beide Richtungen – insgesamt also:
    • \(H_0: \mu = 750g\)
    • \(H_1: \mu \neq 750g\)

Im restlichen Artikel verwende ich das dritte Beispiel mit den Müslipackungen, und zeige am Ende noch kurz, welche Veränderungen man in den anderen beiden Fällen vornehmen müsste.

2. Test wählen

Um die Abfolge der 8 Schritte nicht zu verändern, die wir in den beiden einführenden Artikeln aufgestellt haben (erster und zweiter Artikel), nehme ich hier den 2. Schritt auch mit auf. Es ist natürlich schon klar, dass wir einen Einstichproben-t-Test verwenden werden.

3. Signifikanzniveau festlegen

Wie in den vorherigen Artikeln schon beschrieben, legt das Signifikanzniveau die Wahrscheinlichkeit fest, mit der man einen bestimmten Fehler macht, nämlich die fälschliche Entscheidung dass die Alternativhypothese gilt, obwohl in Wirklichkeit die Nullhypothese wahr ist.

Allgemeiner Konsens ist hier ein Wert von 5%, also \(\alpha = 0.05\). In besonders kritischen Fragestellungen, z.B. solchen, die die menschliche Gesundheit betreffen, muß das Signifikanzniveau oft niedriger gewählt werden, der Test wird dann konservativer. Hier wählt man z.B. \(\alpha = 0.01\).

Für unsere Beispielaufgabe nehmen wir das übliche Signifikanzniveau von \(\alpha = 0.05\).

4. Daten sammeln

In einer Klausur oder Übung gibt es die Daten natürlich meist schon. Wenn man sie aber selber sammelt, müssen die Daten für einen Einstichproben-t-Test eigentlich nur eine lange Liste von Dezimalzahlen sein. Wir fassen diese Daten dann im 5. Schritt zusammen in zwei Werte, in unserem Beispiel erstens den Mittelwert der Daten, \(\bar{x}\), und zweitens die Standardabweichung, \(s\). Diese beiden Werte brauchen wir für den Einstichproben-t-Test.

In unserem Beispiel betrachten wir zehn Müslipackungen und wiegen ihren exakten Inhalt ab. Wir erhalten die folgenden Messwerte:

Packung \(x_i\) 1 2 3 4 5 6 7 8 9 10
Inhalt 749g 755g 757g 751g 743g 750g 752g 750g 757g 757g

5. Prüfgröße berechnen

Die Prüfgröße beim t-Test heißt \(T\), und setzt sich aus vier Zahlen zusammen:

  • Der Mittelwert der gemessenen Werte, \(\bar{x}\). Der Mittelwert der zehn Packungen bei uns ist 752.1g.
  • Die Standardabweichung der gemessenen Werte, \(s\). Hier ist die Standardabweichung 4.508. Eine ausführliche Erklärung dazu findest du in diesem Artikel.
  • Der „tatsächliche“ bzw. unterstellte Mittelwert \(\mu_0\). Da wir von einem Packungsinhalt von 750g ausgehen, ist bei uns \(\mu_0 = 750g\)
  • Wie groß die Stichprobe ist. Je mehr Daten man erhoben hat, desto genauer ist nämlich die Schätzung für den Mittelwert. Wir haben \(n=10\) Beobachtungen. In der Formel brauchen wir gleich die Wurzel aus dieser Zahl

Die Formel für die Berechnung der Prüfgröße lautet nun

\[ T = \sqrt{n} \cdot \frac{\bar{x} \, – \, \mu_0}{s} \]

Bei uns setzen wir also ein:

\[ T = \sqrt{10} \cdot \frac{752.1 \, – \, 750}{4.508} = 1.473 \]

Unsere Prüfgröße ist also \(T = 1.473\).

6. Verteilung der Prüfgröße bestimmen

Falls in Wirklichkeit tatsächlich durchschnittlich 750g in einer Müslipackung sind, dann ist der Mittelwert t-verteilt mit \(n-1\) Freiheitsgraden. Da unsere Prüfgröße \(T\) schon standardisiert ist, ist es ab jetzt egal, welchen Mittelwert \(\mu_0\) wir unterstellen, und welche Standardabweichung die Daten haben.

Die Bezeichnung „Freiheitsgrade“ ist ein wenig kompliziert, und ich bin der Meinung, dass man das Konzept nicht unbedingt verstehen muss – man kann das Wort ohne Probleme einfach so akzeptieren. Man muss sich nur merken, dass man bei einer Stichprobe der Größe \(n\) eben die t-Verteilung mit \(n-1\) Freiheitsgraden verwenden muss.

Bei unserem Beispiel ist \(n=10\), wir verwenden also die t-Verteilung mit \(n-1=9\) Freiheitsgraden:

\[ T \sim t(9) \]

7. Kritischen Bereich (oder p-Wert) berechnen

Den kritischen Bereich erhalten wir mit Hilfe einer Tabelle der t-Verteilung, die in einem eigenen Artikel erklärt wird. Wir suchen einen kritischen Bereich, in dem unser Ergebnis (d.h. die Prüfgröße \(T\)) nur zu 5% (das ist das SIgnifikanzniveau \(\alpha\)) fallen würde, falls die Nullhypothese gilt. Da wir hier einen zweiseitigen Test verwenden, teilen wir diese 5% auf in jeweils 2.5% links und 2.5% rechts. Man kann sich das so vorstellen, dass sowohl besonders kleine, als auch besonders große Werte von \(\bar{x}\) (und somit auch von \(T\)) gegen die Nullhypothese sprechen.

Mir hat es zum Verständnis immer geholfen, ein Diagramm zu zeichnen, um zu verstehen welche Werte wir suchen.

Wir suchen nun die beiden Grenzen, die den kritischen Bereich einrahmen. An der Grafik erkennt man schon, dass sie ein bisschen über der 2 liegen, vielleicht bei -2,3 und +2,3.

Die genauen Werte erhalten wir aus der Tabelle der t-Verteilung (im Artikel zur t-Verteilung ist auch genauer erklärt, wie man das macht). Die rechte Schranke ist das 97,5%-Quantil der t-Verteilung mit 9 Freiheitsgraden, und aus der Tabelle lesen wir den Wert 2,262 ab. Prüfe das am besten selbst nach, es ist für eine Klausur unerlässlich, das schnell und sicher zu können.

Die linke Schranke ist -2,262, denn da die t-Verteilung symmetrisch um 0 ist, können wir einfach den negativen Wert von der rechten Schranke (2,262) nehmen. Der kritische Bereich ist also der in der Grafik rot eingefärbte Bereich, es ist der Bereich außerhalb der beiden Schranken.

8. Testentscheidung treffen

Insgesamt wissen wir nun: Wenn unsere Prüfgröße \(T\) innerhalb des Bereichs [-2,262,  2,262] liegt, dann spricht das für die Nullhypothese. Liegt \(T\) aber außerhalb (also im kritischen, roten Bereich), dann können wir die Nullhypothese ablehnen, und unsere Testentscheidung fällt zugunsten der Alternativhypothese \(H_1\) aus.

In Schritt 5 haben wir \(T = 1.473\) ausgerechnet. Die Prüfgröße liegt also nicht im kritischen Bereich. Es ist also „alles in Ordnung“: Wir können weiterhin von der Nullhypothese ausgehen, und haben keinen Anlass dafür den Abfüllmechanismus in der Müslifabrik zu reparieren.

Änderungen bei den zwei anderen Beispielen

Im Beispiel dieses Artikels haben wir einen zweiseitigen t-Test durchgeführt. Falls man einen einseitigen t-Test rechnen möchte, so wie in den anderen beiden Beispielen die oben schon erwähnt wurden, dann ist der kritische Bereich nur auf einer Seite der möglichen Werte für die Prüfgröße \(T\). Im ersten Beispiel, das mit dem misstrauischen Oktoberfestbesucher, ist der kritische Bereich z.B. nur durch zu wenig befüllte Maßkrüge, also durch kleine Werte für die Prüfgröße gegeben. Der kritische Bereich dort wird also das linke Ende der t-Verteilung sein, und zwar die linken 5% (statt der 2,5%, die beim zweiseitigen Test verwendet wurden). Die Schranke, die den kritischen Bereich abgrenzt, ist das 5%-Quantil der t-Verteilung:

Wenn also die Prüfgröße \(T\) kleiner als ca. 1,9 ist (der genaue Wert hängt wieder von der Stichprobengröße, also der Anzahl der Freiheitsgrade ab), dann lehnen wir die Nullhypothese in diesem Fall ab.

Falls der Test allerdings einseitig nach rechts testet, z.B. beim 3. Beispiel (die Dorfbewohnern, die behaupten dass sie im Mittel über 100 Jahre werden), dann ist der kritische Bereich das rechte Ende der t-Verteilung. Hier bräuchten wir also das 95%-Quantil als Schranke zum kritischen Bereich:

Klausuraufgabe

Betrachten wir uns das zweite Beispiel, das ganz oben im Artikel schon angesprochen wurde:

Ein Dorf behauptet, dass seine Bewohner im Mittel über 100 Jahre alt werden. Um das zu überprüfen, wurde das erreichte Lebensalter der 7 zuletzt verstorbenen Personen notiert:

Person \(x_i\) 1 2 3 4 5 6 7
Alter 108 82 113 104 98 103 108

Wir können beim Alter für diese Aufgabe vereinfachend von einer Normalverteilung ausgehen. Verwende daher den Einstichproben-t-Test, um zu prüfen ob das durchschnittliche Alter wirklich größer als 100 ist.

Lösung (klick)

Wir gehen nach den üblichen 8 Schritten beim Testen vor:

1. Hypothesen aufstellen

Das Dorf möchte nachweisen, dass das durchschnittlich erreichte Alter größer als 100 Jahre ist. Die Alternativhypothese \(H_1\) muss also \(\mu > 100\) lauten. Die Nullhypothese \(H_0\) ist das „Gegenteil“ davon, also die andere Seite: \(\mu \leq 100\).

2. Test wählen

In der Aufgabe wird schon erwähnt, dass wir einen Einstichproben-t-Test durchführen sollen. Wir hätten es aber anhand der Tabelle zur Testwahl auch selbst herausfinden können: Wir haben eine normalverteilte Zielgröße, und keine Einflussgröße. Daher ist der Einstichproben-t-Test hier angebracht.

3. Signifikanzniveau festlegen

Das Niveau \(\alpha\) wird in Klausuraufgaben meist vorgegeben sein. Hier ist es \(\alpha = 0.05\)

4. Daten sammeln

Die Daten haben wir schon erhalten, und sind oben gegeben.

5. Prüfgröße berechnen

Die Prüfgröße berechnet man durch

\[ T = \sqrt{n} \cdot \frac{\bar{x} \, – \, \mu_0}{s} \]

Die einzelnen Werte berechnen wir:

  • Die Stichprobengröße \(n = 7\)
  • Der Mittelwert \(\bar{x} = 102.49\)
  • Die Standardabweichung \(s = 10.29\)
  • Der unter \(H_0\) angenommene Mittelwert \(\mu_0 = 100 \) Jahre. (Wir verwenden hier die Grenze des Alters, also genau die Schranke der 100 Jahre, von der behauptet wird dass sie überschritten wird.)

Die Prüfgröße ist im Ergebnis also:

\[ T = \sqrt{7} \cdot \frac{102.49 \, – \, 100}{10.29} = 0.625\]

6. Verteilung der Prüfgröße bestimmen

Falls die Nullhypothese gilt, und im günstigsten Fall die Menschen im Durchschnitt zwar 100 Jahre, aber nicht älter werden, d.h. der MIttelwert genau 100 Jahre ist, dann ist unsere Prüfgröße \(T\) am Ende t-verteilt mit \(n-1\), also mit 6 Freiheitsgraden:

\[ T \sim t(6)\]

7. Kritischen Bereich (oder p-Wert) berechnen

Den kritischen Bereich erhalten wir aus der Tabelle der t-Verteilung. Da wir einen einseitigen Test verwenden, und die Alternativhypothese nach rechts abzielt (weil wir größer als 100 Jahre nachweisen möchten), suchen wir die Schranke auf der rechten Seite der t-Verteilung – wir brauchen also das 95%-Quantil der t-Verteilung mit 6 Freiheitsgraden.

Laut Tabelle ist dieses Quantil 1,943. Falls also die Prüfgröße \(T\) größer ist als 1,943, können wir die Nullhypothese ablehnen, andernfalls behalten wir sie bei.

8. Testentscheidung treffen

In Schritt 5 haben wir die Prüfgröße berechnet als \(T=0.625\). In Schritt 7 haben wir den kritischen Bereich bestimmt als der Bereich oberhalb von 1,943. Da die Prüfgröße nicht im kritischen Bereich liegt, behalten wir die Nullhypothese bei.

Wir können also schlussfolgernd nicht nachweisen, dass die Bewohner in diesem Dorf im Durchschnitt signifikant älter als 100 Jahre werden.

Was kommt in H0, und was in H1?

Beim Testen muss man zuallererst die beiden Hypothesen aufstellen. Hier tun sich viele Studenten schwer – auch ich hatte damals Probleme – daher möchte ich hier nochmal genauer erläutern, welcher Teil in welche Hypothese kommt.

Das Wichtigste: Man kann \(H_0\) nie beweisen!

Es ist nicht das gleiche, \(H_0\) beizubehalten, und \(H_0\) zu beweisen. Um zurück auf das Beispiel mit dem unschuldigen Angeklagten (aus einem früheren Artikel) zu kommen:

Wenn ich beweisen möchte, dass der Angeklagte schuldig ist, muss ich meine Hypothesen so herum formulieren:

  • \(H_0\): Der Angeklagte ist unschuldig.
  • \(H_1\): Der Angeklagte ist schuldig

Wenn ich nun „Daten erhebe“, also in der Verhandlung Beweise gesammelt werden, dann tritt einer der folgenden zwei Fälle ein:

  • Es gibt genug Beweise für die Schuld des Angeklagten. Dann kann ich \(H_0\) ablehnen und habe \(H_1\) nachgewiesen, d.h. der Angeklagte ist (ziemlich sicher) schuldig. Die Antwort in diesem Fall lautet also: „\(H_1\) ist wahr“ (natürlich nur zu dem gewählten Signifikanzniveau).
  • Man hat keine (oder nicht genug) Beweise für die Schuld des Angeklagten gefunden. Damit habe ich aber \(H_0\) (also die Unschuld) nicht bewiesen! Nur weil keine Beweise für die Schuld gefunden wurden, können wir nicht sagen „wir haben bewiesen dass der Angeklagte unschuldig ist“. Die Antwort in dieser Situation lautet stattdessen: „Wir wissen es nicht“. In einer statistischen Auswertung sagt man dann zum Beispiel: „Es konnten keine Hinweise auf die Gültigkeit der Alternativhypothese gefunden werden.“

Man kann also \(H_0\) nie beweisen, sondern nur \(H_1\). Aus diesem Grund ist es so wichtig, dass man die Hypothesen richtig herum formuliert: Der Fall, den man nachweisen möchte, kommt in die Alternativhypothese. Die Metapher mit der Gerichtsverhandlung ist eine hilfreiche Eselsbrücke, um sich an dieses Vorgehen zu erinnern.

Ein Beispiel

Zwei Führungskräfte streiten sich: Kevin behauptet dass die Mitarbeiter ihrer Firma im Durchschnitt weniger als 6 Tage im Jahr krank sind, aber Falk ist davon überzeugt, dass sie mindestens 6 Tage im Jahrkrank sind.

Kevin möchte nun Recht bekommen, und nachweisen dass es weniger als 6 Tage sind. Das, was er beweisen möchte, muss in die Alternativhypothese \(H_1\). Die Nullhypothese wird „das Gegenteil“ davon, sozusagen der Status quo, von dem Kevin ausgehen muss, solange er nicht ausreichend Beweise für \(H_1\) gesammelt hat. Seine Hypothesen lauten also:

  • \(H_0\): Die Mitarbeiter fehlen mindestens 6 Tage pro Jahr
  • \(H_1\): Die Mitarbeiter fehlen weniger als 6 Tage pro Jahr

Wenn aber stattdessen Falk loszieht, Daten sammelt, und seine Vermutung beweisen will, möchte er ja genau das Gegenteil von Kevin beweisen. Seine Hypothesen werden also genau andersherum formuliert:

  • \(H_0\): Die Mitarbeiter fehlen weniger als 6 Tage pro Jahr
  • \(H_1\): Die Mitarbeiter fehlen mindestens 6 Tage pro Jahr

Wenn man dieses Beispiel verinnerlicht hat, sollte das Aufstellen beliebiger Hypothesen kein Problem mehr sein. Wichtig ist, sich zu merken, dass es bei jedem Hypothesentest zwei mögliche Ergebnisse gibt, und man nur eines davon wirklich beweisen kann. Meistens hat man eine Vorliebe für eines der beiden Ergebnisse (in einer Klausur sollte das auch klar ersichtlich sein), und das wird dann die Alternativhypothese \(H_1\).

Binomialtest: Anteile testen

Der Binomialtest ist in meinen Augen der Test, den man am einfachsten verstehen kann. Ich empfehle daher, sich zuerst mit diesem Test zu beschäftigen, wenn man in das Gebiet der statistischen Tests eintauchen möchte.

Einführende Artikel

Außerdem sollte man sich zu Beginn die folgenden beiden Artikel durchlesen:

In ihnen beschreibe ich ganz allgemein die Schritte, mit denen man einen Hypothesentest durchführt. Dadurch werden die einzelnen Teile in diesem Artikel verständlicher.

Wann verwendet man einen Binomialtest?

Der Binomialtest wird klassischerweise angewendet, wenn man eine Zielgröße mit zwei möglichen Ausprägungen hat (z.B. „ja“ und „nein“), und eine Vermutung über den Anteil an „ja“ überprüfen möchte.

Im Artikel Welchen statistischen Test soll ich wählen? erkläre ich ganz allgemein, wann welcher Test angebracht ist.

1. Hypothesen aufstellen

Beim Aufstellen der Hypothesen muss man genau auf seine zu untersuchende Fragestellung achten. Es gibt nämlich drei verschiedene Möglichkeiten, die ich kurz mit den folgenden drei Beispielproblemen illustriere:

  1. Dein Freund ist Basketballer, und möchte nachweisen, dass er im Durchschnitt mehr als 60% aller Würfe auf den Korb triffft. Man will also herausfinden, ob der Anteil an Treffern bei diesem Spieler größer als 60% ist.
  2. Der öffentliche Nahverkehr geht seit einer Weile von 3% Schwarzfahrern aus. Er hat momentan genau so viele Fahrkartenkontrolleure eingestellt, um mit diesem Anteil an Schwarzfahrern bestmöglich zurechtzukommen. Er möchte nun testen, ob sich der Anteil verringert hat, ob er also kleiner als 3% ist, und falls das so ist, die Anzahl der eingesetzten Kontrolleure verringern.
  3. Bei einem Online-Kleidungshandel wurden bisher \(\frac{1}{3}\) aller bestellten Artikel wieder zurückgesendet. Er möchte überprüfen, ob sich in diesem Monat die Retourenquote verändert hat (ob nach oben oder unten), ob sie also nicht mehr \(\frac{1}{3}\) ist.

Für diese drei Beispiele sehen die Hypothesen jeweils ein bisschen anders aus:

  1. Wir möchten prüfen, ob der Anteil \(p\) an Korbtreffern größer ist als 60% (also 0.6). Das heißt dass die Alternativhypothese besagen muss, dass p größer als 60% ist (der Grund dafür wird in diesem Artikel erklärt). Die Nullhypothese ist dann genau das Gegenteil, also insgesamt:
    • \(H_0: p \leq 0.6\)
    • \(H_1: p > 0.6\)

    Bemerkung: Beim Testen gehen wir ja von \(p = 0.6\) aus, also könnte man das auch so (statt mit \(\leq\)) in die Nullhypothese schreiben. Welche der beiden Varianten man wählt, hat aber keinen Einfluss auf den restlichen Test. Es wird in beiden Fällen gleich weitergerechnet, und es kommt am Ende auch das gleiche Ergebnis heraus. Ich bevorzuge die Variante mit \(\leq\), da man so mit den zwei Hypothesen alle denkbaren Wahrheiten abbildet, also auch die Fälle, wo \(p\) in Wirklichkeit kleiner als \(0.6\) ist.

  2. Hier interessiert uns, ob der Anteil an Schwarzfahrern kleiner ist als 3%. Aus denselben Gründen wie bisher setzen wir also:
    • \(H_0: p \geq 0.03\)
    • \(H_1: p < 0.03\)
  3. Dieser Test ist etwas speziell. Er nennt sich zweiseitiger Test, denn die Alternativhypothese \(H_1\) zielt in zwei Richtungen ab. Die Nullhypothese ist dann immer nur ein einziger Wert für \(p\) – in unserem Fall:
    • \(H_0: p = \frac{1}{3}\)
    • \(H_1: p \neq \frac{1}{3}\)

Im restlichen Artikel verwende ich das erste Beispiel mit den Schwarzfahrern, und zeige am Ende noch kurz, welche Veränderungen man in den anderen beiden Fällen vornehmen müsste.

2. Test wählen

Um die Abfolge der 8 Schritte nicht zu verändern, die wir in den beiden einführenden Artikeln aufgestellt haben (erster und zweiter Artikel), nehme ich hier den 2. Schritt auch mit auf. Es ist natürlich schon klar, dass wir einen Binomialtest verwenden werden.

3. Signifikanzniveau festlegen

Wie in den vorherigen Artikeln schon beschrieben, legt das Signifikanzniveau die Wahrscheinlichkeit fest, mit der man einen bestimmten Fehler macht, nämlich die fälschliche Entscheidung dass die Alternativhypothese gilt, obwohl in Wirklichkeit die Nullhypothese wahr ist.

Allgemeiner Konsens ist hier ein Wert von 5%, also \(\alpha = 0.05\). In besonders kritischen Fragestellungen, z.B. solchen, die die menschliche Gesundheit betreffen, muß das Signifikanzniveau oft niedriger gewählt werden, der Test wird dann konservativer. Hier wählt man z.B. \(\alpha = 0.01\).

Für unsere Beispielaufgabe nehmen wir das übliche Signifikanzniveau von \(\alpha = 0.05\).

4. Daten sammeln

In einer Klausur oder Übung gibt es die Daten natürlich meist schon. Wenn man sie aber selber sammelt, müssen die Daten für einen Binomialtest eigentlich nur eine lange Liste von „ja“ und „nein“-Antworten sein. Wir fassen diese Daten dann im 5. Schritt zusammen in zwei Werte, in unserem Beispiel erstens die gesamte Anzahl an Würfen, \(n\), und zweitens die Anzahl der Treffer. Das ist eine Zahl zwischen 0 und \(n\), die wir nun einfach \(x\) nennen. Diese beiden Werte brauchen wir für den Binomialtest.

Wir lassen unseren Freund 10 Bälle werfen, und notieren 7 Treffer.

5. Prüfgröße berechnen

Beim Binomialtest ist die Prüfgröße sehr einfach bestimmt: Es ist einfach \(x\), die Anzahl der Treffer. In diesem Beispiel ist \(x=7\).

6. Verteilung der Prüfgröße bestimmen

Falls die Nullhypothese gilt, dann ist die Prüfgröße \(x\), die Anzahl der Treffer, binomialverteilt. Wir haben \(n\) Bälle geworfen, und erwarten, falls \(H_0\) gilt, in etwa einen Anteil von \(p=0.6\) Treffern. Unsere Prüfgröße \(x\) hätte also die folgende Binomialverteilung:

\[ x \sim B(n, p) \]

In unserem Fall wäre die Anzahl der Treffer \(B(10, 0.6)\) verteilt.

Die Binomialverteilung ist im entsprechenden Artikel genauer erklärt.

7. Kritischen Bereich (oder p-Wert) berechnen

Der kritische Bereich ist der Bereich für \(x\), ab dem wir nicht mehr an \(H_0\), also an eine Trefferwahrscheinlichkeit von höchstens 60%, glauben können. Wir suchen also eine bestimmte Anzahl an Korbtreffern, die unser Spieler nur sehr unwahrscheinlich erreichen oder überschreiten würde, wenn er in Wahrheit durchschnittlich nur 60% aller Würfe trifft.

Der vorherige Satz in mathematisch (aber mit derselben Bedeutung) lautet: Wir suchen eine Grenze \(k\), die unser Spieler nur mit einer Wahrscheinlichkeit von \(\alpha = 0.05\) erreichen oder überschreiten würde, wenn in Wahrheit die Nullhypothese \(H_0\) gilt.

Und jetzt dasselbe noch mathematischer (aber immer noch dieselbe Aussage): Wir suchen ein \(k\), für das gilt, dass \(P(x \geq k)\) höchstens 0.05 ist, unter der Annahme dass \(p = 0.6\).

Und zuletzt die ganz kurze Formulierung derselben Idee: Wir suchen ein \(k\), so dass

\[ P(X \geq k | p = 0.6) \leq 0.05 \]

Die Schreibweise mit dem vertikalen Balken bezeichnet eine bedingte Wahrscheinlichkeit, p=0.6 ist also hier gegeben.

Es ist sehr hilfreich, sich im Voraus schon zu überlegen, auf welcher Seite der kritische Bereich liegen muss, denn so kommt man erstens leichter zum nächsten Schritt, und kann zweitens am Ende sein Ergebnis nochmal auf Plausibilität prüfen. Im Beispiel hier geht die Nullhypothese von wenigen Treffern aus, und die Alternativhypothese von vielen. Es ist also ein einseitiger Test. Der kritische Bereich muss also im Bereich von hohen Treffern für x liegen. Der kritische Bereich könnte z.B. {8, 9, 10} sein, vielleicht auch nur {9, 10}, aber er wird auf keinen Fall z.B. {1, 2, 9, 10} sein, denn niedrige Ergebnisse wie 1 oder 2 Treffer sprechen in diesem Beispiel nicht für die Alternativhypothese.

Bei der obigen Formulierung \(P(X \geq k)\) müssen wir direkt an die Verteilungsfunktion der Binomialverteilung denken. Die Grenze \(k\) können wir herausfinden, indem wir nacheinander die einzelnen Werte für die DIchte der „hohen“ Ergebnisse summieren, bis wir insgesamt über 5%, also unser Signfiikanzniveau \(\alpha=0.05\) kommen (die Formel der Dichte hier gibt es im Artikel zur Binomialverteilung):

  • \(P(X = 10) = {10 \choose 10} \cdot 0.6^{10} \cdot 0.4^{0} = 0.006\). Verstehe, was hier ausgesagt wird: Falls dein Freund nur 60% aller Bälle trifft, dann ist seine Wahrscheinlichkeit, alle 10 von 10 Versuchen zu treffen, nur 0.6%.
  • \(P(X = 9) = {10 \choose 9} \cdot 0.6^{9} \cdot 0.4^{1} = 0.040\). Jetzt wissen wir, dass die Wahrscheinlichkeit für mindestens 9 Treffer 0.040 + 0.006, also 0.046 ist. Das ist noch ganz knapp unter dem Signifikanzniveau \(\alpha=0.05\). Eine Grenze von \(k=9\) würde der Basketballer also nur zu 4.6% erreichen oder überschreiten.
  • \(P(X = 8) = {10 \choose 8} \cdot 0.6^{8} \cdot 0.4^{2} = 0.121\). Die Wahrscheinlichkeit für mindestens 8 Treffer ist also 0.121 + 0.040 + 0.006 = 0.167. Jetzt können wir aufhören mit dem Dichten berechnen. Denn eine Grenze von \(k=8\) ist zu niedrig gewählt, sie erreicht der Spieler zu 16.7%.

Die Schranke für den kritischen Bereich liegt also bei 9 Körben. Daher ist der kritische Bereich {9, 10}. Die Schlussfolgerung: Wenn unser Spieler bei 10 Würfen mindestens 9 Körbe trifft, dann kann er behaupten, signifikant nachgewiesen zu haben, mehr als 60% aller Körbe zu treffen. Bei z.B. 7 Treffern hat er zwar mehr als 60% getroffen, aber es ist noch viel zu wahrscheinlich, dass er das nur durch Zufall geschafft hätte. Man könnte auch ausrechnen, wie wahrscheinlich es wäre, mindestens 7 Treffer zu erhalten (es passiert zu 38.2%, wer es gerne nachrechnen möchte).

8. Testentscheidung treffen

Da unser Spieler 7 Treffer erzielt hat, aber unser kritischer Bereich bei 9 und 10 Treffern liegt, können wir die Nullhypothese nicht ablehnen. Der Basketballer konnte nicht genügend Beweise für die Alternativhypothese liefern.

Änderungen bei den zwei anderen Beispielen

Für Beispiel 2, das mit den Schwarzfahrern, und Beispiel 3, das mit den Retouren beim Online-Kleidungshandel, ändern sich nur die Schritte 1 und 6. Wir erstellen andere Hypothesen, und wir berechnen den kritischen Bereich anders.

In Beispiel 2 möchten wir ja nachweisen, dass besonders wenige Schwarzfahrer unterwegs sind. Daher ist der kritische Bereich dann nicht am oberen Ende der möglichen Ergebnisse, sondern am unteren Ende. Wir würden beim „Abzählen“, das wir im Schritt 6 gemacht haben, nicht oben, bei \(n\), beginnen, sondern eben unten, ab 0. Dann erhalten wir einen Bereich mit „sehr niedrigen“ Ergebnissen, die zusammen nur in 5% der Fälle vorkommen würden.

In Beispiel 3 müssen wir etwas umständlicher vorgehen, und beide Bereiche abzählen, aber jeweils nur 2.5% (bzw. allgemein \(\frac{\alpha}{2}\)) der Wahrscheinlichkeit verteilen. Wir zählen also unten ab, bis wir bei maximal 2.5% angekommen sind, und dann dasselbe nochmal von oben.

Klausuraufgabe

Dein Freund ist Pokerspieler, und behauptet, Bluffs sehr gut erkennen zu können. Insbesondere sagt er, dass er mehr als 50% aller Bluffs erkennt – er ist also besser als wenn er nur zufällig raten würde.

Ihr startet also mit ein Experiment: Du bekommst zehnmal hintereinander Karten, und musst damit dann entweder bluffen oder die Wahrheit sagen. Dein Freund rät, ob du die Wahrheit sagst oder bluffst.

Am Ende liegt dein Freund in 7 von 10 Fällen richtig.

Führe einen Binomialtest zum Signifikanzniveau von \(\alpha = 0.05\) durch, um zu überprüfen ob dieses Experiment signifikant nachgewiesen hat, dass die Erkennungsquote über 50% liegt.

Habt ihr mit eurem Experiment signifikant nachgewiesen dass er in mehr als 50% der Fälle richtig liegt, oder kann dieses Ergebnis noch durch Zufall erklärt werden?

Lösung (klick)

Wir gehen nach den üblichen 8 Schritten beim Testen vor:

1. Hypothesen aufstellen

Wir möchten nachweisen, dass der Anteil größer als 50% ist. Die Alternativhypothese \(H_1\) muss also \(p > 0.5\) lauten. Die Nullhypothese \(H_0\) ist das „Gegenteil“ davon, also die andere Seite: \(p \leq 0.5\).

Die Nullhypothese bezeichnet den Status Quo, den Normalzustand, das „alles in Ordnung“. Die Alternativhypothese bezeichnet die Situation, in der sich etwas geändert hat, in der unsere Untersuchung „Erfolg“ hat.

Die Wahl der Null- und Alternativhypothese wird im Artikel „Was kommt in \(H_0\), und was in \(H_1\)?“ genauer erklärt.

2. Test wählen

In der Aufgabe wird schon erwähnt, dass wir einen Binomialtest durchführen sollen. Wir hätten es aber anhand der Tabelle zur Testwahl auch selbst herausfinden können: Wir haben eine nominale Zielgröße mit zwei Gruppen (dein Freund rät richtig bzw. falsch), und keine Einflussgröße. Daher ist der Binomialtest hier angebracht.

3. Signifikanzniveau festlegen

Das Niveau \(\alpha\) wird in Klausuraufgaben meist vorgegeben sein. Hier ist es \(\alpha = 0.05\)

4. Daten sammeln

Die Daten haben wir auch schon zusammengefasst erhalten: 10 Experimente, und davon 7 Erfolge. Das entspricht einer Erfolgsquote von 0.7.

5. Prüfgröße berechnen

Die Prüfgröße beim Binomialtest ist einfach die Anzahl der Erfolge. Hier ist also \(x=7\).

6. Verteilung der Prüfgröße bestimmen

Wichtig: Die Verteilung, die wir hier bestimmen, gilt nur falls die Nullhypothese wahr ist. Bei uns ist \(H_0 \leq 0.5\). Da das ein ganzer Bereich ist, also alles kleiner als 0.5, gehen wir nun vom „bestmöglichen“ Fall aus, also von dem Fall der am nähesten an der Grenze zur Alternativhypothese ist: \(p = 0.5\).

Da es darum geht, einen Anteil zu testen, müssen wir hier einen Binomialtest durchführen. Die Zielgröße ist dann allgemein binomialverteilt, also \(x \sim B(n, p)\). Hier ist \(n\) die Anzahl der Experimente, und \(p\) die Erfolgswahrscheinlichkeit in der Nullhypothese.

Wenn dein Freund also zufällig rät, ob du bluffst oder nicht, dann ist bei 10 Versuchen die Anzahl \(x\) der Treffer binomialverteilt mit:

\[ x \sim B(10, 0.5)\]

7. Kritischen Bereich (oder p-Wert) berechnen

Wir berechnen den kritischen Bereich genauso wie im Artikel oben erklärt: Wieviele Bluffs erkennt oder überschreitet der Pokerspieler mit einer Wahrscheinlichkeit von weniger als \(\alpha=0.05\)?

Wir suchen die Grenze \(k\), für die gilt, dass der Pokerspieler mit einer gesamten Wahrscheinlichkeit von höchstens \(\alpha=0.05\) soviele oder mehr Treffer erreichen kann. (Die Bestimmung dieser Schranke wurde oben im Artikel nochmal genauer erklärt)

Dazu berechnen wir die Wahrscheinlichkeiten der einzelnen Ereignisse separat:

  • \(P(X = 10) = {10 \choose 10} \cdot 0.5^{10} \cdot 0.5^{0} = 0.00098\).
  • \(P(X = 9) = {10 \choose 9} \cdot 0.5^{9} \cdot 0.5^{1} = 0.00978\).
  • \(P(X = 8) = {10 \choose 8} \cdot 0.5^{8} \cdot 0.5^{2} = 0.0439\).
  • \(P(X = 7) = {10 \choose 7} \cdot 0.5^{7} \cdot 0.5^{3} = 0.1172\).

Falls dein Freund nur rät, ist die Wahrscheinlichkeit dass er alle 10 Experimente richtig erkennt („Bluff oder nicht?“), nur 0.0098, also ca. 0.1%.

Die Wahrscheinlichkeit für 8 oder mehr Treffer ist 0.0439 + 0.00978 + 0.00098 = 0.05466. Das ist noch ein bisschen zu hoch, denn es ist höher als \(\alpha=0.05\).

Der kritische Bereich liegt also bei 9 oder 10 Treffern. Dein Freund muss 9 oder 10 Experimente richtig erkennen, damit man signifikant nachweisen kann, dass er besser als 50%, also besser als der Zufall ist.

8. Testentscheidung treffen

Da dein Freund nur 7 von 10 Experimenten richtig erkannt hat, aber ein signifikantes Ergebnis erst bei 9 oder 10 Treffern nachgewiesen werden kann, müssen wir bei diesem Test die Nullhypothese beibehalten.

Dein Freund hat zwar in 7 von 10 Situationen, also in 70% der Fälle Recht gehabt. Es konnte aber noch nicht signifikant nachgewiesen werden, dass dein Freund Bluffs besser als der Zufall erkennen kann. Die 7 von 10 Treffern könnten nämlich noch durch den Zufall, also durch reines Glück, erklärbar sein.

Welchen statistischen Test soll ich wählen?

Dieser Artikel basiert auf dem allgemeinen Artikel zum Vorgehen bei Hypothesentests. Ich empfehle, diesen Artikel vorher zu lesen und zu verstehen; das macht den Lesefluss und das Verständnis dieses Artikels hier sehr viel einfacher.

Die Tabelle zur Testwahl

Die folgende Tabelle (klicke sie für ein größeres Bild) zeigt dir, welcher der geeignete Test für ein bestimmtes Skalenniveau der Ziel- und Einflussgrößen ist.

Die Erklärung dazu findest du im Rest dieses Artikels. Ganz am Ende gibt es noch ein paar Beispielaufgaben, die die Verwendung dieser Tabelle demonstrieren.

Bestimme zuerst die Art deiner Zielgröße, danach die Art deiner Einflussgröße. In dieser Tabelle findest du dann die passende Methode zur Analyse deiner Daten.

Eine kurze Warnung: Für viele Situationen ist die Wahl des passenden Tests sehr einfach, und es gibt quasi nur eine Möglichkeit. In manchen Fällen gibt es aber auch mehrere passende Tests, die man anwenden könnte. Wenn es z.B. zwei mögliche Tests gibt, dann hat vielleicht einer den Vorteil, dass er weniger Annahmen an die Daten treffen muss (z.B. Normalverteilung), und der andere hätte dafür den Vorteil, dass er einen tatsächlich vorhandenen Effekt besser erkennen kann.

In dieser Tabelle habe ich Tests gesammelt, die für einen bestimmten Datensatz in meinen Augen entweder die einfachste, oder die beste Lösung sind – wichtig ist, im Hinterkopf zu behalten, dass das nicht heißt, andere Tests sind automatisch falsch oder schlechter.

Die Erklärung zur Tabelle

Es gibt eine ganze Menge an Testverfahren, die auf den ersten Blick gerne mal überwältigend sind. Welchen Test man in einer bestimmten Situation genau wählen muss, hängt von einigen Fragen ab, die in jeder Situation erneut beantwortet werden müssen.

Eine Google-Bildersuche für „which statistical test“ bzw. „welcher statistische test“ liefert viele verschiedene Diagramme, die unterschiedlich detailliert sind, und auch unterschiedlich beginnen. Manche sind zielorientiert, d.h. die erste Frage lautet „Was möchte ich erreichen?“, und die möglichen Ziele sind z.B. „Einen Mittelwert mit einem hypothetischen Wert vergleichen“. Andere Diagramme orientieren sich an den Eigenschaften der Daten. Hier beginnt man mit der Frage „Welcher Art ist die Zielgröße?“, ob sie z.B. nominal oder stetig ist. Das ist für den Anfang in meinen Augen leichter, weswegen wir uns diese zwei Fragen stellen:

1.) Welcher Art ist die Zielgröße?

Die Zielgröße ist das Merkmal, das sich durch die Wirkung von EInflussgrößen verändern wird. Sie ist abhängig von den Einflussgrößen. Möchte ich z.B. die blutdrucksenkende Wirkung eines neuen Medikaments nachweisen, dann ist meine Zielgröße der Blutdruck, und die Einflussgröße ist das Medikament (man hätte z.B. zwei Gruppen, einmal Personen ohne Medikament und einmal Personen mit Medikament).

Bestimme nun, von welcher Art (welches Skalenniveau) deine Zielgröße ist:

  1. Nominal? Das heißt, sie ist eine Kategorie mit zwei oder mehr möglichen Ausprägungen. Ein Beispiel wäre, dass man untersuchen möchte, welche Partei eine bestimmte Person wählen wird.
  2. Ordinal? Das ist der Fall, wenn man z.B. eine Fragebogenantwort mit den Werten „stimme nicht zu“ / „neutral“ / „stimme zu“ untersucht.
  3. Stetig und intervall- oder verhältnisskaliert? Stetige Zielgrößen sind z.B. das Einkommen einer Person, oder die Außentemperatur. Man kann hier oft auch Zähldaten mit aufnehmen, wenn die Skala „weit genug“ reicht. Zum Beispiel kann man „Anzahl der Anrufe in einer Telefonzentrale“ sehr gut verwenden, da es da wohl um größere und breit gestreute Zahlen geht, vielleicht 1000 bis 5000 Anrufe. Aber „Anzahl Autos in einem Haushalt“ wäre ein anderes Extrem, da die Antworten hier wohl meist im Bereich von 0 bis 2 liegen. Dann wäre es vielleicht sogar besser, die Zielgröße als ordinal zu betrachten.
  4. Normalverteilt? Eine stetige Zielgröße die (annähernd) durch eine Normalverteilung beschrieben werden kann. Das klassische Beispiel hierfür ist die Körpergröße einer Person. Eine normalverteilte Zielgröße ist von Vorteil, denn erstens macht das das Testverfahren oft ein bisschen einfacher als bei nicht-normalverteilten Daten, und zweitens können diese Tests einen tatsächlich vorhandenen Effekt schneller, d.h. mit einer geringeren Stichprobengröße, erkennen. Man sagt, diese Tests haben eine höhere Power (oder Güte).

2.) Wie sehen eventuelle Einflussgrößen aus?

Als zweites müssen wir bestimmen, ob wir überhaupt eine Einflussgröße haben, und wenn ja, welchen Skalentyp sie hat.

Wichtig: Bei den Einflussgrößen ist es egal, welche Verteilung sie haben. Ob also eine Einflussgröße normalverteilt ist oder nicht, ist für das Testverfahren egal.

  1. Keine Einflussgröße? Dann interessiert man sich meist dafür, ob in der Zielgröße die Häufigkeiten in den verschiedenen Ausprägungen eine bestimmte Verteilung (z.B. 50/50) haben.
  2. Eine stetige (evtl. ordinale) Einflussgröße, oder Zähldaten? Wie eben gesagt, es ist egal welche Verteilung die Einflussgröße dann hat. Alle stetigen Variablen oder Zähldaten fallen in diese Kategorie. Bei ordinalen Variablen kann man sich entweder für diese oder für die nächste Kategorie (ordinale oder kategoriale Einflussgrößen) entscheiden. Ganz korrekt wäre es, die nächste Gruppe dafür zu verwenden. Aber ordinale Variablen werden auch oft als stetig betrachtet, was die Analyse etwas leichter macht, aber technisch nicht ganz korrekt ist.
  3. Ordinale oder kategoriale Einflussgröße? Dann gibt es zwei Fallunterscheidungen zu beachten:
    1. Hat die Einflussgröße nur zwei mögliche Gruppen?
      1. Sind die beiden Gruppen gepaart (man sagt auch: verbunden)? Das ist meistens eine Vorher-Nachher-Untersuchung an denselben Objekten. Man befrägt z.B. eine Gruppe von Patienten vor der Medikamentengabe, und dann dieselben Patienten nochmal nach der Medikamentengabe. Die zwei Gruppen wären dann „vorher“ und „nachher“, aber es handelt sich jeweils um dieselben Patienten.
      2. Sind die beiden Gruppen unabhängig? Wenn z.B. eine Gruppe Handwerker und eine andere Gruppe Büroangestellte befragt werden, sind diese zwei Gruppen unabhängig.
    2. Hat die Einflussgröße mehrere mögliche Gruppen?
      1. Sind die Gruppen gepaart? Ein Beispiel für diese Situation wäre, wenn man einer Gruppe Patienten eine bestimmte Therapie gibt, und für dieselben Personen dann zu fünf verschiedenen Zeitpunkten („Gruppe“ 1 bis 5) dann medizinische Werte erhebt.
      2. Sind die Gruppen unabhängig? Das wäre z.B. der Fall bei der Einflussgröße „Automarke einer Person“.
  4. Gibt es mehrere Einflussgrößen? In diesem Fall ist egal, welcher Art sie sind. Es läuft zwangsläufig auf eine Regression hinaus, in der beliebige Kombinationen von Einflussgrößen untersucht werden können.

Aufgaben

Bestimme für alle folgenden Fälle, welcher Test jeweils angebracht ist. Identifiziere zuerst die Zielgröße und bestimme ihre Art (nominal, ordinal, etc.). Dann bestimme, ob es eine oder mehrere Einflussgrößen gibt, und welcher Art sie sind. Benutze die Tabelle dann um den passenden Test zu finden.

(Solange es in der Aufgabe nicht besonders angemerkt ist, kannst du nicht von einer Normalverteilung der Variablen ausgehen.)

  • 1a) Ein Wissenschaftler entwickelte eine Audio-CD mit einer Rauchentwöhnungsmethode. In einer Studie mit 30 Personen hat er vor Therapiebeginn jeweils die tägliche Anzahl an Zigaretten notiert. Zwei Monate nach der Therapie hat er für dieselben Personen nochmal notiert, wieviele Zigaretten sie nun täglich rauchen. Er möchte wissen ob sich die durchschnittliche tägliche Anzahl durch seine Methode verringert hat.
    • 1b) Welcher Test wäre angebracht, wenn die Anzahl der Zigaretten nicht nur vor und nach der Therapie notiert wurde, sondern zu vier verschiedenen Zeitpunkten?
  • 2a) Der örtliche Nahverkehr vermutet, dass 5% seiner Fahrgäste schwarzfahren. Er prüft die Tickets von 800 Fahrgästen und ermittelt 52 Schwarzfahrer. Mit welchem Test überprüft man, ob der Anteil signifikant gestiegen ist?
    • 2b) Nun möchte der Nahverkehr eine erweiterte Studie durchführen: Er vermutet 5% Schwarzfahrer, 55% der Gäste mit Langzeitkarten wie z.B. Monatsticket, und 40% der Gäste mit Einzeltickets. Mit welchem Test wird diese Hypothese überprüft?
  • 3a) Eine Bank will herausfinden, was die Wahrscheinlichkeit beeinflußt ob ein Kredit zurückbezahlt wird oder nicht. Als Einflussgrößen betrachtet sie das Alter einer Person, die angefragte Kredithöhe, und den Jobtyp (arbeitslos, angestellt, oder selbstständig).
    • 3b) Die Bank möchte jetzt auch wissen, ob die durchschnittliche angefragte Kredithöhe bei Männern und Frauen unterschiedlich hoch ist.
    • 3c) Was wäre, wenn bei Aufgabe 3b) statt dem Geschlecht der Jobtyp (arbeitslos/angestellt/selbstständig) als Einflussgröße erhoben wird?
  • 4) Für eine Abschlußarbeit muss eine Studentin untersuchen, ob der Tagesumsatz eines Bekleidungsgeschäfts von der Außentemperatur (in °C) beeinflusst wird. Wenn man den Tagesumsatz vereinfachend als normalverteilt betrachten kann, welcher Test wäre dann die beste Wahl?
  • 5) Haben Linkshänder einen höheren IQ als Rechtshänder? Wir können beim IQ von einer Normalverteilung ausgehen.
  • 6) Ein Forschungsinstitut untersucht: Unterscheidet sich das Wählerverhalten (d.h. die gewählte Partei) zwischen Menschen mit verschiedenen Bildungsabschlüssen?
  • 7a) Mit welchem Test kann man überprüfen, ob bei Autos die Automarke einen Einfluss auf die durchschnittliche Geschwindigkeit auf der Autobahn hat? Gehe bei der Geschwindigkeit von einer Normalverteilung aus.
    • 7b) Wie verändert sich der Test, wenn zusätzlich noch das Alter und das Geschlecht des Fahrers als Einflussgrößen mit aufgenommen werden?
  • 8a) Ist der Median der Noten in einer Klausur 3,0 oder ungleich 3,0?
    • 8b) Ist die Note in einer Klausur abhängig davon, wie lange (in Stunden) ein Student für die Prüfung gelernt hat?
  • 9a) Ein neues Medikament gegen Bluthochdruck wird getestet. Bei 45 Personen wird vor und nach Medikamentengabe ermittelt, ob sie Bluthochdruck haben (ja/nein). Mit welchem Test überprüft man eine Wirkung des Medikaments?
    • 9b) Angenommen, statt den zwei Kategorien Bluthochdruck ja bzw. nein wird nun der tatsächliche Blutdruck gemessen (er kann als normalverteilt betrachtet werden). Welcher Test ist nun angebracht?
Lösung (klick)
  • 1a) Die Zielgröße ist hier die Anzahl an Zigaretten pro Tag. Das sind Zähldaten, also ist die Zielgröße ordinalskaliert (man kann sie evtl. auch als intervallskaliert betrachten). Die Einflussgröße ist der Zeitpunkt (vorher/nachher), also eine nominale Variable mit zwei Gruppen. Die beiden Gruppen sind gepaart, denn es handelt sich um verbundene Messungen: es wurden vor bzw. nach der Therapie dieselben Personen befragt. Der passende Test ist hier laut Tabelle also der Wilcoxon-Vorzeichen-Rang-Test.
    • 1b) Hier ändert sich im Vergleich zu 1a) nur die Tatsache, dass die Einflussgröße nicht mehr nur zwei, sondern mehrere Gruppen hat. Wir verwenden hier also laut Tabelle nun den Friedman-Test.
  • 2a) Hier möchte man einen einfachen Anteil testen. Es gibt eine nominale Zielgröße mit zwei Gruppen, und keine Einflussgröße. Hier ist ein Binomialtest der richtige.
    • 2b) Nun gibt es immernoch keine Einflussgröße, aber die Zielgröße hat nun mehrere Gruppen. Hier verwendet man einen Chi-Quadrat-Anpassungstest.
  • 3a) Hier hat man eine nominale Zielgröße mit zwei Kategorien, und mehrere Einflussgrößen, stetig und kategorial. Eine logistische Regression ist hier passend.
    • 3b) Die Zielgröße ist stetig, aber nicht normalverteilt. Die Einflussgröße ist kategorial mit zwei Gruppen. Da die zwei Gruppen (Männer und Frauen) nicht gepaart sind (wie es z.B. bei vorher/nachher-Gruppen der Fall wäre), nimmt man hier am besten einen Wilcoxon-Mann-Whitney-U-Test.
    • 3c) Bei mehr als zwei Gruppen verwendet man statt dem Wilcoxon-Mann-Whitney-U-Test den Kruskal-Wallis-Test.
  • 4) Bei zwei stetigen bzw. normalverteilten Variablen kann man die Korrelation zwischen ihnen berechnen, und den Pearson-Korrelationstest durchführen. Es ginge alternativ auch ein lineares Modell (d.h. lineare Regression).
  • 5) Die Zielgröße ist normalverteilt, und die Einflussgröße ist kategorial mit zwei Gruppen. Hier passt ein Zweistichproben-t-Test.
  • 6) Die Zielgröße ist die gewählte Partei, also eine kategoriale Variable mit mehreren Gruppen. Die Einflussgröße, der Bildungsabschluss, ist ebenso kategorial. Hier passt daher ein Chi-Quadrat-Test. Der Fisher-Test ist auch eine Alternative. Er wird in Fällen mit weniger Daten verwendet, z.B. bei weniger als 1000 Beobachtungen, oder wenn in mindestens einer der Zellen der Kreuztabelle weniger als 5 Beobachtungen gelandet sind.
  • 7a) Hier wird der Einfluss einer kategorialen Einflussgröße auf eine normalverteilte Zielgröße untersucht. Eine ANOVA ist das richtige Werkzeug dafür, als Alternative ginge auch ein lineares Regressionsmodell.
    • 7b) Bei mehreren Einflussgrößen weicht man dann auf die multiple lineare Regression aus.
  • 8a) Hier testet man eine ordinale Zielgröße (ohne Einflussgrößen) auf den Median. Ein Vorzeichentest kann das testen.
    • 8b) Die Zielgröße ist immernoch ordinal, aber jetzt kommt eine stetige Einflussgröße dazu. Man kann die Spearman-Rangkorrelation dieser zwei Variablen berechnen, und dann den Spearman-Test ausführen, um auf einen Zusammenhang zu testen.
  • 9a) Es handelt sich um eine kategoriale Zielgröße mit zwei Gruppen (Bluthochdruck ja/nein). Die Einflussgröße hat ebenso zwei Gruppen, und sie ist gepaart, denn dieselben Personen werden in der Gruppe „vorher“ bzw. „nachher“ gemessen. Es bietet sich also der McNemar-Test an.
    • 9b) Wenn die Zielgröße normalverteilt statt kategorial ist, führt man einen gepaarten t-Test aus.

Vorgehen bei Hypothesentests

Das generelle Vorgehen bei einem Hypothesentest ist für alle Varianten gleich:

  1. Man stellt seine Hypothesen (Null- und Alternativhypothese) auf
  2. Man sucht den für seine Fragestellung passenden Test aus
  3. Man legt das Signifikanzniveau \(\alpha\) fest
  4. Man sammelt seine Daten
  5. Man berechnet mit diesen Daten eine zusammenfassende Kennzahl, die Prüfgröße (oder Teststatistik)
  6. Man bestimmt die Verteilung dieser Prüfgröße
  7. Man berechnet entweder den kritischen Bereich oder den p-Wert
  8. Man prüft anhand des Ergebnisses aus Schritt 6., ob man die Nullhypothese ablehnt oder beibehält.

Einführend wurden diese sieben Schritte schon im Artikel „Was sind Hypothesentests?“ erwähnt. Hier werden diese Schritte nochmal etwas detaillierter beschrieben:

1. Hypothesen aufstellen

Zuallererst formuliert man seine Fragestellung, und bringt sie in die Form von zwei Hypothesen. Hier ist wichtig, dass man die Nullhypothese \(H_0\) widerlegen möchte, und nachweisen möchte dass stattdessen die Alternativhypothese, \(H_1\), gilt. Deswegen müssen sich \(H_0\) und \(H_1\) auch widersprechen. Im einführenden Artikel hatten wir schon das Beispiel mit den Maßkrügen. Dort wollten wir nachweisen, dass auf dem Oktoberfest im Durchschnitt zuwenig Bier in die Maßkrüge gefüllt wird. Unsere Hypothesen werden also wie folgt formuliert:

  • \(H_0\): Der durchschnittliche Inhalt eines Maßkruges ist gleich (oder größer) als ein Liter
  • \(H_1\): Der durchschnittliche Inhalt eines Maßkruges ist kleiner als ein Liter

Wichtig, wie gesagt, dass unsere Behauptung die wir nachweisen möchten, in der Alternative \(H_1\) formuliert ist. Der Artikel „Was kommt in \(H_0\) und was in \(H_1\)?“ gibt hier genauer HIlfe.

Stellen wir nun den durchschnittlichen Inhalt eines Maßkruges durch \(\mu\) dar, können wir die Hypothesen kürzer und mathematisch eindeutiger formulieren:

  • \(H_0: \; \mu \geq 1 \text{Ltr.}\)
  • \(H_1: \; \mu < 1 \text{Ltr.}\)

Einseitige und zweiseitige Tests

Es gibt drei mögliche Arten, ein Hypothesenpaar aufzustellen. Sie werden unterteilt in einseitige und in zweiseitige Tests, je nachdem in welche Richtung die Alternativhypothese zielt:

Einen einseitigen Test haben wir gerade eben im Beispiel oben schon gesehen: Wir möchten herausfinden, ob der durchschnittliche Inhalt in einem Maßkrug kleiner ist als ein Liter. Die Alternativhypothese geht also nur auf eine Seite, nämlich in die Richtung „kleiner als ein Liter“. Allgemein sieht das Hypothesenpaar wie folgt aus:

  • \(H_0: \; \mu \geq a\)
  • \(H_1: \; \mu < a\)

Genauso gibt es einseitige Tests in die andere Richtung. Dann lautet die Alternativhypothese, dass der Parameter größer ist als irgendein zuvor festgelegter Wert. Möchte man z.B. Alarm schlagen, wenn die Durchschnittstemperatur irgendwann größer ist als ein bestimmter Wert, dann würde man solch einen Test brauchen. Die Hypothesen lauten dann:

  • \(H_0: \; \mu \leq a\)
  • \(H_1: \; \mu > a\)

Bei einem zweiseitigen Test möchte man nur herausfinden ob ein Parameter anders ist als ein vorher festgelegter Wert – egal ob er nun kleiner oder größer ist. Ein Beispiel wäre ein Test einer Nahrungsmittelfabrik, ob das Füllgewicht in einer Packung konstant den vorgegebenen Wert hält. Man braucht einen Alarm wenn das Gewicht abweicht, egal ob nach oben oder nach unten. Die Hypothesen lauten dann allgemein:

  • \(H_0: \; \mu = a\)
  • \(H_1: \; \mu \neq a\)

Zwischenaufgabe

Man möchte durch einen Test nachweisen, dass Berufseinsteiger mit Masterabschluss im Durchschnitt mehr verdienen als Berufseinsteiger mit einem Bachelorabschluss. Dazu befragt man 100 Berufseinsteiger nach ihrem Abschluss und Einstiegsgehalt.

Wie lautet die Null- bzw. Alternativhypothese in diesem Fall?

Lösung (klick)

Da wir nachweisen wollen, dass Berufseinsteiger mit Masterabschluss ein höheres Einstiegsgehalt haben, muss diese Behauptung in die Alternativhypothese.

\(H_0\): Bachelor- und Masterabsolventen bekommen das gleiche Einstiegsgehalt.

Die Nullhypothese ist das genaue Gegenteil davon. Solange wir keinen Unterschied im Einkommen nachweisen, müssen wir annehmen, dass beide Gruppen dasselbe verdienen:

\(H_1\): Masterabsolventen bekommen ein höheres Einstiegsgehalt als Bachelorabsolventen.

Wenn wir das durchschnittliche Einstiegsgehalt von Bachelorabsolventen mit \(\mu_B\), und das von Masterabsolventen mit \(\mu_M\) bezeichnen, können wir die Hypothesen kürzer formulieren:

\[ H_0: \; \mu_M \leq \mu_B \\ H_1: \; \mu_M > \mu_B \]

2. Test wählen

Um zu entscheiden, welcher Test der passende ist, muss man erst die Null- und Alternativhypothese aufstellen, und das Skalenniveau aller vorkommenden Variablen (Zielgröße, und evtl. Einflussgröße(n)) festlegen. Die Testwahl ist dann z.B. über eine Tabelle möglich, wie ich sie in einem Artikel hier zeige. Im Beispiel mit dem Maßkrug oben haben wir eine normalverteilte Zielgröße, und keine Einflussgröße – laut Tabelle passt hier also der Einstichproben-t-Test.

Nachdem man den passenden Test gewählt hat, ergibt sich später auch automatisch, welche Prüfgröße man berechnen muss, und welche Verteilung sie hat.

3. Signifikanzniveau festlegen

Eine Hypothese kann nie mit absoluter Sicherheit bestätigt bzw. widerlegt werden, sondern immer nur mit einer gewissen Wahrscheinlichkeit. Es kann also immer passieren, dass wir durch Zufall in unserer Stichprobe viele Maßkrüge mit wenig Bier erhalten, und einen Mittelwert von zum Beispiel \(\bar{x}=940\text{ml}\) berechnen. Wir würden also fälschlicherweise „nachweisen“, dass im Mittel zuwenig Bier in die Krüge gefüllt wird, obwohl der echte durchschnittliche Inhalt tatsächlich ein Liter ist.

In statistischer Sprache formuliert heißt das: Wir würden also die Nullhypothese ablehnen, obwohl sie in der Realität wahr ist.

Man muss sich vor Durchführung des Tests auf ein Signifikanzniveau, genannt \(\alpha\), festlegen, das die maximale Wahrscheinlichkeit festlegt, mit der uns so ein Fehler passieren darf. Je sicherer wir mit unserer Entscheidung sein wollen, desto niedriger muss diese Fehlerwahrscheinlichkeit gewählt werden. In den allermeisten Fällen, sowohl in der Praxis als auch in Klausuren, ist dieser Wert festgelegt als \(\alpha = 5\%\).

\(\alpha\)- und \(\beta\)-Fehler

Neben dem Fehler, \(H_0\) abzulehnen obwohl sie wahr ist, gibt es eine weitere Fehlentscheidung, die beim Testen passieren kann: Falls tatsächlich im Mittel zuwenig Bier abgefüllt wird, und unser Test dies nicht nachweisen kann. Dann behalten wir die Nullhypothese (genug Bier) bei, obwohl in Wirklichkeit die Alternativhypothese (zuwenig Bier) wahr ist.

Insgesamt können bei einem Test vier Fälle auftreten:

  1. Wir lehnen \(H_0\) ab, also nehmen \(H_1\) an.
    1. In Wirklichkeit stimmt \(H_0\): Hier lehnen wir \(H_0\) fälschlicherweise ab. Das ist der \(\alpha\)-Fehler, auch Fehler 1. Art genannt. Dieser Fall tritt genau mit einer Wahrscheinlichkeit von \(\alpha\) auf – weil ein Test genau so konstruiert ist. Das Niveau \(\alpha\) regelt also, wie sicher man sich sein kann dass \(H_1\) tatsächlich wahr ist, gegeben man lehnt \(H_0\) auch ab.
    2. In Wirklichkeit stimmt \(H_1\): Alles in Ordnung. \(H_1\) stimmt, und wir nehmen \(H_1\) an.
  2. Wir behalten \(H_0\) bei.
    1. In Wirklichkeit stimmt \(H_0\): Alles in Ordnung. \(H_0\) stimmt, und wir glauben nicht an \(H_1\).
    2. In Wirklichkeit stimmt \(H_1\): In diesem Fall ist unsere Vermutung wahr (d.h. \(H_1\), die wir ja nachweisen möchten, stimmt), aber durch den Test konnte sie nicht bestätigt werden, da wir \(H_0\) beibehalten. Dies ist der sogenannte \(\beta\)-Fehler, auch Fehler 2. Art genannt. Diese Wahrscheinlichkeit können wir nicht kontrollieren, sie ist abhängig von der Art des Tests und des Signifikanzniveaus \(\alpha\).

4. Daten sammeln

Als nächstes erhebt man Daten. Das muss man in einer Klausur natürlich nicht machen, aber in realen Situationen ist die Datenerhebung meist der zeitaufwändigste Schritt.

In unserem Beispiel würden wir aufs Oktoberfest gehen, z.B. zehn Maß Bier bestellen, und deren Inhalt abmessen. Die Ergebnisse könnten so aussehen:

Krug \(x_i\) 1 2 3 4 5 6 7 8 9 10
Inhalt 968ml 1001ml 987ml 995ml 1010ml 983ml 994ml 962ml 979ml 965ml

5. Prüfgröße berechnen

Nun werden die Daten ausgewertet, und zwar unter der Annahme, dass \(H_0\) gilt, also alles in Ordnung ist, d.h. der durchnittliche Inhalt eines Maßkrugs tatsächlich ein Liter ist.

Um später eine Testentscheidung treffen zu können, muss man aus den Daten eine Kennzahl berechnen, deren Verteilung man kennt (und die in Klausuren meist als Verteilungstabelle in einer Formelsammlung angehängt ist).

Der Test in unserem Fall funktioniert von der Idee her wie folgt: Wir berechnen den durchschnittlichen Inhalt der erhobenen (hihi) Maßkrüge. Dieser ist bei uns \(\bar{x} = 984.4\text{ml}\).

Die Frage, die der Test beantwortet, ist nun: „Angenommen der wahre Durchschnittsinhalt liegt bei 1000ml, ist dieses Ergebnis von 984.4ml noch plausibel genug, dass es durch Zufallsschwankung entstanden sein kann, oder ist es so unplausibel, dass der wahre Mittelwert nicht bei 1000ml, sondern niedriger liegt?“

Wir könnten jetzt natürlich subjektiv sein und sagen: „984ml ist schon niedrig – da ist der Mittelwert bestimmt nicht bei 1000ml.“ Aber das ist keine klare Entscheidungsregel. Was würden wir bei einem Mittelwert von 985ml sagen? Bei 990ml? Bei 995ml?

Der Test verpackt diese Frage nun in eine mathematische Formel und eine Entscheidungsregel. Es wird dazu eine Prüfgröße (oder Teststatistik) berechnet, die in diesem Fall eine standardisierte Version des Mittelwerts \(\bar{x}\) ist:

\[ T = \sqrt{n} \frac{\bar{x} – \mu_0}{s} \]

Die ganzen Standardisierungen in dieser Formel sind dazu da, dass dem Test egal ist,

  • wie groß die Stichprobe ist (da mit \(\sqrt{n}\) multipliziert wird),
  • welchen Mittelwert wir als Nullhypothese festgelegt haben (da die 1000ml, also \(\mu_0\), wieder abgezogen werden),
  • welche Streuung die Daten aufweisen (da wir durch die Standardabweichung der Stichprobe, \(s\) teilen).

In unserem Beispiel bestimmen wir \(\bar{x} = 984.4\text{ml}\) und \(s= 16.057\). Den Wert \(\mu_0=1000\) nehmen wir aus der Nullhypothese. Unsere Prüfgröße \(Z\) ist somit

\[ T = \sqrt{n} \frac{\bar{x} – \mu_0}{s} = \sqrt{10} \frac{984.4 – 1000}{16.057} = -3.072\]

6. Verteilung der Prüfgröße bestimmen

Um bestimmen zu können, welche Werte für die Prüfgröße „normal“, also noch akzeptabel sind, muss man wissen, welche Verteilung diese Prüfgröße hat. Die Prüfgröße bei einem Binomialtest hat z.B. die Verteilung \(B(n,p)\), also eine Binomialverteilung mit n = „Anzahl der Beobachtungen“ und p = „Wahrscheinlichkeit in der Nullhypothese“. Bei einem t-Test hat die Prüfgröße dann eine \(t(n-1)\)-Verteilung, d.h. eine t-Verteilung mit \(n-1\) Freiheitsgraden.

Ein Test ist meistens so konzipiert, dass die Verteilung „einfach ist“, z.B. eine Normalverteilung mit Mittelwert 0 und Standardabweichung 1. Der Grund dafür ist, dass es dann reicht, in Büchern, Klausuren usw. nur eine Tabelle für die Normalverteilung abzubilden, nämlich die mit Mittelwert 0 und Standardabweichung 1.

Und diese Tatsache ist übrigens auch der Grund dafür, warum wir die Prüfgröße etwas umständlicher berechnen. Wir könnten als Prüfgröße ja einfach den Mittelwert der Daten nehmen. Stattdessen standardisieren wir ihn, indem wir \(\mu_0\) abziehen und durch \(s\) teilen. Der Vorteil dieser Variante ist nun, wie gerade beschrieben, dass die Prüfgröße in eine Verteilung „gezwängt“ wird, für die wir eine Tabelle vorhanden haben.

7. Test abschließen: Zwei Möglichkeiten

Nun gibt es zwei Möglichkeiten, die Frage zu beantworten, ob unser Mittelwert noch plausibel ist oder nicht:

Test abschließen: Über den kritischen Bereich (meist mit Hilfe einer Verteilungstabelle in Klausuren)

Bei der ersten Möglichkeit, die Testentscheidung zu treffen, bestimmen wir einen kritischen Bereich. Wenn unsere Prüfgröße dann nicht in diesem kritischen Bereich liegt, nehmen wir die Maßkrüge als korrekt befüllt an. Wenn die Prüfgröße aber in dem kritischen Bereich liegt, haben wir einen Nachweis dafür, dass in Wirklichkeit weniger als 1000ml in einen Maßkrug gefüllt werden.

Der kritische Bereich ist ein fester Bereich für eine bestimmte Testart, der, im Falle dass \(H_0\) gilt, von der Prüfgröße nur sehr selten (nämlich mit einer Wahrscheinlichkeit von \(\alpha\)) erreicht wird. Falls die Prüfgröße nun doch in diesem kritischen Bereich liegt, haben wir einen starken Grund, eher an \(H_1\) zu glauben.

Bei einem einseitigen Test liegt dieser Bereich nur auf einer Seite, es gibt eine Schranke, und je nach Testrichtung wird geschaut, ob die Prüfgröße über oder unter dieser Schranke liegt. Bei einem zweiseitigen Test besteht der kritische Bereich aus zwei Gebieten, es gibt also zwei Schranken, je eine links und rechts, und es wird geschaut, ob die Prüfgröße innerhalb der zwei Schranken liegt, oder (in irgendeine Richtung) außerhalb.

Man kann die kritische Schranke recht problemlos an einer Verteilungstabelle ablesen. So hat man das früher, vor dem Computerzeitalter gemacht, und so macht man es in Klausuren auch immernoch. In der Praxis ist es aber inzwischen verbreiteter, mit p-Werten zu arbeiten:

Test abschließen: Über den p-Wert (meist in Statistikprogrammen)

Alternativ können wir aus der Prüfgröße auch einen p-Wert berechnen. Dieser Wert sagt uns, wie wahrscheinlich es ist, unter Annahme einer korrekten Befüllung von durchschnittlich 1000ml eine so extreme Abweichung vom Mittelwert \(\mu_0=1000\text{ml}\) zu erhalten.

Wenn diese Wahrscheinlichkeit nun sehr gering ist (genauer: Wenn sie unter dem festgelegten Signifikanzniveau \(\alpha\) liegt), hat man wieder einen Nachweis dafür, dass in Wirklichkeit weniger als 1000ml in einen Maßkrug gefüllt werden. Liegt der p-Wert aber darüber, konnte man das nicht nachweisen und behält die Nullhypothese bei.

8. Testentscheidung treffen

Nun hat man alle Werte berechnet, um seine Testentscheidung treffen zu können. Falls man sich in Schritt 6. für den kritischen Bereich entschieden hat, betrachten wir zwei Werte: die Prüfgröße und den kritischen Bereich. Man sieht einfach nach, ob die Prüfgröße innerhalb oder außerhalb dieses Bereichs liegt. Liegt sie außerhalb, dann ist „alles in Ordnung“, also behalten wir die Nullhypothese, aber liegt sie innerhalb des kritischen Bereichs, dann haben wir genug Hinweise dafür gefunden,  um die Alternativhypothese annehmen zu können.

Wenn man sich in Schritt 6. für den p-Wert entschieden hat, ist der letzte Schritt etwas einfacher: Man betrachtet zwei andere Werte: den p-Wert sowie das Signifikanzniveau \(\alpha\). Liegt der p-Wert über dem Signifikanzniveau \(\alpha\), behalten wir die Nullhypothese, aber falls der p-Wert kleiner ist als \(\alpha\), haben wir genug Hinweise dafür gefunden, um die Alternativhypothese annehmen zu können.

Was sind Hypothesentests?

Hypothesentests führt man immer dann durch, wenn man irgendetwas mit Hilfe von erhobenen Daten nachweisen möchte, zum Beispiel dass auf dem Oktoberfest die Maßkrüge nicht ganz vollgemacht werden. Der Grundsatz bei allen statistischen Tests ist hierbei, dass wir das Gegenteil widerlegen müssen – wir müssen also widerlegen, dass der Maßkrug tatsächlich mit einem Liter gefüllt ist.

Um den Grund für dieses Vorgehen zu verstehen, kann man sich eine Gerichtsverhandlung vorstellen, und Parallelen zum Ablauf eines Tests ziehen: Man geht davon aus, dass der Angeklagte unschuldig ist (ohne es genau zu wissen). Bevor man von der Schuld des Angeklagten überzeugt sein kann, muss man ausreichend Beweise gesammelt haben, um zweifelsfrei an die Schuldigkeit glauben zu können. Falls das nicht der Fall ist, muss man davon ausgehen, dass er unschuldig ist. Man könnte diesen Sachverhalt auch in statistischen Hypothesen formulieren:

  • \(H_0\): Der Angeklagte ist unschuldig
  • \(H_1\): Der Angeklagte ist schuldig

Wie läuft ein Test ab?

Jeder Test besteht aus den folgenden sieben Schritten:

  1. Hypothesen aufstellen:
    Zuallererst formuliert man seine Fragestellung in ein Hypothesenpaar um, und zwar eine Nullhypothese und eine Alternativhypothese. Man geht davon aus, dass die Nullhypothese gilt, außer man findet durch die Daten einen starken Hinweis, dass stattdessen die Alternativhypothese wahr ist.
    In diesem Schritt definiert man bereits das Skalenniveau seiner Zielgröße (also z.B. nominal- oder intervallskaliert) und eventuell vorhandener Einflussgrößen.
  2. Test wählen:
    Mit den in Schritt 1 bestimmten Informationen kann man sich jetzt für den für seine Fragestellung richtigen Test entscheiden. Dazu gibt es hier einen Artikel, in dem abhängig von den Skalenniveaus von Zielgröße und Einflussgröße der passende Test vorgeschlagen wird.
  3. Signifikanzniveau festlegen:
    Man sollte das Signifikanzniveau festlegen, bevor man mit der Analyse beginnt. Es beschreibt die Wahrscheinlichkeit, einen bestimmten Fehler zu machen, nämlich die Nullhypothese abzulehnen, wenn sie in Wirklichkeit doch gilt.
    In einer Klausur ist das Signifikanzniveau meist vorgegeben, und in der Praxis hat sich der Wert 5% dafür eingebürgert.
  4. Daten sammeln:
    Dann sammelt man Daten, also erhebt eine Stichprobe. In Übungen und Klausuren ist das meist schon passiert. Man muss beachten, dass man die Daten in dem Skalenniveau misst, das in Schritt 1. festgelegt wurde.
  5. Prüfgröße berechnen:
    Aus den Daten berechnet man nun eine Prüfgröße, auch Teststatistik genannt. Die gesamte Stichprobe wird also in eine einzige Zahl zusammengefasst. Das ist beim klassischen Gaußtest zum Beispiel der Mittelwert der Daten (der mit einigen Faktoren standardisiert wird). Bei manchen anderen Tests ist die Berechnung der Prüfgröße ein wenig aufwändiger, aber die Idee ist überall dieselbe: Man fasst die Daten mit einer Formel in eine Prüfgröße zusammen, die einer bestimmten Verteilung folgt.
  6. Verteilung der Prüfgröße bestimmen:
    Nun bestimmt man die Verteilung der Prüfgröße. Die Kernidee beim Testen ist nämlich, dass diese Prüfgröße, falls die Nullhypothese gilt, eine bestimmte Verteilung hat. Wenn wir diese Verteilung bestimmen, können wir nachsehen ob die Prüfgröße für unsere spezielle Stichprobe dort „gut genug“ reinpasst, was für die Nullhypothese sprechen würde, oder eben nicht gut reinpasst, was dann ein starkes Indiz für die Alternativhypothese ist.
  7. Kritischen Bereich oder p-Wert berechnen:
    Ein Test ist nun nichts weiteres als eine mathematische Regel, um zu entscheiden, ob diese Prüfgröße eher auf die Null- oder die Alternativhypothese schließen lässt. Bei der einfachsten Variante bestimmt man einfach einen kritischen Bereich für die Prüfgröße – wenn die Prüfgröße in diesem kritischen Bereich liegt, dann lehnen wir die Nullhypothese ab. Alternativ kann man aus der Prüfgröße auch einen p-Wert berechnen, und dann nachsehen ob er unter oder über dem gewählten Signifikanzniveau liegt.
  8. Testentscheidung treffen:
    Zuletzt treffen wir die Testentscheidung: Wenn der Wert im kritischen Bereich liegt, haben wir einen Nachweis gefunden, dass die Alternativhypothese stimmt. Wenn der Wert der Prüfgröße aber außerhalb dieses kritischen Bereichs liegt, können wir keine sichere Aussage treffen.

Welche Arten von Tests gibt es?

Die klassischen Tests behandeln Mittelwerte. Sie fragen also, ob der Mittelwert eines gemessenen Merkmals größer (oder kleiner) als ein bestimmter, für uns wichtiger, Wert ist. Das wäre bei dem Maßkrug der Fall, wo wir wissen wollen ob der Inhalt des Kruges gleich einem Liter ist, oder ob weniger als ein Liter abgefüllt wird.

Andere Tests überprüfen, ob sich zwei Merkmale gegenseitig beeinflussen, oder ob sie unabhängig sind. Zum Beispiel könnte man sich dafür interessieren, ob bei einer Wahl Männer und Frauen ein unterschiedliches Wahlverhalten haben. Dann würde man testen, ob die Variable „Geschlecht“ und die Variable „gewählte Partei“ voneinander unabhängig sind.

Als letztes Beispiel sei die Regression genannt, in der wir Regressionsparameter (die meist \(\beta\) genannt werden) erhalten, die uns den Einfluss einer Variablen auf eine andere beschreiben. Hier möchte man testen, ob der Wert von \(\beta\) ungleich 0 ist, was nämlich belegt, dass ein Einfluss vorhanden ist.