Archiv der Kategorie: Hypothesentests

Welchen statistischen Test soll ich wählen?

Dieser Artikel basiert auf dem allgemeinen Artikel zum Vorgehen bei Hypothesentests. Ich empfehle, diesen Artikel vorher zu lesen und zu verstehen; das macht den Lesefluss und das Verständnis dieses Artikels hier sehr viel einfacher.

Die Tabelle zur Testwahl

Die folgende Tabelle (klicke sie für ein größeres Bild) zeigt dir, welcher der geeignete Test für ein bestimmtes Skalenniveau der Ziel- und Einflussgrößen ist.

Die Erklärung dazu findest du im Rest dieses Artikels.

Übersicht über statistische Tests

Bestimme zuerst die Art deiner Zielgröße, danach die Art deiner Einflussgröße. In dieser Tabelle findest du dann die passende Methode zur Analyse deiner Daten.

Eine kurze Warnung: Für viele Situationen ist die Wahl des passenden Tests sehr einfach, und es gibt quasi nur eine Möglichkeit. In manchen Fällen gibt es aber auch mehrere passende Tests, die man anwenden könnte. Wenn es z.B. zwei mögliche Tests gibt, dann hat vielleicht einer den Vorteil, dass er weniger Annahmen an die Daten treffen muss (z.B. Normalverteilung), und der andere hätte dafür den Vorteil, dass er einen tatsächlich vorhandenen Effekt besser erkennen kann.

In dieser Tabelle habe ich Tests gesammelt, die für einen bestimmten Datensatz in meinen Augen entweder die einfachste, oder die beste Lösung sind – wichtig ist, im Hinterkopf zu behalten, dass das nicht heißt, andere Tests sind automatisch falsch oder schlechter.

Die Erklärung zur Tabelle

Es gibt eine ganze Menge an Testverfahren, die auf den ersten Blick gerne mal überwältigend sind. Welchen Test man in einer bestimmten Situation genau wählen muss, hängt von einigen Fragen ab, die in jeder Situation erneut beantwortet werden müssen.

Eine Google-Bildersuche für „which statistical test“ bzw. „welcher statistische test“ liefert viele verschiedene Diagramme, die unterschiedlich detailliert sind, und auch unterschiedlich beginnen. Manche sind zielorientiert, d.h. die erste Frage lautet „Was möchte ich erreichen?“, und die möglichen Ziele sind z.B. „Einen Mittelwert mit einem hypothetischen Wert vergleichen“. Andere Diagramme orientieren sich an den Eigenschaften der Daten. Hier beginnt man mit der Frage „Welcher Art ist die Zielgröße?“, ob sie z.B. nominal oder stetig ist. Das ist für den Anfang in meinen Augen leichter, weswegen wir uns diese zwei Fragen stellen:

1.) Welcher Art ist die Zielgröße?

Die Zielgröße ist das Merkmal, das sich durch die Wirkung von EInflussgrößen verändern wird. Sie ist abhängig von den Einflussgrößen. Möchte ich z.B. die blutdrucksenkende Wirkung eines neuen Medikaments nachweisen, dann ist meine Zielgröße der Blutdruck, und die Einflussgröße ist das Medikament (man hätte z.B. zwei Gruppen, einmal Personen ohne Medikament und einmal Personen mit Medikament).

Bestimme nun, von welcher Art (welches Skalenniveau) deine Zielgröße ist:

  1. Nominal? Das heißt, sie ist eine Kategorie mit zwei oder mehr möglichen Ausprägungen. Ein Beispiel wäre, dass man untersuchen möchte, welche Partei eine bestimmte Person wählen wird.
  2. Ordinal? Das ist der Fall, wenn man z.B. eine Fragebogenantwort mit den Werten „stimme nicht zu“ / „neutral“ / „stimme zu“ untersucht.
  3. Stetig und intervall- oder verhältnisskaliert? Stetige Zielgrößen sind z.B. das Einkommen einer Person, oder die Außentemperatur. Man kann hier oft auch Zähldaten mit aufnehmen, wenn die Skala „weit genug“ reicht. Zum Beispiel kann man „Anzahl der Anrufe in einer Telefonzentrale“ sehr gut verwenden, da es da wohl um größere und breit gestreute Zahlen geht, vielleicht 1000 bis 5000 Anrufe. Aber „Anzahl Autos in einem Haushalt“ wäre ein anderes Extrem, da die Antworten hier wohl meist im Bereich von 0 bis 2 liegen. Dann wäre es vielleicht sogar besser, die Zielgröße als ordinal zu betrachten.
  4. Normalverteilt? Eine stetige Zielgröße die (annähernd) durch eine Normalverteilung beschrieben werden kann. Das klassische Beispiel hierfür ist die Körpergröße einer Person. Eine normalverteilte Zielgröße ist von Vorteil, denn erstens macht das das Testverfahren oft ein bisschen einfacher als bei nicht-normalverteilten Daten, und zweitens können diese Tests einen tatsächlich vorhandenen Effekt schneller, d.h. mit einer geringeren Stichprobengröße, erkennen. Man sagt, diese Tests haben eine höhere Power (oder Güte).

2.) Wie sehen eventuelle Einflussgrößen aus?

Als zweites müssen wir bestimmen, ob wir überhaupt eine Einflussgröße haben, und wenn ja, welchen Skalentyp sie hat.

Wichtig: Bei den Einflussgrößen ist es egal, welche Verteilung sie haben. Ob also eine Einflussgröße normalverteilt ist oder nicht, ist für das Testverfahren egal.

  1. Keine Einflussgröße? Dann interessiert man sich meist dafür, ob in der Zielgröße die Häufigkeiten in den verschiedenen Ausprägungen eine bestimmte Verteilung (z.B. 50/50) haben.
  2. Eine stetige (evtl. ordinale) Einflussgröße, oder Zähldaten? Wie eben gesagt, es ist egal welche Verteilung die Einflussgröße dann hat. Alle stetigen Variablen oder Zähldaten fallen in diese Kategorie. Bei ordinalen Variablen kann man sich entweder für diese oder für die nächste Kategorie (ordinale oder kategoriale Einflussgrößen) entscheiden. Ganz korrekt wäre es, die nächste Gruppe dafür zu verwenden. Aber ordinale Variablen werden auch oft als stetig betrachtet, was die Analyse etwas leichter macht, aber technisch nicht ganz korrekt ist.
  3. Ordinale oder kategoriale Einflussgröße? Dann gibt es zwei Fallunterscheidungen zu beachten:
    1. Hat die Einflussgröße nur zwei mögliche Gruppen?
      1. Sind die beiden Gruppen gepaart (man sagt auch: verbunden)? Das ist meistens eine Vorher-Nachher-Untersuchung an denselben Objekten. Man befrägt z.B. eine Gruppe von Patienten vor der Medikamentengabe, und dann dieselben Patienten nochmal nach der Medikamentengabe. Die zwei Gruppen wären dann „vorher“ und „nachher“, aber es handelt sich jeweils um dieselben Patienten.
      2. Sind die beiden Gruppen unabhängig? Wenn z.B. eine Gruppe Handwerker und eine andere Gruppe Büroangestellte befragt werden, sind diese zwei Gruppen unabhängig.
    2. Hat die Einflussgröße mehrere mögliche Gruppen?
      1. Sind die Gruppen gepaart? Ein Beispiel für diese Situation wäre, wenn man einer Gruppe Patienten eine bestimmte Therapie gibt, und für dieselben Personen dann zu fünf verschiedenen Zeitpunkten („Gruppe“ 1 bis 5) dann medizinische Werte erhebt.
      2. Sind die Gruppen unabhängig? Das wäre z.B. der Fall bei der Einflussgröße „Automarke einer Person“.
  4. Gibt es mehrere Einflussgrößen? In diesem Fall ist egal, welcher Art sie sind. Es läuft zwangsläufig auf eine Regression hinaus, in der beliebige Kombinationen von Einflussgrößen untersucht werden können.

Vorgehen bei Hypothesentests

Das generelle Vorgehen bei einem Hypothesentest ist für alle Varianten gleich:

  1. Man stellt seine Hypothesen (Null- und Alternativhypothese) auf und legt das Signifikanzniveau \(\alpha\) fest
  2. Man sammelt seine Daten
  3. Man berechnet anhand dieser Daten eine bestimmte Kennzahl, die Teststatistik
  4. Man prüft anhand des Wertes dieser Teststatistik, ob man die Nullhypothese ablehnt oder beibehält.

In diesem Artikel werden diese vier Schritte detailliert beschrieben:

Hypothesen formulieren

Zuallererst formuliert man seine Fragestellung, und bringt sie in die Form von zwei Hypothesen. Hier ist wichtig, dass man die Nullhypothese \(H_0\) widerlegen möchte, und nachweisen möchte dass stattdessen die Alternativhypothese, \(H_1\), gilt. Deswegen müssen sich \(H_0\) und \(H_1\) auch widersprechen. Im einführenden Artikel hatten wir schon das Beispiel mit den Maßkrügen. Dort wollten wir nachweisen, dass auf dem Oktoberfest im Durchschnitt zuwenig Bier in die Maßkrüge gefüllt wird. Unsere Hypothesen werden also wie folgt formuliert:

  • \(H_0\): Der durchschnittliche Inhalt eines Maßkruges ist gleich (oder größer) als ein Liter
  • \(H_1\): Der durchschnittliche Inhalt eines Maßkruges ist kleiner als ein Liter

Wichtig, wie gesagt, dass unsere Behauptung die wir nachweisen möchten, in der Alternative \(H_1\) formuliert ist.

Stellen wir nun den durchschnittlichen Inhalt eines Maßkruges durch \(\mu\) dar, können wir die Hypothesen kürzer und mathematisch eindeutiger formulieren:

  • \(H_0: \; \mu \geq 1 \text{Ltr.}\)
  • \(H_1: \; \mu < 1 \text{Ltr.}\)

Zwischenaufgabe

Man möchte durch einen Test nachweisen, dass Berufseinsteiger mit Masterabschluss im Durchschnitt mehr verdienen als Berufseinsteiger mit einem Bachelorabschluss. Dazu befragt man 100 Berufseinsteiger nach ihrem Abschluss und Einstiegsgehalt.

Wie lautet die Null- bzw. Alternativhypothese in diesem Fall?

[su_spoiler title=“Lösung (klick)“ style=“fancy“]

Da wir nachweisen wollen, dass Berufseinsteiger mit Masterabschluss ein höheres Einstiegsgehalt haben, muss diese Behauptung in die Alternativhypothese.

\(H_0\): Bachelor- und Masterabsolventen bekommen das gleiche Einstiegsgehalt.

Die Nullhypothese ist das genaue Gegenteil davon. Solange wir keinen Unterschied im Einkommen nachweisen, müssen wir annehmen, dass beide Gruppen dasselbe verdienen:

\(H_1\): Masterabsolventen bekommen ein höheres Einstiegsgehalt als Bachelorabsolventen.

Wenn wir das durchschnittliche Einstiegsgehalt von Bachelorabsolventen mit \(\mu_B\), und das von Masterabsolventen mit \(\mu_M\) bezeichnen, können wir die Hypothesen kürzer formulieren:

\[ H_0: \; \mu_M \leq \mu_B \\ H_1: \; \mu_M > \mu_B \]

[/su_spoiler]

Signifikanzniveau festlegen

Eine Hypothese kann nie mit absoluter Sicherheit bestätigt bzw. widerlegt werden, sondern immer nur mit einer gewissen Wahrscheinlichkeit. Es kann also immer passieren, dass wir durch Zufall in unserer Stichprobe viele Maßkrüge mit wenig Bier erhalten, und einen Mittelwert von zum Beispiel \(\bar{x}=940\text{ml}\) berechnen. Wir würden also fälschlicherweise „nachweisen“, dass im Mittel zuwenig Bier in die Krüge gefüllt wird, obwohl der echte durchschnittliche Inhalt tatsächlich ein Liter ist.

In statistischer Sprache formuliert heißt das: Wir würden also die Nullhypothese ablehnen, obwohl sie in der Realität wahr ist.

Man muss sich vor Durchführung des Tests auf ein Signifikanzniveau, genannt \(\alpha\), festlegen, das die maximale Wahrscheinlichkeit festlegt, mit der uns so ein Fehler passieren darf. Je sicherer wir mit unserer Entscheidung sein wollen, desto niedriger muss diese Fehlerwahrscheinlichkeit gewählt werden. In den allermeisten Fällen, sowohl in der Praxis als auch in Klausuren, ist dieser Wert festgelegt als \(\alpha = 5\%\).

\(\alpha\)- und \(\beta\)-Fehler

Neben dem Fehler, \(H_0\) abzulehnen obwohl sie wahr ist, gibt es eine weitere Fehlentscheidung, die beim Testen passieren kann: Falls tatsächlich im Mittel zuwenig Bier abgefüllt wird, und unser Test dies nicht nachweisen kann. Dann behalten wir die Nullhypothese (genug Bier) bei, obwohl in Wirklichkeit die Alternativhypothese (zuwenig Bier) wahr ist.

Insgesamt können bei einem Test vier Fälle auftreten:

  1. Wir lehnen \(H_0\) ab, also nehmen \(H_1\) an.
    1. In Wirklichkeit stimmt \(H_0\): Hier lehnen wir \(H_0\) fälschlicherweise ab. Das ist der \(\alpha\)-Fehler, auch Fehler 1. Art genannt. Dieser Fall tritt genau mit einer Wahrscheinlichkeit von \(\alpha\) auf – weil ein Test genau so konstruiert ist. Das Niveau \(\alpha\) regelt also, wie sicher man sich sein kann dass \(H_1\) tatsächlich wahr ist, gegeben man lehnt \(H_0\) auch ab.
    2. In Wirklichkeit stimmt \(H_1\): Alles in Ordnung. \(H_1\) stimmt, und wir nehmen \(H_1\) an.
  2. Wir behalten \(H_0\) bei.
    1. In Wirklichkeit stimmt \(H_0\): Alles in Ordnung. \(H_0\) stimmt, und wir glauben nicht an \(H_1\).
    2. In Wirklichkeit stimmt \(H_1\): In diesem Fall ist unsere Vermutung wahr (d.h. \(H_1\), die wir ja nachweisen möchten, stimmt), aber durch den Test konnte sie nicht bestätigt werden, da wir \(H_0\) beibehalten. Dies ist der sogenannte \(\beta\)-Fehler, auch Fehler 2. Art genannt. Diese Wahrscheinlichkeit können wir nicht kontrollieren, sie ist abhängig von der Art des Tests und des Signifikanzniveaus \(\alpha\).

Daten sammeln

Als nächstes erhebt man Daten. Das muss man in einer Klausur natürlich nicht machen, aber in realen Situationen ist die Datenerhebung meist der zeitaufwändigste Schritt.

In unserem Beispiel würden wir aufs Oktoberfest gehen, z.B. zehn Maß Bier bestellen, und deren Inhalt abmessen. Die Ergebnisse könnten so aussehen:

Krug \(x_i\) 1 2 3 4 5 6 7 8 9 10
Inhalt 968ml 1001ml 987ml 995ml 1010ml 983ml 994ml 962ml 979ml 965ml

Daten auswerten: Teststatistik bilden

Nun werden die Daten ausgewertet, und zwar unter der Annahme, dass \(H_0\) gilt, also alles in Ordnung ist, d.h. der durchnittliche Inhalt eines Maßkrugs tatsächlich ein Liter ist.

Um später eine Testentscheidung treffen zu können, muss man aus den Daten eine Kennzahl berechnen, deren Verteilung man kennt (und die in Klausuren meist als Verteilungstabelle in einer Formelsammlung angehängt ist).

Der Test in unserem Fall funktioniert von der Idee her wie folgt: Wir berechnen den durchschnittlichen Inhalt der erhobenen (hihi) Maßkrüge. Dieser ist bei uns \(\bar{x} = 984.4\text{ml}\).

Die Frage, die der Test beantwortet, ist nun: „Angenommen der wahre Durchschnittsinhalt liegt bei 1000ml, ist dieses Ergebnis von 984.4ml noch plausibel genug, dass es durch Zufallsschwankung entstanden sein kann, oder ist es so unplausibel, dass der wahre Mittelwert nicht bei 1000ml, sondern niedriger liegt?“

Wir könnten jetzt natürlich subjektiv sein und sagen: „984ml ist schon niedrig – da ist der Mittelwert bestimmt nicht bei 1000ml.“ Aber das ist keine klare Entscheidungsregel. Was würden wir bei einem Mittelwert von 985ml sagen? Bei 990ml? Bei 995ml?

Der Test verpackt diese Frage nun in eine mathematische Formel und eine Entscheidungsregel. Es wird dazu eine Teststatistik berechnet, die in diesem Fall eine standardisierte Version des Mittelwerts \(\bar{x}\) ist:

\[ T = \sqrt{n} \frac{\bar{x} – \mu_0}{s} \]

Die ganzen Standardisierungen in dieser Formel sind dazu da, dass dem Test egal ist,

  • wie groß die Stichprobe ist (da mit \(\sqrt{n}\) multipliziert wird),
  • welchen Mittelwert wir als Nullhypothese festgelegt haben (da die 1000ml, also \(\mu_0\), wieder abgezogen werden),
  • welche Streuung die Daten aufweisen (da wir durch die Standardabweichung der Stichprobe, \(s\) teilen).

In unserem Beispiel bestimmen wir \(\bar{x} = 984.4\text{ml}\) und \(s= 16.057\). Den Wert \(\mu_0=1000\) nehmen wir aus der Nullhypothese. Unsere Teststatistik \(Z\) ist somit

\[ T = \sqrt{n} \frac{\bar{x} – \mu_0}{s} = \sqrt{10} \frac{984.4 – 1000}{16.057} = -3.072\]

Test abschließen: Zwei Möglichkeiten

Nun gibt es zwei Möglichkeiten, die Frage zu beantworten, ob unser Mittelwert noch plausibel ist oder nicht:

Test abschließen: Über die kritische Schranke (meist eine Verteilungstabelle in Klausuren)

Bei der ersten Möglichkeit, die Testentscheidung zu treffen, bestimmen wir eine kritische Schranke. Wenn unsere Teststatistik dann unter dieser Schranke liegt, nehmen wir die Maßkrüge als korrekt befüllt an. Wenn die Teststatistik aber darüber liegt, haben wir einen Nachweis dafür, dass in Wirklichkeit weniger als 1000ml in einen Maßkrug gefüllt werden.

Die kritische Schranke ist ein fester Wert für eine bestimmte Testart, der, im Falle dass \(H_0\) gilt, von der Teststatistik nur sehr selte (nämlich mit einer Wahrscheinlichkeit von \(\alpha\)) überschritten wird. Wird der Wert also überschritten, haben wir einen starken Grund, eher an \(H_1\) zu glauben.

Man kann die kritische Schranke recht problemlos an einer Verteilungstabelle ablesen. So hat man das früher, vor dem Computerzeitalter gemacht, und so macht man es in Klausuren auch immernoch. In der Praxis ist es aber inzwischen verbreiteter, mit p-Werten zu arbeiten:

Test abschließen: Über den p-Wert (meist in Statistikprogrammen)

Alternativ können wir auch einen p-Wert bestimmen. Dieser Wert sagt uns, wie wahrscheinlich es ist, unter Annahme einer korrekten Befüllung von durchschnittlich 1000ml eine so extreme Abweichung vom Mittelwert \(\mu_0=1000\text{ml}\) zu erhalten.

Wenn diese Wahrscheinlichkeit nun sehr gering ist (genauer: Wenn sie unter dem festgelegten Signifikanzniveau \(\alpha\) liegt), hat man wieder einen Nachweis dafür, dass in Wirklichkeit weniger als 1000ml in einen Maßkrug gefüllt werden. Liegt der p-Wert aber darüber, konnte man das nicht nachweisen und behält die Nullhypothese bei.

Vorsicht: Man kann \(H_0\) nie beweisen

Es ist nicht das gleiche, \(H_0\) beizubehalten, und \(H_0\) zu beweisen. Um zurück auf das Beispiel mit dem unschuldigen Angeklagten zu kommen:

Wenn ich beweisen möchte, dass der Angeklagte schuldig ist, formuliere ich meine Hypothesen so:

  • \(H_0\): Der Angeklagte ist unschuldig.
  • \(H_1\): Der Angeklagte ist schuldig

Wenn ich nun „Daten erhebe“, also in der Verhandlung Beweise gesammelt werden, dann tritt einer der folgenden zwei Fälle ein:

  • Es gibt genug Beweise für die Schuld des Angeklagten. Dann kann ich \(H_0\) ablehnen und habe \(H_1\) nachgewiesen, d.h. der Angeklagte ist (ziemlich sicher) schuldig. Die Antwort in diesem Fall lautet also: „\(H_1\) ist wahr“ (natürlich nur zu dem gewählten Signifikanzniveau).
  • Man hat keine (oder nicht genug) Beweise für die Schuld des Angeklagten gefunden. Damit habe ich aber \(H_0\) (also die Unschuld) nicht bewiesen! Nur weil keine Beweise für die Schuld gefunden wurden, können wir nicht sagen „wir haben bewiesen dass der Angeklagte unschuldig ist“. Die Antwort in dieser Situation lautet stattdessen: „Wir wissen es nicht“. In einer statistischen Auswertung sagt man dann zum Beispiel: „Es konnten keine Hinweise auf die Gültigkeit der Alternativhypothese gefunden werden.“

Man kann also \(H_0\) nie beweisen, sondern nur \(H_1\). Aus diesem Grund ist es so wichtig, dass man die Hypothesen richtig herum formuliert: Der Fall, den man nachweisen möchte, kommt in die Alternativhypothese. Die Metapher mit der Gerichtsverhandlung ist eine hilfreiche Eselsbrücke, um sich an dieses Vorgehen zu erinnern.

Was sind Hypothesentests?

Hypothesentests führt man immer dann durch, wenn man irgendetwas mit Hilfe von erhobenen Daten nachweisen möchte, zum Beispiel dass auf dem Oktoberfest die Maßkrüge nicht ganz vollgemacht werden. Der Grundsatz bei allen statistischen Tests ist hierbei, dass wir das Gegenteil widerlegen müssen – wir müssen also widerlegen, dass der Maßkrug tatsächlich mit einem Liter gefüllt ist.

Um den Grund für dieses Vorgehen zu verstehen, kann man sich eine Gerichtsverhandlung vorstellen, und Parallelen zum Ablauf eines Tests ziehen: Man geht davon aus, dass der Angeklagte unschuldig ist (ohne es genau zu wissen). Bevor man von der Schuld des Angeklagten überzeugt sein kann, muss man ausreichend Beweise gesammelt haben, um zweifelsfrei an die Schuldigkeit glauben zu können. Falls das nicht der Fall ist, muss man davon ausgehen, dass er unschuldig ist. Man könnte diesen Sachverhalt in statistischen Hypothesen formulieren:

  • \(H_0\): Der Angeklagte ist unschuldig
  • \(H_1\): Der Angeklagte ist schuldig

Wie läuft ein Test ab?

Zuallererst formuliert man seine Fragestellung in ein Hypothesenpaar um, und zwar eine Nullhypothese und eine Alternativhypothese. Man geht davon aus, dass die Nullhypothese gilt, außer man findet durch die Daten einen starken Hinweis, dass stattdessen die Alternativhypothese wahr ist.

Dann sammelt man Daten, und berechnet aus ihnen eine Prüfgröße, auch Teststatistik genannt. Das ist beim klassischen Gaußtest zum Beispiel der Mittelwert der Daten (der mit einigen Faktoren standardisiert wird). Bei manchen anderen Tests ist die Berechnung der Prüfgröße ein wenig aufwändiger, aber die Idee ist überall dieselbe: Man fasst die Daten mit einer Formel in eine Prüfgröße zusammen, die einer bestimmten Verteilung folgt.

Ein Test ist nun nichts weiteres als eine mathematische Regel, um zu entscheiden, ob diese Prüfgröße eher auf die Null- oder die Alternativhypothese schließen lässt. Bei der einfachsten Variante bestimmt man einfach einen kritischen Wert, also eine Schranke für die Prüfgröße. Wenn der Wert über dieser Schranke liegt, haben wir einen Nachweis gefunden, dass die Alternativhypothese stimmt. Wenn der Wert der Prüfgröße aber unter dieser kritischen Schranke liegt, können wir keine sichere Aussage treffen.

Welche Arten von Tests gibt es?

Die klassischen Tests behandeln Mittelwerte. Sie fragen also, ob der Mittelwert eines gemessenen Merkmals größer (oder kleiner) als ein bestimmter, für uns wichtiger, Wert ist. Das wäre bei dem Maßkrug der Fall, wo wir wissen wollen ob der Inhalt des Kruges gleich einem Liter ist, oder ob weniger als ein Liter abgefüllt wird.

Andere Tests überprüfen, ob sich zwei Merkmale gegenseitig beeinflussen, oder ob sie unabhängig sind. Zum Beispiel könnte man sich dafür interessieren, ob bei einer Wahl Männer und Frauen ein unterschiedliches Wahlverhalten haben. Dann würde man testen, ob die Variable „Geschlecht“ und die Variable „gewählte Partei“ voneinander unabhängig sind.

Als letztes Beispiel sei die Regression genannt, in der wir Regressionsparameter (die meist \(\beta\) genannt werden) erhalten, die uns den Einfluss einer Variablen auf eine andere beschreiben. Hier möchte man testen, ob der Wert von \(\beta\) ungleich 0 ist, was nämlich belegt, dass ein Einfluss vorhanden ist.