Vorgehen bei Hypothesentests

Das generelle Vorgehen bei einem Hypothesentest ist für alle Varianten gleich:

  1. Man stellt seine Hypothesen (Null- und Alternativhypothese) auf und legt das Signifikanzniveau \alpha fest
  2. Man sammelt seine Daten
  3. Man berechnet anhand dieser Daten eine bestimmte Kennzahl, die Teststatistik
  4. Man prüft anhand des Wertes dieser Teststatistik, ob man die Nullhypothese ablehnt oder beibehält.

In diesem Artikel werden diese vier Schritte detailliert beschrieben:

Hypothesen formulieren

Zuallererst formuliert man seine Fragestellung, und bringt sie in die Form von zwei Hypothesen. Hier ist wichtig, dass man die Nullhypothese H_0 widerlegen möchte, und nachweisen möchte dass stattdessen die Alternativhypothese, H_1, gilt. Deswegen müssen sich H_0 und H_1 auch widersprechen. Im einführenden Artikel hatten wir schon das Beispiel mit den Maßkrügen. Dort wollten wir nachweisen, dass auf dem Oktoberfest im Durchschnitt zuwenig Bier in die Maßkrüge gefüllt wird. Unsere Hypothesen werden also wie folgt formuliert:

  • H_0: Der durchschnittliche Inhalt eines Maßkruges ist gleich (oder größer) als ein Liter
  • H_1: Der durchschnittliche Inhalt eines Maßkruges ist kleiner als ein Liter

Wichtig, wie gesagt, dass unsere Behauptung die wir nachweisen möchten, in der Alternative H_1 formuliert ist.

Stellen wir nun den durchschnittlichen Inhalt eines Maßkruges durch \mu dar, können wir die Hypothesen kürzer und mathematisch eindeutiger formulieren:

  • H_0: \; \mu \geq 1 \text{Ltr.}
  • H_1: \; \mu < 1 \text{Ltr.}

Zwischenaufgabe

Man möchte durch einen Test nachweisen, dass Berufseinsteiger mit Masterabschluss im Durchschnitt mehr verdienen als Berufseinsteiger mit einem Bachelorabschluss. Dazu befragt man 100 Berufseinsteiger nach ihrem Abschluss und Einstiegsgehalt.

Wie lautet die Null- bzw. Alternativhypothese in diesem Fall?

Lösung (klick)

Signifikanzniveau festlegen

Eine Hypothese kann nie mit absoluter Sicherheit bestätigt bzw. widerlegt werden, sondern immer nur mit einer gewissen Wahrscheinlichkeit. Es kann also immer passieren, dass wir durch Zufall in unserer Stichprobe viele Maßkrüge mit wenig Bier erhalten, und einen Mittelwert von zum Beispiel \bar{x}=940\text{ml} berechnen. Wir würden also fälschlicherweise "nachweisen", dass im Mittel zuwenig Bier in die Krüge gefüllt wird, obwohl der echte durchschnittliche Inhalt tatsächlich ein Liter ist.

In statistischer Sprache formuliert heißt das: Wir würden also die Nullhypothese ablehnen, obwohl sie in der Realität wahr ist.

Man muss sich vor Durchführung des Tests auf ein Signifikanzniveau, genannt \alpha, festlegen, das die maximale Wahrscheinlichkeit festlegt, mit der uns so ein Fehler passieren darf. Je sicherer wir mit unserer Entscheidung sein wollen, desto niedriger muss diese Fehlerwahrscheinlichkeit gewählt werden. In den allermeisten Fällen, sowohl in der Praxis als auch in Klausuren, ist dieser Wert festgelegt als \alpha = 5\%.

\alpha- und \beta-Fehler

Neben dem Fehler, H_0 abzulehnen obwohl sie wahr ist, gibt es eine weitere Fehlentscheidung, die beim Testen passieren kann: Falls tatsächlich im Mittel zuwenig Bier abgefüllt wird, und unser Test dies nicht nachweisen kann. Dann behalten wir die Nullhypothese (genug Bier) bei, obwohl in Wirklichkeit die Alternativhypothese (zuwenig Bier) wahr ist.

Insgesamt können bei einem Test vier Fälle auftreten:

  1. Wir lehnen H_0 ab, also nehmen H_1 an.
    1. In Wirklichkeit stimmt H_0: Hier lehnen wir H_0 fälschlicherweise ab. Das ist der \alpha-Fehler, auch Fehler 1. Art genannt. Dieser Fall tritt genau mit einer Wahrscheinlichkeit von \alpha auf - weil ein Test genau so konstruiert ist. Das Niveau \alpha regelt also, wie sicher man sich sein kann dass H_1 tatsächlich wahr ist, gegeben man lehnt H_0 auch ab.
    2. In Wirklichkeit stimmt H_1: Alles in Ordnung. H_1 stimmt, und wir nehmen H_1 an.
  2. Wir behalten H_0 bei.
    1. In Wirklichkeit stimmt H_0: Alles in Ordnung. H_0 stimmt, und wir glauben nicht an H_1.
    2. In Wirklichkeit stimmt H_1: In diesem Fall ist unsere Vermutung wahr (d.h. H_1, die wir ja nachweisen möchten, stimmt), aber durch den Test konnte sie nicht bestätigt werden, da wir H_0 beibehalten. Dies ist der sogenannte \beta-Fehler, auch Fehler 2. Art genannt. Diese Wahrscheinlichkeit können wir nicht kontrollieren, sie ist abhängig von der Art des Tests und des Signifikanzniveaus \alpha.

Daten sammeln

Als nächstes erhebt man Daten. Das muss man in einer Klausur natürlich nicht machen, aber in realen Situationen ist die Datenerhebung meist der zeitaufwändigste Schritt.

In unserem Beispiel würden wir aufs Oktoberfest gehen, z.B. zehn Maß Bier bestellen, und deren Inhalt abmessen. Die Ergebnisse könnten so aussehen:

Krug x_i 1 2 3 4 5 6 7 8 9 10
Inhalt 968ml 1001ml 987ml 995ml 1010ml 983ml 994ml 962ml 979ml 965ml

Daten auswerten: Teststatistik bilden

Nun werden die Daten ausgewertet, und zwar unter der Annahme, dass H_0 gilt, also alles in Ordnung ist, d.h. der durchnittliche Inhalt eines Maßkrugs tatsächlich ein Liter ist.

Um später eine Testentscheidung treffen zu können, muss man aus den Daten eine Kennzahl berechnen, deren Verteilung man kennt (und die in Klausuren meist als Verteilungstabelle in einer Formelsammlung angehängt ist).

Der Test in unserem Fall funktioniert von der Idee her wie folgt: Wir berechnen den durchschnittlichen Inhalt der erhobenen (hihi) Maßkrüge. Dieser ist bei uns \bar{x} = 984.4\text{ml}.

Die Frage, die der Test beantwortet, ist nun: "Angenommen der wahre Durchschnittsinhalt liegt bei 1000ml, ist dieses Ergebnis von 984.4ml noch plausibel genug, dass es durch Zufallsschwankung entstanden sein kann, oder ist es so unplausibel, dass der wahre Mittelwert nicht bei 1000ml, sondern niedriger liegt?"

Wir könnten jetzt natürlich subjektiv sein und sagen: "984ml ist schon niedrig - da ist der Mittelwert bestimmt nicht bei 1000ml." Aber das ist keine klare Entscheidungsregel. Was würden wir bei einem Mittelwert von 985ml sagen? Bei 990ml? Bei 995ml?

Der Test verpackt diese Frage nun in eine mathematische Formel und eine Entscheidungsregel. Es wird dazu eine Teststatistik berechnet, die in diesem Fall eine standardisierte Version des Mittelwerts \bar{x} ist:

 T = \sqrt{n} \frac{\bar{x} - \mu_0}{s}

Die ganzen Standardisierungen in dieser Formel sind dazu da, dass dem Test egal ist,

  • wie groß die Stichprobe ist (da mit \sqrt{n} multipliziert wird),
  • welchen Mittelwert wir als Nullhypothese festgelegt haben (da die 1000ml, also \mu_0, wieder abgezogen werden),
  • welche Streuung die Daten aufweisen (da wir durch die Standardabweichung der Stichprobe, s teilen).

In unserem Beispiel bestimmen wir \bar{x} = 984.4\text{ml} und s= 16.057. Den Wert \mu_0=1000 nehmen wir aus der Nullhypothese. Unsere Teststatistik Z ist somit

 T = \sqrt{n} \frac{\bar{x} - \mu_0}{s} = \sqrt{10} \frac{984.4 - 1000}{16.057} = -3.072

Test abschließen: Zwei Möglichkeiten

Nun gibt es zwei Möglichkeiten, die Frage zu beantworten, ob unser Mittelwert noch plausibel ist oder nicht:

Test abschließen: Über die kritische Schranke (meist eine Verteilungstabelle in Klausuren)

Bei der ersten Möglichkeit, die Testentscheidung zu treffen, bestimmen wir eine kritische Schranke. Wenn unsere Teststatistik dann unter dieser Schranke liegt, nehmen wir die Maßkrüge als korrekt befüllt an. Wenn die Teststatistik aber darüber liegt, haben wir einen Nachweis dafür, dass in Wirklichkeit weniger als 1000ml in einen Maßkrug gefüllt werden.

Die kritische Schranke ist ein fester Wert für eine bestimmte Testart, der, im Falle dass H_0 gilt, von der Teststatistik nur sehr selte (nämlich mit einer Wahrscheinlichkeit von \alpha) überschritten wird. Wird der Wert also überschritten, haben wir einen starken Grund, eher an H_1 zu glauben.

Man kann die kritische Schranke recht problemlos an einer Verteilungstabelle ablesen. So hat man das früher, vor dem Computerzeitalter gemacht, und so macht man es in Klausuren auch immernoch. In der Praxis ist es aber inzwischen verbreiteter, mit p-Werten zu arbeiten:

Test abschließen: Über den p-Wert (meist in Statistikprogrammen)

Alternativ können wir auch einen p-Wert bestimmen. Dieser Wert sagt uns, wie wahrscheinlich es ist, unter Annahme einer korrekten Befüllung von durchschnittlich 1000ml eine so extreme Abweichung vom Mittelwert \mu_0=1000\text{ml} zu erhalten.

Wenn diese Wahrscheinlichkeit nun sehr gering ist (genauer: Wenn sie unter dem festgelegten Signifikanzniveau \alpha liegt), hat man wieder einen Nachweis dafür, dass in Wirklichkeit weniger als 1000ml in einen Maßkrug gefüllt werden. Liegt der p-Wert aber darüber, konnte man das nicht nachweisen und behält die Nullhypothese bei.

Vorsicht: Man kann H_0 nie beweisen

Es ist nicht das gleiche, H_0 beizubehalten, und H_0 zu beweisen. Um zurück auf das Beispiel mit dem unschuldigen Angeklagten zu kommen:

Wenn ich beweisen möchte, dass der Angeklagte schuldig ist, formuliere ich meine Hypothesen so:

  • H_0: Der Angeklagte ist unschuldig.
  • H_1: Der Angeklagte ist schuldig

Wenn ich nun "Daten erhebe", also in der Verhandlung Beweise gesammelt werden, dann tritt einer der folgenden zwei Fälle ein:

  • Es gibt genug Beweise für die Schuld des Angeklagten. Dann kann ich H_0 ablehnen und habe H_1 nachgewiesen, d.h. der Angeklagte ist (ziemlich sicher) schuldig. Die Antwort in diesem Fall lautet also: "H_1 ist wahr" (natürlich nur zu dem gewählten Signifikanzniveau).
  • Man hat keine (oder nicht genug) Beweise für die Schuld des Angeklagten gefunden. Damit habe ich aber H_0 (also die Unschuld) nicht bewiesen! Nur weil keine Beweise für die Schuld gefunden wurden, können wir nicht sagen "wir haben bewiesen dass der Angeklagte unschuldig ist". Die Antwort in dieser Situation lautet stattdessen: "Wir wissen es nicht". In einer statistischen Auswertung sagt man dann zum Beispiel: "Es konnten keine Hinweise auf die Gültigkeit der Alternativhypothese gefunden werden."

Man kann also H_0 nie beweisen, sondern nur H_1. Aus diesem Grund ist es so wichtig, dass man die Hypothesen richtig herum formuliert: Der Fall, den man nachweisen möchte, kommt in die Alternativhypothese. Die Metapher mit der Gerichtsverhandlung ist eine hilfreiche Eselsbrücke, um sich an dieses Vorgehen zu erinnern.

11 Gedanken zu „Vorgehen bei Hypothesentests

  1. Jon

    Hi Alex, erst mal danke für diese hilfreiche Seite!
    Aus welchem Grund ist die H0 in deinem Beispiel zu den Bachelor und Masterabsolventen μM =μB
    und nicht H0: μM <= μB wie in dem Beispiel mit den Maßkrügen?
    Viele Grüße,
    Jon

    Antworten
    1. AlexAlex Beitragsautor

      Das war nicht ganz korrekt ausgedrückt. Eigentlich müsste H0 dann mit 'kleiner gleich' ausgedrückt sein, ja. Ich habe das mal korrigiert 🙂

      Antworten
  2. Honey

    Du erklärst die ekelhaften Dinge in ganz einfachen Sprache ,das ist echt selten sowas. Du bist ein Talent👏👏👏👏

    Vielen vielen Dank dir für deine Bemühungen💜
    Mach weiter so👍👍👍

    Antworten
  3. Mia

    Hallo Alex,

    das war mal eine super Erklärung für die Anwendung des Hypothesentests! Danke!

    Allerdings habe ich nicht verstanden, was man mit dem p-Wert wirklich macht bzw was der aussagt.

    Hättest du da nochmal eine Erklärung für mich? Danke :o)
    VG!

    Antworten
  4. Julia

    Hallo Alex, vielen dank für die super Erklärung 🙂 hat mir sehr viel geholfen.
    Was ist eigentlich nun der unterschied zwischen sigma und standartabweichung? Kann ich in der Formel wenn nur standardabweichung gegeben ist als sigma verwenden? Ich dachte sigma gehört zur Grundgesammtheit und x quer zu Stichprobe und nun ist das doch das gleiche oder wie?

    LG Julia

    Antworten
    1. AlexAlex Beitragsautor

      Hi, hier ist die Standardabweichung gemeint, also das was im entsprechenden Artikel hier mit s bezeichnet ist. Die Notation ist nicht eindeutig, sorry dafür 🙂

      Ganz genau gesehen ist \sigma unbekannt, und wird geschätzt durch s, also die Standardabweichung der Stichprobe mit der Formel berechnet. Das wird dann meistens auch mit \hat{\sigma} bezeichnet.

      Alles klar? 😀

      Gruß,
      Alex

      Antworten
    2. AlexAlex Beitragsautor

      .. ich passe die Buchstaben hier mal an. Du bist schon die zweite, die einen Kommentar schrieb weil die inkonsistente Schreibweise verwirrend ist. 🙂

      Antworten
  5. LxyNerd

    Hi Alex,
    erst einmal - Super tolle Seite hast Du hier zusammengestellt! Schade ist es, dass Du die Regressionen, ANOVA usw nicht auf der Seite gefüllt hast. Dann hätte ich alles für die kommende Prüfung beisammen gehabt ^^

    Du schreibst in deinem StreuungsBeitrag s^2 und s-^2 .
    So hier in dem Beitrag nimmst Du bei der Streuung (kleinSigma = 16,0568...), was bei Dir dem s-^2 (aus Beitrag Streuung) entspricht, oder ?
    Jedoch rechnest du nicht mit dem empirischen Mittelwert, sonder mit x- ( also xDach).
    bin einwenig verwirrt, was nun Dein kleinSigma entspricht. KleinSigma rechnet bei einer anderen Quelle mit dem empirischen Wert (den du hier glaub =1000 nennst).

    Antworten
    1. AlexAlex Beitragsautor

      Hi,
      vorsicht vor dem Quadrat. Es geht hier um \sigma, nicht \sigma^2. Im anderen Artikel ist das s (nicht s^2, und auch nicht \tilde{s}^2.

      Die Schreibweise ist inkonsistent in den beiden Artikeln. Da sollte ich mal drüber schauen 🙂

      VG,
      Alex

      Antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.