Zweistichproben-t-Test: Mittelwerte zweier Gruppen vergleichen

Einführende Artikel

Zum Einstieg in das Thema Hypothesentests sollte man sich zu Beginn die folgenden beiden Artikel durchlesen:

In ihnen beschreibe ich ganz allgemein die Schritte, mit denen man einen Hypothesentest durchführt. Dadurch werden die einzelnen Teile in diesem Artikel verständlicher.

Außerdem macht es Sinn, den Artikel zum Binomialtest zu lesen, da ich dort noch etwas ausführlicher beschrieben habe, wie man die allgemeinen Prinzipien auf einen speziellen Test anwendet. Falls hier etwas nur kurz beschrieben wird, dann ist es im Artikel zum BInomialtest evtl. ausführlicher verständlicher erklärt worden.

Der Zweistichproben-t-Test

Der einfachste Fall eines t-Tests ist der Einstichproben-t-Test, den wir in einem eigenen Artikel bereits behandelt haben. Allerdings ist es in der Praxis üblicher, dass man nicht nur eine, sondern zwei Gruppen hat, und deren Mittelwerte vergleichen möchte. Ein typisches Beispiel sind Messungen, die an Patienten mit einer bestimmten Krankheit vorgenommen werden, und dann „zur Kontrolle“ an einer anderen Gruppe von gesunden Menschen.

In diesem Fall handelt es sich um zwei unabhängige Gruppen. Unabhängig bedeutet hier, dass die Personen (oder Objekte) aus der ersten Gruppe nichts mit denen aus der zweiten Gruppe zu tun haben. Im gepaarten t-Test war das anders, da waren in der ersten und zweiten Gruppe dieselben Personen, nur eben vor bzw. nach einer bestimmten Behandlung.

1. Hypothesen aufstellen

Beim t-Test gibt es, genau wie beim Binomialtest, drei verschiedene Möglichkeiten, seine Hypothesen zu formulieren. Welche Variante man verwenden muss, hängt von der Fragestellung ab, die man untersucht. Dazu drei Beispiele:

  1. Ein Forschungsinstitut hat in den 1960er-Jahren untersucht, ob Nichtraucher eine längere Lebenserwartung haben. Dazu wurden in einer ersten Stichprobe von 8 bereits verstorbenen Rauchern das Alter zum Todeszeitpunkt notiert, und in einer zweiten Stichprobe von 6 Nichtrauchern ebenso.
    Um nachzuweisen, dass Nichtraucher eine längere Lebenserwartung haben, kommt dieser Fall in die Alternativhypothese (warum, wird hier erklärt). Wenn wir also die Lebenserwartung von Nichtrauchern mit \(\mu_N\) bezeichnen, und die der Raucher mit \(\mu_R\), lauten unsere Hypothesen:

    • \(H_0: \mu_N \leq \mu_R\)
    • \(H_1: \mu_N > \mu_R\)
  2. Um nachzuweisen, dass regelmäßiges Meditieren den Blutdruck senkt, hat ein Studio bei 7 seiner meditierenden Mitglieder den Blutdruck gemessen. Als Kontrollgruppe wurden 7 zufällige Leute auf der Straße, die nicht meditieren, angehalten, und bei ihnen ebefalls der Blutdruck gemessen.
    Da das Studio nachweisen möchte, dass die Meditierer einen niedrigeren durchschnittlichen Blutdruck haben, kommt dieser Fall in die Alternativhypothese. Wir bezeichnen mit \(\mu_M\) den mittleren Blutdruck von Meditierern, und mit \(\mu_N\) den der Nicht-meditierenden, und formen die folgenden Hypothesen:

    • \(H_0: \mu_M \geq \mu_N\)
    • \(H_1: \mu_M < \mu_N\)

    Es ist wohl hilfreich, wenn man diesen Fall genau betrachtet, und mit dem Beispiel aus dem Artikel zum gepaarten t-Test vergleicht: Dort wurde nämlich genau dieselbe Forschungsfrage untersucht, aber mit einem anderen Versuchsplan. Genauer gesagt: Es wurde hier kein vorher/nachher-Vergleich gemacht, in dem der Blutdruck für dieselbe Person vor und nach einer Meditation gemessen wurde, sondern es wurden zwei unabhängige Gruppen untersucht. Diese Tatsache führt dazu, dass wir in diesem Beispiel einen Zweistichproben-t-Test brauchen.

  3. Ein Forscher vermutet, dass ein Masterabschluss an einer Fachhochschule (FH) eher praktische Fähigkeiten vermittelt, und einer an der Universität eher theoretische Fähigkeiten. Er möchte nun untersuchen, ob diese unterschiedlichen Ansätze eine Auswirkung auf das spätere Einkommen haben. Dazu sucht er sich eine Gruppe von 100 Berufstätigen im ungefähr gleichen Alter von 40-45 Jahren, und notiert jeweils den Studienabschluss (also „Uni“ oder „FH“) sowie das Einkommen dieser Person.
    Da man theoretisch beide Möglichkeiten (FH-Absolventen verdienen mehr, oder Uni-Absolventen verdienen mehr) für denkbar hält, möchte man bezüglich der Richtung unvoreingenommen vorgehen – man führt also einen zweiseitigen Test durch. Wir bezeichnen das mittlere Einkommen von FH-Absolventen mit \(\mu_F\), das der Uni-Absolventen mit \(\mu_U\). Die Hypothesen lauten dann:

    • \(H_0: \mu_F = \mu_U\)
    • \(H_0: \mu_F \neq \mu_U\)

Die drei verschiedenen Möglichkeiten hängen also davon ab, in welche Richtung die Alternativhypothese geht (kleiner oder größer), bzw. ob sie einseitig oder – wie im dritten Beispiel – zweiseitig ist.

Für den restlichen Artikel konzentrieren wir uns auf das erste Beispiel, das mit der höheren Lebenserwartung von Nichtrauchern.

2. Test wählen

Um die Abfolge der 8 Schritte nicht zu verändern, die wir in den beiden einführenden Artikeln aufgestellt haben (erster und zweiter Artikel), nehme ich hier den 2. Schritt auch mit auf. Es ist natürlich schon klar, dass wir einen Zweistichproben-t-Test verwenden werden.

3. Signifikanzniveau festlegen

Wie in den vorherigen Artikeln schon beschrieben, legt das Signifikanzniveau die Wahrscheinlichkeit fest, mit der man einen bestimmten Fehler macht, nämlich die fälschliche Entscheidung dass die Alternativhypothese gilt, obwohl in Wirklichkeit die Nullhypothese wahr ist.

Allgemeiner Konsens ist hier ein Wert von 5%, also \(\alpha=0.05\). In besonders kritischen Fragestellungen, z.B. solchen, die die menschliche Gesundheit betreffen, muß das Signifikanzniveau oft niedriger gewählt werden, der Test wird dann konservativer. Hier wählt man z.B. \(\alpha=0.01\).

Für unsere Beispielaufgabe nehmen wir das übliche Signifikanzniveau von \(\alpha=0.05\).

4. Daten sammeln

In einer Klausur sind die Daten meist schon gegeben, aber in einer echten Untersuchung müssen wir sie natürlich erst sammeln. Beim Zweistichproben-t-Test brauchen wir, wie der Name schon sagt, zwei Stichproben. Das erreichte Lebensalter der 6 Nichtraucher sind in unserer Aufgabe die folgenden Werte:

\[ N = (80, 92, 74, 99, 69, 78) \]

Wir haben auch das Alter von 8 Rauchern erhalten:

\[ R = (81, 72, 68, 71, 59, 91, 71, 70) \]

5. Prüfgröße berechnen

Beim Zweistichproben-t-Test gibt es einige Spezialfälle, je nachdem ob die Varianz in den beiden Gruppen gleich bzw. verschieden ist, oder ob sie bekannt bzw. unbekannt ist. Ich möchte aber nicht auf alle diese Fälle eingehen, sondern nur auf den in der Praxis relevantesten: Die Varianzen der Merkmale in den zwei Gruppen sind nicht notwendigerweise gleich, und sie sind unbekannt.

Erstens tritt dieser Fall am häufigsten auf, und zweitens kann man diese Variante bei realistischen Stichproben immer, in jedem Fall, anwenden (als Faustregel gilt, wenn in beiden Gruppen mindestens 30 Beobachtungen gemacht wurden).

In diesem Fall müssen wir die folgenden Werte berechnen:

  • \(\bar{x}\), der Mittelwert in der ersten Gruppe (Nichtraucher). Bei uns ist \(\bar{x} = 82\).
    Vorsicht: Hier muss man aufpassen, die beiden Gruppen nicht zu verwechseln. Die Gruppe, die in den beiden Hypothesen zuerst, d.h. auf der linken Seite steht (die Nichtraucher), ist jetzt auch die erste Gruppe \(X\). Im Idealfall nennt man die Gruppen einfach von Anfang an \(X\) und \(Y\), aber es ist vielleicht zu Beginn etwas einleuchtender wenn man die Anfangsbuchstaben der zwei Gruppen verwendet.
  • \(n_x\), die Anzahl der Beobachtungen in der ersten Gruppe. Bei uns ist \(n_x = 6\), da wir 6 Nichtraucher untersucht haben.
  • \(s^2_x\), die Varianz in der ersten Gruppe. Bei uns ist \(s^2_x = 128.4\).
  • \(\bar{y}\), der Mittelwert in der zweiten Gruppe (Raucher). Bei uns ist \(\bar{y} = 72.875\). Das mittlere Lebensalter von Nichtrauchern ist also schonmal höher als das der Raucher. Ob es statistisch signifikant höher ist, finden wir jetzt heraus.
  • \(n_y\), die Anzahl der Beobachtungen in der zweiten Gruppe. Bei uns ist \(n_y = 8\)
  • \(s^2_y\), die Varianz in der zweiten Gruppe. Bei uns ist \(s^2_y = 89.554\).

Dann lautet die Prüfgröße \(T\):

\[ T = \frac{\bar{x} – \bar{y}}{\sqrt{\frac{s^2_x}{n_x} + \frac{s^2_y}{n_y}}} \]

Bei uns setzen wir also ein und erhalten:

\[ T = \frac{82 – 72.875}{\sqrt{\frac{128.4}{6} + \frac{89.554}{8}}} = 1.598 \]

Unsere Prüfgröße T hat also den Wert 1.598.

6. Verteilung der Prüfgröße bestimmen

Falls die Nullhypothese gilt, ist die Prüfgröße t-verteilt mit \(n_x + n_y – 2\) Freiheitsgraden:

\[ T \sim t(n_x + n_y – 2) \]

Bei uns ist das also eine t-Verteilung mit 6+8-2, also 12 Freiheitsgraden:

\[ T \sim t(12) \]

Notiz am Rande: In unterschiedlicher Literatur gibt es sowohl für den Nenner bei der Prüfgröße, als auch für die Anzahl der Freiheitsgrade hier, verschiedene Formeln. Das Thema ist etwas komplexer, aber in der Praxis vereinfacht sich das ungemein, da wir dann für die beiden Gruppen genügend Beobachtungen haben, und einen einfacheren Test verwenden können (wer es genau wissen will: Dann greift der zentrale Grenzwertsatz und wir können als Approximation die Normalverteilung statt der t-Verteilung verwenden).
In Klausuren ist es allerdings nicht machbar, Mittelwerte und Varianzen von mehr als 30 Beobachtungen zu berechnen, weswegen es in diesen Fällen dann doch immer zu diesen Formeln führt. Falls sich Formeln in euren Vorlesungen oder Formelsammlungen von den hier genannten unterscheiden, verwendet natürlich immer die Formeln die euer Professor euch vorgegeben hat.
Das grundlegende Prinzip wird sich dadurch nicht ändern, dieser Artikel ist also trotzdem sinnvoll. Nur die Zahl im Ergebnis wird ein wenig anders sein.

7. Kritischen Bereich (oder p-Wert) berechnen

Den kritischen Bereich berechnen wir genau so wie wir es beim Einstichproben-t-Test und beim gepaarten t-Test schon gemacht haben. Eine Einführung in diese Aufgabe, und ein paar weiter verdeutlichende Beispiele gibt es in diesen beiden Artikeln.

In dieser Aufgabe führen wir einen einseitigen t-Test durch, in dem die Alternative nach rechts zielt. Der kritische Bereich ist also der „höchste“ Bereich, d.h. die höchsten 5%, in die die t-Verteilung mit 12 Freiheitsgraden fällt. Mathematisch gesagt suchen wir als Schranke zu diesem Bereich das 95%-Quantil der t-Verteilung mit 12 Freiheitsgraden.

Alle Werte, die „rechts“ von dieser Schranke liegen, d.h. größer als diese Schranke sind, liegen nun im kritischen Bereich. Falls unsere Prüfgröße dort gelandet ist, lehnen wir die Nullhypothese ab.

Die genauen Werte erhalten wir aus der Tabelle der t-Verteilung (im Artikel zur t-Verteilung ist auch genauer erklärt, wie man das macht). Die rechte Schranke ist, wie schon gesagt, das 95%-Quantil der t-Verteilung mit 12 Freiheitsgraden, und aus der Tabelle lesen wir dafür den Wert 1.782 ab. Prüfe das am besten selbst nach, es ist für eine Klausur unerlässlich, das schnell und sicher zu können.

8. Testentscheidung treffen

Für die Entscheidung haben wir jetzt alle Informationen zusammen:

  • Die Prüfgröße ist \(T = 1,.598\).
  • Die Schranke zum kritischen Bereich ist bei 1.782. Der kritische Bereich sind alle Werte größer als diese Schranke (da wir einen einseitigen Test rechnen, bei dem die Alternativhypothese nach rechts zielt).

Unsere Prüfgröße liegt also nicht im kritischen Bereich. Daher können wir schlussfolgern, dass wir in dieser Analyse die Nullhypothese nicht ablehnen können. Es wurde also hier kein Beweis dafür gefunden, dass Nichtraucher länger leben als Raucher.

Hinweis: Das bedeutet ausdrücklich nicht, dass wir bewiesen haben dass Nichtraucher nicht länger leben als Raucher. Denn wir können \(H_0\) niemals „statistisch beweisen“, sondern nur \(H_1\). Diese Tatsache ist in diesem Artikel genauer erklärt.

Änderungen bei den zwei anderen Beispielen

Für die übrigen zwei Beispiele aus dem 1. Schritt, wenn die Alternativhypothese entweder zweiseitig ist, oder nach links statt nach rechts zielt, verändert sich nur der kritische Bereich in Schritt 7; die Prüfgröße \(T\) wird aber auf dieselbe Weise berechnet. Die Änderungen sind identisch wie im Einstichproben-t-Test, weswegen der Abschnitt im dortigen Artikel hier genauso angewendet werden kann.

Klasuraufgabe

Du wohnst gleich weit entfernt von zwei Lieferdiensten, dem Asiaten A, und der Pizzeria B. Du interessierst dich dafür, ob die durchschnittliche Zeit bis deine Bestellung bei dir ankommt bei beiden Diensten gleich ist, oder ob es Unterschiede gibt.

Daher bestellst du über ein Jahr lang abwechselnd bei den beiden Lieferanten, 7-mal beim Asiaten A, und 8-mal bei Pizzeria B (die schmeckt ein bisschen besser).

Die resultierenden Lieferzeiten sind in der folgenden Tabelle zusammengefasst:

Asiate A Pizzeria B
30 42
45 24
43 38
34 34
29 41
38 22
51 40
33

Führe einen Hypothesentest zum Niveau \(\alpha=0.1\) durch, um zu prüfen ob sich die beiden Mittelwerte der Lieferzeiten voneinander unterscheiden.

(Zur Vereinfachung können wir hier von einer Normalverteilung der Lieferzeiten ausgehen – ein t-Test ist also in Ordnung).

Lösung (klick)

Wir gehen nach den üblichen 8 Schritten beim Testen vor:

1. Hypothesen aufstellen

Uns interessiert, ob die beiden durchschnittlichen Lieferzeiten prinzipiell unterschiedlich sind, d.h. egal in welche Richtung. Wir müssen also einen zweiseitigen Test rechnen. Bezeichnen wir dazu die mittlere Lieferzeit des Asiaten mit \(\mu_A\), und die der Pizzeria mit \(\mu_B\), lauten die Hypothesen:

  • \(H_0: \mu_A = \mu_B\)
  • \(H_1: \mu_A \neq \mu_B\)

2. Test wählen

Anhand der Tabelle zur Testwahl lesen wir ab: Wir haben eine normalverteilte Zielgröße, und als Einflussgröße zwei Gruppen, die ungepaart, also unabhängig sind. Daher ist hier der Zweistichproben-t-Test angebracht.

3. Signifikanzniveau festlegen

Das Niveau \(\alpha\) wird in Klausuraufgaben meist vorgegeben sein. Hier ist es \(\alpha = 0.1\)

4. Daten sammeln

Die Daten haben wir schon erhalten, und sind oben gegeben.

5. Prüfgröße berechnen

Die Prüfgröße beim Zweistichproben-t-Test berechnet man durch

\[ T = \frac{\bar{x} – \bar{y}}{\sqrt{\frac{s^2_x}{n_x} + \frac{s^2_y}{n_y}}} \]

Die in der Formel allgemeinen Bezeichnungen X und Y beziehen sich hier auf den Asiaten A und die Pizzeria B. Wir berechnen die einzelnen Werte dieser Formel:

  • Die Stichprobengröße des Asiaten \(n_x = 7\)
  • Der Mittelwert des Asiaten \(\bar{x} = 38.57\)
  • Die Varianz des Asiaten \(s^2_x = 66.95\)
  • Die Stichprobengröße der Pizzeria \(n_y = 8\)
  • Der Mittelwert der Pizzeria \(\bar{y} = 34.25\)
  • Die Varianz der Pizzeria \(s^2_y = 58.5\)

Die Prüfgröße ist im Ergebnis also:

\[ T = \frac{38.57 – 34.25}{\sqrt{\frac{66.95}{7} + \frac{58.5}{8}}} = 1.052 \]

6. Verteilung der Prüfgröße bestimmen

Falls die Nullhypothese gilt, und beide Lieferdienste im Durchschnitt gleich lang brauchen, dann ist unsere Prüfgröße \(T\) am Ende t-verteilt mit \(n_x + n_y – 2\), also mit 13 Freiheitsgraden:

\[ T \sim t(13)\]

7. Kritischen Bereich (oder p-Wert) berechnen

Den kritischen Bereich erhalten wir aus der Tabelle der t-Verteilung. Unser Signifikanzniveau ist in dieser Aufgabe \(\alpha = 0.1\), wir suchen daher die „extremen“ 10% der t-Verteilung. Da wir einen zweiseitigen Test verwenden, suchen wir zwei Bereiche, nämlich jeweils die Hälfte, also 5%, auf der linken bzw. rechten Seite dieser Verteilung. Wir brauchen also zwei Schranken zum kritischen Bereich: das 5%-Quantil sowie das 95%-Quantil der t-Verteilung mit 13 Freiheitsgraden.

Die genauen Werte erhalten wir aus der Tabelle der t-Verteilung. Die rechte Schranke ist das 95%-Quantil der t-Verteilung mit 13 Freiheitsgraden, und aus der Tabelle lesen wir den Wert 1,771 ab. Prüfe das am besten selbst nach, es ist für eine Klausur unerlässlich, das schnell und sicher zu können.

Die linke Schranke ist -1,771, denn da die t-Verteilung symmetrisch um 0 ist, können wir einfach den negativen Wert von der rechten Schranke (1,771) nehmen (im Artikel zur t-Verteilung ist auch genauer erklärt, wie man das macht). Der kritische Bereich ist also der in der Grafik rot eingefärbte Bereich, es ist der Bereich außerhalb der beiden Schranken.

8. Testentscheidung treffen

In Schritt 5 haben wir die Prüfgröße berechnet als \(T=1.052\). In Schritt 7 haben wir den kritischen Bereich bestimmt als der Bereich kleiner als -1,771 und größer als 1,771. Da die Prüfgröße nicht im kritischen Bereich liegt (das erkennt man auch an der Grafik), behalten wir die Nullhypothese bei.

Wir können also schlussfolgernd nicht nachweisen, dass die beiden Lieferdienste unterschiedlich schnell liefern.

5 Gedanken zu „Zweistichproben-t-Test: Mittelwerte zweier Gruppen vergleichen

  1. AvatarEsra

    Hallo,
    Mir sind auch zwei kleine Fehler aufgefallen.
    Unter 2. Test wählen steht: „dass wir einen Einstichproben-t-Test verwenden werden.“, womit natürlich Zweistichproben-t-Test gemeint ist.

    Bei der Klausuraufgabe ist als Freiheitsgrad 14 angegeben, aber es sollte doch 13 sein oder nicht?
    nx+ny–2 = 7+8-2 = 13

    Mit freundlichen Grüßen
    Esra

    Antworten
  2. AvatarMarie Louise Krebs

    Hallo noch einmal,

    mir ist noch ein Fehler aufgefallen, durch den es zu Verwirrung kommt: Sowohl xquer als auch yquer werden als die Gruppe „Nichtraucher“ bezeichnet. Eigentlich müsste es heißen: „𝑦¯, der Mittelwert in der zweiten Gruppe (Raucher). Bei uns ist 𝑦¯=72.875.“

    Zudem verstehe ich nicht, wieso du nicht mit der Standardabweichung sondern mit der Varianz arbeitest. Die Standardabweichung macht das Einsetzen in die Formel doch viel einfacher.

    Ich freue mich über deine Antwort.

    Viele Grüße

    Marie

    Antworten
  3. Avatarmlkrebs.mlk@gmail.com

    Hallihallo,

    zunächst einmal vielen Dank für die tollen Erklärungen und die verständlichen Beispiele. Deine Website rettet mir derzeit meine Statistikklausur.
    Beim Durchrechnen deines Raucherbeispiels komme ich auf eine Varianz von 78,359375 (gerundet 78,36) für die Raucher und eine Varianz von 107 für die Nichtraucher. Ich habe gerechnet (xi1-x(quer)zum quadrat+(xi2-xquer) zum quadrat usw. Am Ende habe ich das Ergebnis durch die Anzahl der Beobachtungen geteilt. Bei den Rauchern durch 8 und bei den Nichtrauchern durch 6.
    Bei der Varianz Ich habe es zwei mal durchgerechnet und ich wüsste nicht wo ich einen Fehler gemacht haben soll.
    Es wäre super, wenn du das Ergebnis vielleicht noch einmal überprüfen würdest.

    Liebe Grüße

    Marie

    Antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.