Archiv der Kategorie: Allgemein

Zweistichproben-t-Test: Mittelwerte zweier Gruppen vergleichen

Einführende Artikel

Zum Einstieg in das Thema Hypothesentests sollte man sich zu Beginn die folgenden beiden Artikel durchlesen:

In ihnen beschreibe ich ganz allgemein die Schritte, mit denen man einen Hypothesentest durchführt. Dadurch werden die einzelnen Teile in diesem Artikel verständlicher.

Außerdem macht es Sinn, den Artikel zum Binomialtest zu lesen, da ich dort noch etwas ausführlicher beschrieben habe, wie man die allgemeinen Prinzipien auf einen speziellen Test anwendet. Falls hier etwas nur kurz beschrieben wird, dann ist es im Artikel zum BInomialtest evtl. ausführlicher verständlicher erklärt worden.

Der Zweistichproben-t-Test

Der einfachste Fall eines t-Tests ist der Einstichproben-t-Test, den wir in einem eigenen Artikel bereits behandelt haben. Allerdings ist es in der Praxis üblicher, dass man nicht nur eine, sondern zwei Gruppen hat, und deren Mittelwerte vergleichen möchte. Ein typisches Beispiel sind Messungen, die an Patienten mit einer bestimmten Krankheit vorgenommen werden, und dann „zur Kontrolle“ an einer anderen Gruppe von gesunden Menschen.

In diesem Fall handelt es sich um zwei unabhängige Gruppen. Unabhängig bedeutet hier, dass die Personen (oder Objekte) aus der ersten Gruppe nichts mit denen aus der zweiten Gruppe zu tun haben. Im gepaarten t-Test war das anders, da waren in der ersten und zweiten Gruppe dieselben Personen, nur eben vor bzw. nach einer bestimmten Behandlung.

1. Hypothesen aufstellen

Beim t-Test gibt es, genau wie beim Binomialtest, drei verschiedene Möglichkeiten, seine Hypothesen zu formulieren. Welche Variante man verwenden muss, hängt von der Fragestellung ab, die man untersucht. Dazu drei Beispiele:

  1. Ein Forschungsinstitut hat in den 1960er-Jahren untersucht, ob Nichtraucher eine längere Lebenserwartung haben. Dazu wurden in einer ersten Stichprobe von 8 bereits verstorbenen Rauchern das Alter zum Todeszeitpunkt notiert, und in einer zweiten Stichprobe von 6 Nichtrauchern ebenso.
    Um nachzuweisen, dass Nichtraucher eine längere Lebenserwartung haben, kommt dieser Fall in die Alternativhypothese (warum, wird hier erklärt). Wenn wir also die Lebenserwartung von Nichtrauchern mit \(\mu_N\) bezeichnen, und die der Raucher mit \(\mu_R\), lauten unsere Hypothesen:

    • \(H_0: \mu_N \leq \mu_R\)
    • \(H_1: \mu_N > \mu_R\)
  2. Um nachzuweisen, dass regelmäßiges Meditieren den Blutdruck senkt, hat ein Studio bei 7 seiner meditierenden Mitglieder den Blutdruck gemessen. Als Kontrollgruppe wurden 7 zufällige Leute auf der Straße, die nicht meditieren, angehalten, und bei ihnen ebefalls der Blutdruck gemessen.
    Da das Studio nachweisen möchte, dass die Meditierer einen niedrigeren durchschnittlichen Blutdruck haben, kommt dieser Fall in die Alternativhypothese. Wir bezeichnen mit \(\mu_M\) den mittleren Blutdruck von Meditierern, und mit \(\mu_N\) den der Nicht-meditierenden, und formen die folgenden Hypothesen:

    • \(H_0: \mu_M \geq \mu_N\)
    • \(H_1: \mu_M < \mu_N\)

    Es ist wohl hilfreich, wenn man diesen Fall genau betrachtet, und mit dem Beispiel aus dem Artikel zum gepaarten t-Test vergleicht: Dort wurde nämlich genau dieselbe Forschungsfrage untersucht, aber mit einem anderen Versuchsplan. Genauer gesagt: Es wurde hier kein vorher/nachher-Vergleich gemacht, in dem der Blutdruck für dieselbe Person vor und nach einer Meditation gemessen wurde, sondern es wurden zwei unabhängige Gruppen untersucht. Diese Tatsache führt dazu, dass wir in diesem Beispiel einen Zweistichproben-t-Test brauchen.

  3. Ein Forscher vermutet, dass ein Masterabschluss an einer Fachhochschule (FH) eher praktische Fähigkeiten vermittelt, und einer an der Universität eher theoretische Fähigkeiten. Er möchte nun untersuchen, ob diese unterschiedlichen Ansätze eine Auswirkung auf das spätere Einkommen haben. Dazu sucht er sich eine Gruppe von 100 Berufstätigen im ungefähr gleichen Alter von 40-45 Jahren, und notiert jeweils den Studienabschluss (also „Uni“ oder „FH“) sowie das Einkommen dieser Person.
    Da man theoretisch beide Möglichkeiten (FH-Absolventen verdienen mehr, oder Uni-Absolventen verdienen mehr) für denkbar hält, möchte man bezüglich der Richtung unvoreingenommen vorgehen – man führt also einen zweiseitigen Test durch. Wir bezeichnen das mittlere Einkommen von FH-Absolventen mit \(\mu_F\), das der Uni-Absolventen mit \(\mu_U\). Die Hypothesen lauten dann:

    • \(H_0: \mu_F = \mu_U\)
    • \(H_0: \mu_F \neq \mu_U\)

Die drei verschiedenen Möglichkeiten hängen also davon ab, in welche Richtung die Alternativhypothese geht (kleiner oder größer), bzw. ob sie einseitig oder – wie im dritten Beispiel – zweiseitig ist.

Für den restlichen Artikel konzentrieren wir uns auf das erste Beispiel, das mit der höheren Lebenserwartung von Nichtrauchern.

2. Test wählen

Um die Abfolge der 8 Schritte nicht zu verändern, die wir in den beiden einführenden Artikeln aufgestellt haben (erster und zweiter Artikel), nehme ich hier den 2. Schritt auch mit auf. Es ist natürlich schon klar, dass wir einen Zweistichproben-t-Test verwenden werden.

3. Signifikanzniveau festlegen

Wie in den vorherigen Artikeln schon beschrieben, legt das Signifikanzniveau die Wahrscheinlichkeit fest, mit der man einen bestimmten Fehler macht, nämlich die fälschliche Entscheidung dass die Alternativhypothese gilt, obwohl in Wirklichkeit die Nullhypothese wahr ist.

Allgemeiner Konsens ist hier ein Wert von 5%, also \(\alpha=0.05\). In besonders kritischen Fragestellungen, z.B. solchen, die die menschliche Gesundheit betreffen, muß das Signifikanzniveau oft niedriger gewählt werden, der Test wird dann konservativer. Hier wählt man z.B. \(\alpha=0.01\).

Für unsere Beispielaufgabe nehmen wir das übliche Signifikanzniveau von \(\alpha=0.05\).

4. Daten sammeln

In einer Klausur sind die Daten meist schon gegeben, aber in einer echten Untersuchung müssen wir sie natürlich erst sammeln. Beim Zweistichproben-t-Test brauchen wir, wie der Name schon sagt, zwei Stichproben. Das erreichte Lebensalter der 6 Nichtraucher sind in unserer Aufgabe die folgenden Werte:

\[ N = (80, 92, 74, 99, 69, 78) \]

Wir haben auch das Alter von 8 Rauchern erhalten:

\[ R = (81, 72, 68, 71, 59, 91, 71, 70) \]

5. Prüfgröße berechnen

Beim Zweistichproben-t-Test gibt es einige Spezialfälle, je nachdem ob die Varianz in den beiden Gruppen gleich bzw. verschieden ist, oder ob sie bekannt bzw. unbekannt ist. Ich möchte aber nicht auf alle diese Fälle eingehen, sondern nur auf den in der Praxis relevantesten: Die Varianzen der Merkmale in den zwei Gruppen sind nicht notwendigerweise gleich, und sie sind unbekannt.

Erstens tritt dieser Fall am häufigsten auf, und zweitens kann man diese Variante bei realistischen Stichproben immer, in jedem Fall, anwenden (als Faustregel gilt, wenn in beiden Gruppen mindestens 30 Beobachtungen gemacht wurden).

In diesem Fall müssen wir die folgenden Werte berechnen:

  • \(\bar{x}\), der Mittelwert in der ersten Gruppe (Nichtraucher). Bei uns ist \(\bar{x} = 82\).
    Vorsicht: Hier muss man aufpassen, die beiden Gruppen nicht zu verwechseln. Die Gruppe, die in den beiden Hypothesen zuerst, d.h. auf der linken Seite steht (die Nichtraucher), ist jetzt auch die erste Gruppe \(X\). Im Idealfall nennt man die Gruppen einfach von Anfang an \(X\) und \(Y\), aber es ist vielleicht zu Beginn etwas einleuchtender wenn man die Anfangsbuchstaben der zwei Gruppen verwendet.
  • \(n_x\), die Anzahl der Beobachtungen in der ersten Gruppe. Bei uns ist \(n_x = 6\), da wir 6 Nichtraucher untersucht haben.
  • \(s^2_x\), die Varianz in der ersten Gruppe. Bei uns ist \(s^2_x = 128.4\).
  • \(\bar{y}\), der Mittelwert in der zweiten Gruppe (Raucher). Bei uns ist \(\bar{y} = 72.875\). Das mittlere Lebensalter von Nichtrauchern ist also schonmal höher als das der Raucher. Ob es statistisch signifikant höher ist, finden wir jetzt heraus.
  • \(n_y\), die Anzahl der Beobachtungen in der zweiten Gruppe. Bei uns ist \(n_y = 8\)
  • \(s^2_y\), die Varianz in der zweiten Gruppe. Bei uns ist \(s^2_y = 89.554\).

Dann lautet die Prüfgröße \(T\):

\[ T = \frac{\bar{x} – \bar{y}}{\sqrt{\frac{s^2_x}{n_x} + \frac{s^2_y}{n_y}}} \]

Bei uns setzen wir also ein und erhalten:

\[ T = \frac{82 – 72.875}{\sqrt{\frac{128.4}{6} + \frac{89.554}{8}}} = 1.598 \]

Unsere Prüfgröße T hat also den Wert 1.598.

6. Verteilung der Prüfgröße bestimmen

Falls die Nullhypothese gilt, ist die Prüfgröße t-verteilt mit \(n_x + n_y – 2\) Freiheitsgraden:

\[ T \sim t(n_x + n_y – 2) \]

Bei uns ist das also eine t-Verteilung mit 6+8-2, also 12 Freiheitsgraden:

\[ T \sim t(12) \]

Notiz am Rande: In unterschiedlicher Literatur gibt es sowohl für den Nenner bei der Prüfgröße, als auch für die Anzahl der Freiheitsgrade hier, verschiedene Formeln. Das Thema ist etwas komplexer, aber in der Praxis vereinfacht sich das ungemein, da wir dann für die beiden Gruppen genügend Beobachtungen haben, und einen einfacheren Test verwenden können (wer es genau wissen will: Dann greift der zentrale Grenzwertsatz und wir können als Approximation die Normalverteilung statt der t-Verteilung verwenden).
In Klausuren ist es allerdings nicht machbar, Mittelwerte und Varianzen von mehr als 30 Beobachtungen zu berechnen, weswegen es in diesen Fällen dann doch immer zu diesen Formeln führt. Falls sich Formeln in euren Vorlesungen oder Formelsammlungen von den hier genannten unterscheiden, verwendet natürlich immer die Formeln die euer Professor euch vorgegeben hat.
Das grundlegende Prinzip wird sich dadurch nicht ändern, dieser Artikel ist also trotzdem sinnvoll. Nur die Zahl im Ergebnis wird ein wenig anders sein.

7. Kritischen Bereich (oder p-Wert) berechnen

Den kritischen Bereich berechnen wir genau so wie wir es beim Einstichproben-t-Test und beim gepaarten t-Test schon gemacht haben. Eine Einführung in diese Aufgabe, und ein paar weiter verdeutlichende Beispiele gibt es in diesen beiden Artikeln.

In dieser Aufgabe führen wir einen einseitigen t-Test durch, in dem die Alternative nach rechts zielt. Der kritische Bereich ist also der „höchste“ Bereich, d.h. die höchsten 5%, in die die t-Verteilung mit 12 Freiheitsgraden fällt. Mathematisch gesagt suchen wir als Schranke zu diesem Bereich das 95%-Quantil der t-Verteilung mit 12 Freiheitsgraden.

Alle Werte, die „rechts“ von dieser Schranke liegen, d.h. größer als diese Schranke sind, liegen nun im kritischen Bereich. Falls unsere Prüfgröße dort gelandet ist, lehnen wir die Nullhypothese ab.

Die genauen Werte erhalten wir aus der Tabelle der t-Verteilung (im Artikel zur t-Verteilung ist auch genauer erklärt, wie man das macht). Die rechte Schranke ist, wie schon gesagt, das 95%-Quantil der t-Verteilung mit 12 Freiheitsgraden, und aus der Tabelle lesen wir dafür den Wert 1.782 ab. Prüfe das am besten selbst nach, es ist für eine Klausur unerlässlich, das schnell und sicher zu können.

8. Testentscheidung treffen

Für die Entscheidung haben wir jetzt alle Informationen zusammen:

  • Die Prüfgröße ist \(T = 1,.598\).
  • Die Schranke zum kritischen Bereich ist bei 1.782. Der kritische Bereich sind alle Werte größer als diese Schranke (da wir einen einseitigen Test rechnen, bei dem die Alternativhypothese nach rechts zielt).

Unsere Prüfgröße liegt also nicht im kritischen Bereich. Daher können wir schlussfolgern, dass wir in dieser Analyse die Nullhypothese nicht ablehnen können. Es wurde also hier kein Beweis dafür gefunden, dass Nichtraucher länger leben als Raucher.

Hinweis: Das bedeutet ausdrücklich nicht, dass wir bewiesen haben dass Nichtraucher nicht länger leben als Raucher. Denn wir können \(H_0\) niemals „statistisch beweisen“, sondern nur \(H_1\). Diese Tatsache ist in diesem Artikel genauer erklärt.

Änderungen bei den zwei anderen Beispielen

Für die übrigen zwei Beispiele aus dem 1. Schritt, wenn die Alternativhypothese entweder zweiseitig ist, oder nach links statt nach rechts zielt, verändert sich nur der kritische Bereich in Schritt 7; die Prüfgröße \(T\) wird aber auf dieselbe Weise berechnet. Die Änderungen sind identisch wie im Einstichproben-t-Test, weswegen der Abschnitt im dortigen Artikel hier genauso angewendet werden kann.

Klasuraufgabe

Du wohnst gleich weit entfernt von zwei Lieferdiensten, dem Asiaten A, und der Pizzeria B. Du interessierst dich dafür, ob die durchschnittliche Zeit bis deine Bestellung bei dir ankommt bei beiden Diensten gleich ist, oder ob es Unterschiede gibt.

Daher bestellst du über ein Jahr lang abwechselnd bei den beiden Lieferanten, 7-mal beim Asiaten A, und 8-mal bei Pizzeria B (die schmeckt ein bisschen besser).

Die resultierenden Lieferzeiten sind in der folgenden Tabelle zusammengefasst:

Asiate A Pizzeria B
30 42
45 24
43 38
34 34
29 41
38 22
51 40
33

Führe einen Hypothesentest zum Niveau \(\alpha=0.1\) durch, um zu prüfen ob sich die beiden Mittelwerte der Lieferzeiten voneinander unterscheiden.

(Zur Vereinfachung können wir hier von einer Normalverteilung der Lieferzeiten ausgehen – ein t-Test ist also in Ordnung).

Lösung (klick)

Wir gehen nach den üblichen 8 Schritten beim Testen vor:

1. Hypothesen aufstellen

Uns interessiert, ob die beiden durchschnittlichen Lieferzeiten prinzipiell unterschiedlich sind, d.h. egal in welche Richtung. Wir müssen also einen zweiseitigen Test rechnen. Bezeichnen wir dazu die mittlere Lieferzeit des Asiaten mit \(\mu_A\), und die der Pizzeria mit \(\mu_B\), lauten die Hypothesen:

  • \(H_0: \mu_A = \mu_B\)
  • \(H_1: \mu_A \neq \mu_B\)

2. Test wählen

Anhand der Tabelle zur Testwahl lesen wir ab: Wir haben eine normalverteilte Zielgröße, und als Einflussgröße zwei Gruppen, die ungepaart, also unabhängig sind. Daher ist hier der Zweistichproben-t-Test angebracht.

3. Signifikanzniveau festlegen

Das Niveau \(\alpha\) wird in Klausuraufgaben meist vorgegeben sein. Hier ist es \(\alpha = 0.1\)

4. Daten sammeln

Die Daten haben wir schon erhalten, und sind oben gegeben.

5. Prüfgröße berechnen

Die Prüfgröße beim Zweistichproben-t-Test berechnet man durch

\[ T = \frac{\bar{x} – \bar{y}}{\sqrt{\frac{s^2_x}{n_x} + \frac{s^2_y}{n_y}}} \]

Die in der Formel allgemeinen Bezeichnungen X und Y beziehen sich hier auf den Asiaten A und die Pizzeria B. Wir berechnen die einzelnen Werte dieser Formel:

  • Die Stichprobengröße des Asiaten \(n_x = 7\)
  • Der Mittelwert des Asiaten \(\bar{x} = 38.57\)
  • Die Varianz des Asiaten \(s^2_x = 66.95\)
  • Die Stichprobengröße der Pizzeria \(n_y = 8\)
  • Der Mittelwert der Pizzeria \(\bar{y} = 34.25\)
  • Die Varianz der Pizzeria \(s^2_y = 58.5\)

Die Prüfgröße ist im Ergebnis also:

\[ T = \frac{38.57 – 34.25}{\sqrt{\frac{66.95}{7} + \frac{58.5}{8}}} = 1.052 \]

6. Verteilung der Prüfgröße bestimmen

Falls die Nullhypothese gilt, und beide Lieferdienste im Durchschnitt gleich lang brauchen, dann ist unsere Prüfgröße \(T\) am Ende t-verteilt mit \(n_x + n_y – 2\), also mit 13 Freiheitsgraden:

\[ T \sim t(13)\]

7. Kritischen Bereich (oder p-Wert) berechnen

Den kritischen Bereich erhalten wir aus der Tabelle der t-Verteilung. Unser Signifikanzniveau ist in dieser Aufgabe \(\alpha = 0.1\), wir suchen daher die „extremen“ 10% der t-Verteilung. Da wir einen zweiseitigen Test verwenden, suchen wir zwei Bereiche, nämlich jeweils die Hälfte, also 5%, auf der linken bzw. rechten Seite dieser Verteilung. Wir brauchen also zwei Schranken zum kritischen Bereich: das 5%-Quantil sowie das 95%-Quantil der t-Verteilung mit 13 Freiheitsgraden.

Die genauen Werte erhalten wir aus der Tabelle der t-Verteilung. Die rechte Schranke ist das 95%-Quantil der t-Verteilung mit 13 Freiheitsgraden, und aus der Tabelle lesen wir den Wert 1,771 ab. Prüfe das am besten selbst nach, es ist für eine Klausur unerlässlich, das schnell und sicher zu können.

Die linke Schranke ist -1,771, denn da die t-Verteilung symmetrisch um 0 ist, können wir einfach den negativen Wert von der rechten Schranke (1,771) nehmen (im Artikel zur t-Verteilung ist auch genauer erklärt, wie man das macht). Der kritische Bereich ist also der in der Grafik rot eingefärbte Bereich, es ist der Bereich außerhalb der beiden Schranken.

8. Testentscheidung treffen

In Schritt 5 haben wir die Prüfgröße berechnet als \(T=1.052\). In Schritt 7 haben wir den kritischen Bereich bestimmt als der Bereich kleiner als -1,771 und größer als 1,771. Da die Prüfgröße nicht im kritischen Bereich liegt (das erkennt man auch an der Grafik), behalten wir die Nullhypothese bei.

Wir können also schlussfolgernd nicht nachweisen, dass die beiden Lieferdienste unterschiedlich schnell liefern.

Gepaarter t-Test: Vorher/Nachher-Mittelwertsvergleich

Der gepaarte t-Test wird immer dann verwendet, wenn man zwar zwei Stichproben (d.h. zwei „Gruppen“) hat, diese aber verbunden sind. Verbunden bedeutet in diesem Fall, dass jeder Beobachtung aus der ersten Gruppe direkt eine aus der zweiten Gruppe zugeordnet werden kann, die beiden Beobachtungen gehören also zusammen. In den meisten Fällen ist das der Fall, wenn man einen vorher/nachher-Vergleich machen möchte. Andere Fälle, in denen die Beobachtungen zweier Gruppen „zusammengehören“, also verbunden sind, sind zum Beispiel Zwillingsstudien, in denen je ein Zwilling in eine Gruppe kommt, und dann Unterschiede bezüglich Verhalten oder Eigenschaften getestet werden.

Als Beispiel eines vorher/nachher-Vergleichs misst man etwa bei 9 Personen den Blutdruck, führt sie dann 30 Minuten durch eine Meditation, und misst danach an denselben Personen nochmal den Blutdruck.

In diesem Beispiel könnten die Daten dann wie folgt aussehen:

Person \(x_i\) Blutdruck vorher Blutdruck nachher
1 130 124
2 145 142
3 151 138
4 143 143
5 129 122
6 138 141
7 143 140
8 113 108
9 133 127

Wir möchten nun zum Signifikanzniveau \(\alpha=0.1\) testen, ob diese Personen nach der 30-minütigen Meditation einen niedrigeren Blutdruck haben, ob sich also der durchschnittliche Blutdruck gesenkt hat.

Das Schöne an einer gepaarten Stichprobe ist nun, dass wir uns eines Tricks bedienen können, nach dem wir dann einfach den bekannten Einstichproben-t-Test verwenden können:

Da die beiden Gruppen verbunden sind, es also jeweils dieselbe Person in der vorher- bzw. nachher-Gruppe ist, können wir für jede Person die Differenz der beiden Messungen berechnen. Wir fügen eine neue Spalte an die Tabelle von eben an, in der wir einfach „nachher minus vorher“ rechnen:

Person \(x_i\) Blutdruck vorher Blutdruck nachher Differenz / „Effekt“
1 130 124 -6
2 145 142 -3
3 151 138 -13
4 143 143 0
5 129 122 -7
6 138 141 +3
7 143 140 -3
8 113 108 -5
9 133 127 -6

Wir rechnen „nachher minus vorher“, und nicht „vorher minus nachher“, damit eine negative Zahl, z.B. -6, darauf hindeutet, dass der Blutdruck nach der Meditation gesunken ist.

Die letzte Spalte beinhaltet nun also den „Effekt“ der Meditation (falls es einen gibt). Die erste Person hatte zum Beispiel nach der Meditation einen um 6 Punkte niedrigeren Blutdruck als vorher.

Der bequeme und erfreuliche Effekt dieser Nebenrechnung ist jetzt, dass wir die Vorher- bzw. Nachher-Messungen wegwerfen können, und nur noch mit der Differenz weiterarbeiten. Da das nur noch eine einzige Variable ist, können wir mit ihr den bereits bekannten Einstichproben-t-Test durchführen.

Die Hypothesen werden dann abhängig davon gebildet, welchen Effekt man testen möchte. Wenn wir – wie in diesem Beispiel – nachweisen möchten, dass die Nachher-Messung niedriger ist, dann wäre die Alternativhypotese demnach, dass der Mittelwert der eben berechneten Differenzen kleiner als Null ist, also \(H_1: \mu < 0\). (Warum das so ist, wird in diesem Artikel erklärt).

Ab jetzt können wir also den Einstichproben-t-Test durchführen, und brauchen hier daher kein neues Vorgehen, keine separate Erklärung mehr. Die Daten, mit denen wir den Einstichproben-t-Test durchführen, sind:

  • \(H_0: \mu \geq 0\)
  • \(H_1: \mu < 0\)
  • Signifikanzniveau: \(\alpha = 0.1\)
  • \(x = (-6, -3, -13, 0, -7, +3, -3, -5, -6)\). Das ist die letzte Spalte der Tabelle oben, unsere „neue“ Stichprobe, nämlich die der Differenzen von vorher zu nachher.

Damit können wir direkt in Schritt 5 der Abfolge beim Hypothesentest einsteigen, dem Berechnen der Prüfgröße. Dieser und alle weiteren Schritte kann man nun genauso durchführen wie im Artikel zum Einstichproben-t-Test erklärt.

Ergebnis

Wer diese Aufgabe selbst zuende rechnen und nachprüfen möchte, für den fasse ich hier die Ergebnisse kurz zusammen. Das Vorgehen ist wie gesagt im entsprechenden Artikel detailliert beschrieben.

  • Mittelwert: \(\bar{x} = -4.444\)
  • Standardabweichung: \(s = 4.531\)
  • Stichprobengröße: \(n = 9\)

Schritt 5: Prüfgröße berechnen

\[T = \sqrt{n} \cdot \frac{\bar{x} \, – \, \mu_0}{s} = \sqrt{9} \cdot \frac{-4.444 \, – \, 0}{4.531} = -2.942 \]

Schritt 6: Verteilung der Prüfgröße bestimmen

\[T \sim t(8) \]

Schritt 7: Kritischen Bereich (oder p-Wert) berechnen

Vorsicht: In dieser Aufgabe ist das Signifikanzniveau \(\alpha\) nicht 0.05, wie es normalerweise ist, sondern 0.1.

Der kritische Bereich ist das linke Ende der t-Verteilung, die „niedrigen“ Zahlen, denn die Alternativhypothese zielt auf Bereiche ab, in denen die Differenz stark negativ ist.

Für die kritische Schranke brauchen wir das 10%-Quantil der t-Verteilung mit 8 Freiheitsgraden. Laut t-Tabelle ist es -1.383.

Der kritische Bereich, in dem wir die Nullhypothese ablehnen, sind also alle Werte für \(T\), die kleiner als -1,383 sind.

Schritt 8: Testentscheidung treffen

Hier ist \(T=-2.942\), und der kritische Bereich ist alles was kleiner als -1,383 ist. Daher liegt die Prüfgröße im kritischen Bereich, und somit können wir die Nullhypothese bei dieser Untersuchung ablehnen.

Klausuraufgabe

Für ein neues Medikament soll geprüft werden, ob es einen Einfluss auf die Reaktionszeit von Patienten hat. Dabei sollen beide Seiten geprüft werden, also sowohl ob sie länger wird, als auch ob sie kürzer wird.

Dazu wird bei 8 Patienten die Reaktionszeit in einem kurzen Test gemessen: Man zeigt ein großes X auf dem Bildschirm, und misst die Zeit in Millisekunden (ms), bis die Person mit der Maus klickt.

Im Anschluß wird diesen Patienten eine Dosis des neuen Medikaments gegeben, und derselbe Test nochmal durchgeführt. Die Ergebnisse sind in der folgenden Tabelle zusammengefasst:

Person \(x_i\) Reaktionszeit vorher Reaktionszeit nachher
1 300ms 268ms
2 520ms 522ms
3 412ms 384ms
4 324ms 295ms
5 292ms 262ms
6 378ms 339ms
7 401ms 359ms
8 264ms 235ms

Führe einen Hypothesentest zum Niveau \(\alpha=0.1\) durch, um zu prüfen ob die mittlere Reaktionszeit durch das Medikament verändert wurde. Wir können für diese Aufgabe vereinfachend von einer Normalverteilung der Reaktionszeit ausgehen.

Lösung (klick)

Wir gehen nach den üblichen 8 Schritten beim Testen vor:

1. Hypothesen aufstellen

Da wir sowohl eine kürzere als auch eine längere Reaktionszeit entdecken möchten, verwenden wir hier einen zweiseitigen Test. Die Hypothesen lauten also erstmal

  • \(H_0: \mu_{\text{vorher}} = \mu_{\text{nachher}}\)
  • \(H_1: \mu_{\text{vorher}} \neq \mu_{\text{nachher}}\)

Wir sehen aber, dass es sich um eine verbundene Stichprobe handelt, daher können wir direkt die Differenzen der beiden Reaktionszeiten verwenden. Wenn wir uns nur auf diese Differenzen und ihren Mittelwert konzentrieren, können wir die Hypothesen umformen und vereinfachen:

  • \(H_0: \mu_d = 0\)
  • \(H_1: \mu_d \neq 0\)

2. Test wählen

Anhand der Tabelle zur Testwahl finden wir den passenden Test: Wir haben eine normalverteilte Zielgröße, und als Einflussgröße zwei Gruppen, die allerdings gepaart sind. Daher ist der gepaarte t-Test hier angebracht.

3. Signifikanzniveau festlegen

Das Niveau \(\alpha\) wird in Klausuraufgaben meist vorgegeben sein. Hier ist es \(\alpha = 0.1\)

4. Daten sammeln

Die rohen Daten sind schon gegeben, aber wir müssen noch die Differenzen berechnen. Für die erste Person erhalten wir z.B. 268ms – 300ms = -32ms, also eine um 32ms niedrigere Reaktionszeit. Insgesamt sind unsere Daten dann:

\[x = (-32, +2, -28, -29, -30, -39, -42, -29) \]

5. Prüfgröße berechnen

Ab hier geht es weiter wie beim Einstichproben-t-Test. Die Prüfgröße berechnet man durch

\[ T = \sqrt{n} \cdot \frac{\bar{x} \, – \, \mu_0}{s} \]

Die einzelnen Werte berechnen wir:

  • Die Stichprobengröße \(n = 8\)
  • Der Mittelwert \(\bar{x} = -28.375\)
  • Die Standardabweichung \(s = 13.298\)
  • Der unter \(H_0\) angenommene Mittelwert der Differenz. Da unter \(H_0\) die beiden Mittelwerte gleich sein sollen, wäre dann der Mittelwert der Differenz \(\mu_0 = 0 \)

Die Prüfgröße ist im Ergebnis also:

\[ T = \sqrt{8} \cdot \frac{-28.375 \, – \, 0}{13.298} = -6.035\]

6. Verteilung der Prüfgröße bestimmen

Falls die Nullhypothese gilt, dann ist unsere Prüfgröße \(T\) t-verteilt mit \(n-1\), also mit 7 Freiheitsgraden:

\[ T \sim t(7)\]

7. Kritischen Bereich (oder p-Wert) berechnen

Den kritischen Bereich erhalten wir aus der Tabelle der t-Verteilung. Da wir einen zweiseitigen Test verwenden, und das Signifikanzniveau aus dem 2. Schritt \(\alpha = 0.10\) ist, suchen wir zwei Schranken, auf der linken sowie rechten Seite der t-Verteilung, wo sich jeweils die äußeren 5%, also die Hälfte der 10% aus dem Signifikanzniveau 0.10 befinden. Wir brauchen also das 5%-Quantil sowie das 95%-Quantil der t-Verteilung mit 7 Freiheitsgraden.

Laut Tabelle ist das 95%-Quantil bei 7 Freiheitsgraden 1,895. Wegen der Symmetrie der t-Verteilung wissen wir dann auch, dass das 5%-Quantil genau das Negative des 95%-Quantils ist, also -1.895.

Falls also die Prüfgröße \(T\) kleiner als -1.895 oder größer als 1.895 ist, können wir die Nullhypothese ablehnen, andernfalls behalten wir sie bei.

8. Testentscheidung treffen

In Schritt 5 haben wir die Prüfgröße berechnet als \(T=-6.035\). In Schritt 7 haben wir den kritischen Bereich bestimmt als der Bereich kleiner als -1.895, und der Bereich größer als 1.895. Da die Prüfgröße extrem klein ist, liegt sie im kritischen Bereich (im linken Teil). Wir lehnen die Nullhypothese daher ab, und haben ausreichende Beweise für die Alternativhypothese \(H_1\) gefunden.

Wir können also schlussfolgernd nachweisen, dass die Reaktionszeit durch das Medikament verändert, und genauer gesagt verkürzt wurde.

Einstichproben-t-Test: Einzelnen Mittelwert testen

Wann verwendet man einen Einstichproben-t-Test?

Der t-Test ist wohl der bekannteste und am häufigsten verwendete Hypothesentest. Er kommt immer dann zum Einsatz, wenn man Hypothesen prüfen möchte, die Aussagen über einen Mittelwert treffen. Zwei Beispiele:

  • „Die Bahn kommt an diesem Bahnhof im Mittel mindestens 3 Minuten zu spät.“
  • „Der durchschnittliche Blutdruck von Rauchern ist höher als der von Nichtrauchern“

Im zweiten Beispiel, das mit dem Blutdruck, haben wir zwei Gruppen, müssen also zwei Stichproben erheben: Eine von einigen Rauchern, und eine zweite von einigen Nichtrauchern. Das wäre ein Zweistichproben-t-Test, dieser Fall wird im nächsten Artikel behandelt.

Der einfachere Spezialfall unter den t-Tests ist nun der Einstichproben-t-Test. Er wird immer dann verwendet, wenn man nur eine Stichprobe (d.h. keine Gruppen) hat, also nur einen einzelnen Mittelwert testen möchte – so wie es im ersten Beispiel, mit der Verspätung der Bahn, der Fall war.

Dieser Test heißt t-Test, weil die Prüfgröße eine t-Verteilung hat.

Einführende Artikel

Zum Einstieg sollte man sich zu Beginn die folgenden beiden Artikel durchlesen:

In ihnen beschreibe ich ganz allgemein die Schritte, mit denen man einen Hypothesentest durchführt. Dadurch werden die einzelnen Teile in diesem Artikel verständlicher.

Außerdem macht es Sinn, den Artikel zum Binomialtest zu lesen, da ich dort noch etwas ausführlicher beschrieben habe, wie man die allgemeinen Prinzipien auf einen speziellen Test anwendet. Falls hier etwas nur kurz beschrieben wird, dann ist es im Artikel zum BInomialtest evtl. ausführlicher verständlicher erklärt worden.

1. Hypothesen aufstellen

Beim t-Test gibt es, genau wie beim Binomialtest, drei verschiedene Möglichkeiten, seine Hypothesen zu formulieren. Welche Variante man verwenden muss, hängt von der Fragestellung ab, die man untersucht. Dazu drei Beispiele:

  1. Ein misstrauischer Oktoberfestbesucher möchte nachweisen, dass in den Maßkrügen im Durchschnitt weniger als 1 Liter Bier eingeschenkt wurde. Die Alternativhypothese muss also sagen, dass der MIttelwert kleiner als 1000ml ist. Insgesamt also:
    • \(H_0: \mu \geq 1000ml\)
    • \(H_1: \mu < 1000ml\)
  2. Ein Dorf behauptet, dass seine Bewohner im Mittel über 100 Jahre alt werden. Um das nachzuweisen, muss der Fall „erreichtes Lebensalter (\(\mu\)) ist über 100 Jahre“ in die Alternativhypothese \(H_1\) (warum das so ist, wird in diesem Artikel beschrieben). Die Hypothesen lauten also:
    • \(H_0: \mu \leq 100\)
    • \(H_1: \mu > 100\)
  3. In einer Fabrik werden Frühstücksmüslis in Packungen zu 750g abgefüllt. Die Qualitätssicherung überprüft, dass in eine Packung im Durchschnitt weder zu wenig noch zu viel Müsli gefüllt wird. Die Nullhypothese bezeichnet also den Normalzustand, \(\mu = 750g\), und die Alternativhypothese geht nun in beide Richtungen – insgesamt also:
    • \(H_0: \mu = 750g\)
    • \(H_1: \mu \neq 750g\)

Im restlichen Artikel verwende ich das dritte Beispiel mit den Müslipackungen, und zeige am Ende noch kurz, welche Veränderungen man in den anderen beiden Fällen vornehmen müsste.

2. Test wählen

Um die Abfolge der 8 Schritte nicht zu verändern, die wir in den beiden einführenden Artikeln aufgestellt haben (erster und zweiter Artikel), nehme ich hier den 2. Schritt auch mit auf. Es ist natürlich schon klar, dass wir einen Einstichproben-t-Test verwenden werden.

3. Signifikanzniveau festlegen

Wie in den vorherigen Artikeln schon beschrieben, legt das Signifikanzniveau die Wahrscheinlichkeit fest, mit der man einen bestimmten Fehler macht, nämlich die fälschliche Entscheidung dass die Alternativhypothese gilt, obwohl in Wirklichkeit die Nullhypothese wahr ist.

Allgemeiner Konsens ist hier ein Wert von 5%, also \(\alpha = 0.05\). In besonders kritischen Fragestellungen, z.B. solchen, die die menschliche Gesundheit betreffen, muß das Signifikanzniveau oft niedriger gewählt werden, der Test wird dann konservativer. Hier wählt man z.B. \(\alpha = 0.01\).

Für unsere Beispielaufgabe nehmen wir das übliche Signifikanzniveau von \(\alpha = 0.05\).

4. Daten sammeln

In einer Klausur oder Übung gibt es die Daten natürlich meist schon. Wenn man sie aber selber sammelt, müssen die Daten für einen Einstichproben-t-Test eigentlich nur eine lange Liste von Dezimalzahlen sein. Wir fassen diese Daten dann im 5. Schritt zusammen in zwei Werte, in unserem Beispiel erstens den Mittelwert der Daten, \(\bar{x}\), und zweitens die Standardabweichung, \(s\). Diese beiden Werte brauchen wir für den Einstichproben-t-Test.

In unserem Beispiel betrachten wir zehn Müslipackungen und wiegen ihren exakten Inhalt ab. Wir erhalten die folgenden Messwerte:

Packung \(x_i\) 1 2 3 4 5 6 7 8 9 10
Inhalt 749g 755g 757g 751g 743g 750g 752g 750g 757g 757g

5. Prüfgröße berechnen

Die Prüfgröße beim t-Test heißt \(T\), und setzt sich aus vier Zahlen zusammen:

  • Der Mittelwert der gemessenen Werte, \(\bar{x}\). Der Mittelwert der zehn Packungen bei uns ist 752.1g.
  • Die Standardabweichung der gemessenen Werte, \(s\). Hier ist die Standardabweichung 4.508. Eine ausführliche Erklärung dazu findest du in diesem Artikel.
  • Der „tatsächliche“ bzw. unterstellte Mittelwert \(\mu_0\). Da wir von einem Packungsinhalt von 750g ausgehen, ist bei uns \(\mu_0 = 750g\)
  • Wie groß die Stichprobe ist. Je mehr Daten man erhoben hat, desto genauer ist nämlich die Schätzung für den Mittelwert. Wir haben \(n=10\) Beobachtungen. In der Formel brauchen wir gleich die Wurzel aus dieser Zahl

Die Formel für die Berechnung der Prüfgröße lautet nun

\[ T = \sqrt{n} \cdot \frac{\bar{x} \, – \, \mu_0}{s} \]

Bei uns setzen wir also ein:

\[ T = \sqrt{10} \cdot \frac{752.1 \, – \, 750}{4.508} = 1.473 \]

Unsere Prüfgröße ist also \(T = 1.473\).

6. Verteilung der Prüfgröße bestimmen

Falls in Wirklichkeit tatsächlich durchschnittlich 750g in einer Müslipackung sind, dann ist der Mittelwert t-verteilt mit \(n-1\) Freiheitsgraden. Da unsere Prüfgröße \(T\) schon standardisiert ist, ist es ab jetzt egal, welchen Mittelwert \(\mu_0\) wir unterstellen, und welche Standardabweichung die Daten haben.

Die Bezeichnung „Freiheitsgrade“ ist ein wenig kompliziert, und ich bin der Meinung, dass man das Konzept nicht unbedingt verstehen muss – man kann das Wort ohne Probleme einfach so akzeptieren. Man muss sich nur merken, dass man bei einer Stichprobe der Größe \(n\) eben die t-Verteilung mit \(n-1\) Freiheitsgraden verwenden muss.

Bei unserem Beispiel ist \(n=10\), wir verwenden also die t-Verteilung mit \(n-1=9\) Freiheitsgraden:

\[ T \sim t(9) \]

7. Kritischen Bereich (oder p-Wert) berechnen

Den kritischen Bereich erhalten wir mit Hilfe einer Tabelle der t-Verteilung, die in einem eigenen Artikel erklärt wird. Wir suchen einen kritischen Bereich, in dem unser Ergebnis (d.h. die Prüfgröße \(T\)) nur zu 5% (das ist das SIgnifikanzniveau \(\alpha\)) fallen würde, falls die Nullhypothese gilt. Da wir hier einen zweiseitigen Test verwenden, teilen wir diese 5% auf in jeweils 2.5% links und 2.5% rechts. Man kann sich das so vorstellen, dass sowohl besonders kleine, als auch besonders große Werte von \(\bar{x}\) (und somit auch von \(T\)) gegen die Nullhypothese sprechen.

Mir hat es zum Verständnis immer geholfen, ein Diagramm zu zeichnen, um zu verstehen welche Werte wir suchen.

Wir suchen nun die beiden Grenzen, die den kritischen Bereich einrahmen. An der Grafik erkennt man schon, dass sie ein bisschen über der 2 liegen, vielleicht bei -2,3 und +2,3.

Die genauen Werte erhalten wir aus der Tabelle der t-Verteilung (im Artikel zur t-Verteilung ist auch genauer erklärt, wie man das macht). Die rechte Schranke ist das 97,5%-Quantil der t-Verteilung mit 9 Freiheitsgraden, und aus der Tabelle lesen wir den Wert 2,262 ab. Prüfe das am besten selbst nach, es ist für eine Klausur unerlässlich, das schnell und sicher zu können.

Die linke Schranke ist -2,262, denn da die t-Verteilung symmetrisch um 0 ist, können wir einfach den negativen Wert von der rechten Schranke (2,262) nehmen. Der kritische Bereich ist also der in der Grafik rot eingefärbte Bereich, es ist der Bereich außerhalb der beiden Schranken.

8. Testentscheidung treffen

Insgesamt wissen wir nun: Wenn unsere Prüfgröße \(T\) innerhalb des Bereichs [-2,262,  2,262] liegt, dann spricht das für die Nullhypothese. Liegt \(T\) aber außerhalb (also im kritischen, roten Bereich), dann können wir die Nullhypothese ablehnen, und unsere Testentscheidung fällt zugunsten der Alternativhypothese \(H_1\) aus.

In Schritt 5 haben wir \(T = 1.473\) ausgerechnet. Die Prüfgröße liegt also nicht im kritischen Bereich. Es ist also „alles in Ordnung“: Wir können weiterhin von der Nullhypothese ausgehen, und haben keinen Anlass dafür den Abfüllmechanismus in der Müslifabrik zu reparieren.

Änderungen bei den zwei anderen Beispielen

Im Beispiel dieses Artikels haben wir einen zweiseitigen t-Test durchgeführt. Falls man einen einseitigen t-Test rechnen möchte, so wie in den anderen beiden Beispielen die oben schon erwähnt wurden, dann ist der kritische Bereich nur auf einer Seite der möglichen Werte für die Prüfgröße \(T\). Im ersten Beispiel, das mit dem misstrauischen Oktoberfestbesucher, ist der kritische Bereich z.B. nur durch zu wenig befüllte Maßkrüge, also durch kleine Werte für die Prüfgröße gegeben. Der kritische Bereich dort wird also das linke Ende der t-Verteilung sein, und zwar die linken 5% (statt der 2,5%, die beim zweiseitigen Test verwendet wurden). Die Schranke, die den kritischen Bereich abgrenzt, ist das 5%-Quantil der t-Verteilung:

Wenn also die Prüfgröße \(T\) kleiner als ca. 1,9 ist (der genaue Wert hängt wieder von der Stichprobengröße, also der Anzahl der Freiheitsgrade ab), dann lehnen wir die Nullhypothese in diesem Fall ab.

Falls der Test allerdings einseitig nach rechts testet, z.B. beim 3. Beispiel (die Dorfbewohnern, die behaupten dass sie im Mittel über 100 Jahre werden), dann ist der kritische Bereich das rechte Ende der t-Verteilung. Hier bräuchten wir also das 95%-Quantil als Schranke zum kritischen Bereich:

Klausuraufgabe

Betrachten wir uns das zweite Beispiel, das ganz oben im Artikel schon angesprochen wurde:

Ein Dorf behauptet, dass seine Bewohner im Mittel über 100 Jahre alt werden. Um das zu überprüfen, wurde das erreichte Lebensalter der 7 zuletzt verstorbenen Personen notiert:

Person \(x_i\) 1 2 3 4 5 6 7
Alter 108 82 113 104 98 103 108

Wir können beim Alter für diese Aufgabe vereinfachend von einer Normalverteilung ausgehen. Verwende daher den Einstichproben-t-Test, um zu prüfen ob das durchschnittliche Alter wirklich größer als 100 ist.

Lösung (klick)

Wir gehen nach den üblichen 8 Schritten beim Testen vor:

1. Hypothesen aufstellen

Das Dorf möchte nachweisen, dass das durchschnittlich erreichte Alter größer als 100 Jahre ist. Die Alternativhypothese \(H_1\) muss also \(\mu > 100\) lauten. Die Nullhypothese \(H_0\) ist das „Gegenteil“ davon, also die andere Seite: \(\mu \leq 100\).

2. Test wählen

In der Aufgabe wird schon erwähnt, dass wir einen Einstichproben-t-Test durchführen sollen. Wir hätten es aber anhand der Tabelle zur Testwahl auch selbst herausfinden können: Wir haben eine normalverteilte Zielgröße, und keine Einflussgröße. Daher ist der Einstichproben-t-Test hier angebracht.

3. Signifikanzniveau festlegen

Das Niveau \(\alpha\) wird in Klausuraufgaben meist vorgegeben sein. Hier ist es \(\alpha = 0.05\)

4. Daten sammeln

Die Daten haben wir schon erhalten, und sind oben gegeben.

5. Prüfgröße berechnen

Die Prüfgröße berechnet man durch

\[ T = \sqrt{n} \cdot \frac{\bar{x} \, – \, \mu_0}{s} \]

Die einzelnen Werte berechnen wir:

  • Die Stichprobengröße \(n = 7\)
  • Der Mittelwert \(\bar{x} = 102.49\)
  • Die Standardabweichung \(s = 10.29\)
  • Der unter \(H_0\) angenommene Mittelwert \(\mu_0 = 100 \) Jahre. (Wir verwenden hier die Grenze des Alters, also genau die Schranke der 100 Jahre, von der behauptet wird dass sie überschritten wird.)

Die Prüfgröße ist im Ergebnis also:

\[ T = \sqrt{7} \cdot \frac{102.49 \, – \, 100}{10.29} = 0.625\]

6. Verteilung der Prüfgröße bestimmen

Falls die Nullhypothese gilt, und im günstigsten Fall die Menschen im Durchschnitt zwar 100 Jahre, aber nicht älter werden, d.h. der MIttelwert genau 100 Jahre ist, dann ist unsere Prüfgröße \(T\) am Ende t-verteilt mit \(n-1\), also mit 6 Freiheitsgraden:

\[ T \sim t(6)\]

7. Kritischen Bereich (oder p-Wert) berechnen

Den kritischen Bereich erhalten wir aus der Tabelle der t-Verteilung. Da wir einen einseitigen Test verwenden, und die Alternativhypothese nach rechts abzielt (weil wir größer als 100 Jahre nachweisen möchten), suchen wir die Schranke auf der rechten Seite der t-Verteilung – wir brauchen also das 95%-Quantil der t-Verteilung mit 6 Freiheitsgraden.

Laut Tabelle ist dieses Quantil 1,943. Falls also die Prüfgröße \(T\) größer ist als 1,943, können wir die Nullhypothese ablehnen, andernfalls behalten wir sie bei.

8. Testentscheidung treffen

In Schritt 5 haben wir die Prüfgröße berechnet als \(T=0.625\). In Schritt 7 haben wir den kritischen Bereich bestimmt als der Bereich oberhalb von 1,943. Da die Prüfgröße nicht im kritischen Bereich liegt, behalten wir die Nullhypothese bei.

Wir können also schlussfolgernd nicht nachweisen, dass die Bewohner in diesem Dorf im Durchschnitt signifikant älter als 100 Jahre werden.

Was kommt in H0, und was in H1?

Beim Testen muss man zuallererst die beiden Hypothesen aufstellen. Hier tun sich viele Studenten schwer – auch ich hatte damals Probleme – daher möchte ich hier nochmal genauer erläutern, welcher Teil in welche Hypothese kommt.

Das Wichtigste: Man kann \(H_0\) nie beweisen!

Es ist nicht das gleiche, \(H_0\) beizubehalten, und \(H_0\) zu beweisen. Um zurück auf das Beispiel mit dem unschuldigen Angeklagten (aus einem früheren Artikel) zu kommen:

Wenn ich beweisen möchte, dass der Angeklagte schuldig ist, muss ich meine Hypothesen so herum formulieren:

  • \(H_0\): Der Angeklagte ist unschuldig.
  • \(H_1\): Der Angeklagte ist schuldig

Wenn ich nun „Daten erhebe“, also in der Verhandlung Beweise gesammelt werden, dann tritt einer der folgenden zwei Fälle ein:

  • Es gibt genug Beweise für die Schuld des Angeklagten. Dann kann ich \(H_0\) ablehnen und habe \(H_1\) nachgewiesen, d.h. der Angeklagte ist (ziemlich sicher) schuldig. Die Antwort in diesem Fall lautet also: „\(H_1\) ist wahr“ (natürlich nur zu dem gewählten Signifikanzniveau).
  • Man hat keine (oder nicht genug) Beweise für die Schuld des Angeklagten gefunden. Damit habe ich aber \(H_0\) (also die Unschuld) nicht bewiesen! Nur weil keine Beweise für die Schuld gefunden wurden, können wir nicht sagen „wir haben bewiesen dass der Angeklagte unschuldig ist“. Die Antwort in dieser Situation lautet stattdessen: „Wir wissen es nicht“. In einer statistischen Auswertung sagt man dann zum Beispiel: „Es konnten keine Hinweise auf die Gültigkeit der Alternativhypothese gefunden werden.“

Man kann also \(H_0\) nie beweisen, sondern nur \(H_1\). Aus diesem Grund ist es so wichtig, dass man die Hypothesen richtig herum formuliert: Der Fall, den man nachweisen möchte, kommt in die Alternativhypothese. Die Metapher mit der Gerichtsverhandlung ist eine hilfreiche Eselsbrücke, um sich an dieses Vorgehen zu erinnern.

Ein Beispiel

Zwei Führungskräfte streiten sich: Kevin behauptet dass die Mitarbeiter ihrer Firma im Durchschnitt weniger als 6 Tage im Jahr krank sind, aber Falk ist davon überzeugt, dass sie mindestens 6 Tage im Jahrkrank sind.

Kevin möchte nun Recht bekommen, und nachweisen dass es weniger als 6 Tage sind. Das, was er beweisen möchte, muss in die Alternativhypothese \(H_1\). Die Nullhypothese wird „das Gegenteil“ davon, sozusagen der Status quo, von dem Kevin ausgehen muss, solange er nicht ausreichend Beweise für \(H_1\) gesammelt hat. Seine Hypothesen lauten also:

  • \(H_0\): Die Mitarbeiter fehlen mindestens 6 Tage pro Jahr
  • \(H_1\): Die Mitarbeiter fehlen weniger als 6 Tage pro Jahr

Wenn aber stattdessen Falk loszieht, Daten sammelt, und seine Vermutung beweisen will, möchte er ja genau das Gegenteil von Kevin beweisen. Seine Hypothesen werden also genau andersherum formuliert:

  • \(H_0\): Die Mitarbeiter fehlen weniger als 6 Tage pro Jahr
  • \(H_1\): Die Mitarbeiter fehlen mindestens 6 Tage pro Jahr

Wenn man dieses Beispiel verinnerlicht hat, sollte das Aufstellen beliebiger Hypothesen kein Problem mehr sein. Wichtig ist, sich zu merken, dass es bei jedem Hypothesentest zwei mögliche Ergebnisse gibt, und man nur eines davon wirklich beweisen kann. Meistens hat man eine Vorliebe für eines der beiden Ergebnisse (in einer Klausur sollte das auch klar ersichtlich sein), und das wird dann die Alternativhypothese \(H_1\).

Binomialtest: Anteile testen

Der Binomialtest ist in meinen Augen der Test, den man am einfachsten verstehen kann. Ich empfehle daher, sich zuerst mit diesem Test zu beschäftigen, wenn man in das Gebiet der statistischen Tests eintauchen möchte.

Einführende Artikel

Außerdem sollte man sich zu Beginn die folgenden beiden Artikel durchlesen:

In ihnen beschreibe ich ganz allgemein die Schritte, mit denen man einen Hypothesentest durchführt. Dadurch werden die einzelnen Teile in diesem Artikel verständlicher.

Wann verwendet man einen Binomialtest?

Der Binomialtest wird klassischerweise angewendet, wenn man eine Zielgröße mit zwei möglichen Ausprägungen hat (z.B. „ja“ und „nein“), und eine Vermutung über den Anteil an „ja“ überprüfen möchte.

Im Artikel Welchen statistischen Test soll ich wählen? erkläre ich ganz allgemein, wann welcher Test angebracht ist.

1. Hypothesen aufstellen

Beim Aufstellen der Hypothesen muss man genau auf seine zu untersuchende Fragestellung achten. Es gibt nämlich drei verschiedene Möglichkeiten, die ich kurz mit den folgenden drei Beispielproblemen illustriere:

  1. Dein Freund ist Basketballer, und möchte nachweisen, dass er im Durchschnitt mehr als 60% aller Würfe auf den Korb triffft. Man will also herausfinden, ob der Anteil an Treffern bei diesem Spieler größer als 60% ist.
  2. Der öffentliche Nahverkehr geht seit einer Weile von 3% Schwarzfahrern aus. Er hat momentan genau so viele Fahrkartenkontrolleure eingestellt, um mit diesem Anteil an Schwarzfahrern bestmöglich zurechtzukommen. Er möchte nun testen, ob sich der Anteil verringert hat, ob er also kleiner als 3% ist, und falls das so ist, die Anzahl der eingesetzten Kontrolleure verringern.
  3. Bei einem Online-Kleidungshandel wurden bisher \(\frac{1}{3}\) aller bestellten Artikel wieder zurückgesendet. Er möchte überprüfen, ob sich in diesem Monat die Retourenquote verändert hat (ob nach oben oder unten), ob sie also nicht mehr \(\frac{1}{3}\) ist.

Für diese drei Beispiele sehen die Hypothesen jeweils ein bisschen anders aus:

  1. Wir möchten prüfen, ob der Anteil \(p\) an Korbtreffern größer ist als 60% (also 0.6). Das heißt dass die Alternativhypothese besagen muss, dass p größer als 60% ist (der Grund dafür wird in diesem Artikel erklärt). Die Nullhypothese ist dann genau das Gegenteil, also insgesamt:
    • \(H_0: p \leq 0.6\)
    • \(H_1: p > 0.6\)

    Bemerkung: Beim Testen gehen wir ja von \(p = 0.6\) aus, also könnte man das auch so (statt mit \(\leq\)) in die Nullhypothese schreiben. Welche der beiden Varianten man wählt, hat aber keinen Einfluss auf den restlichen Test. Es wird in beiden Fällen gleich weitergerechnet, und es kommt am Ende auch das gleiche Ergebnis heraus. Ich bevorzuge die Variante mit \(\leq\), da man so mit den zwei Hypothesen alle denkbaren Wahrheiten abbildet, also auch die Fälle, wo \(p\) in Wirklichkeit kleiner als \(0.6\) ist.

  2. Hier interessiert uns, ob der Anteil an Schwarzfahrern kleiner ist als 3%. Aus denselben Gründen wie bisher setzen wir also:
    • \(H_0: p \geq 0.03\)
    • \(H_1: p < 0.03\)
  3. Dieser Test ist etwas speziell. Er nennt sich zweiseitiger Test, denn die Alternativhypothese \(H_1\) zielt in zwei Richtungen ab. Die Nullhypothese ist dann immer nur ein einziger Wert für \(p\) – in unserem Fall:
    • \(H_0: p = \frac{1}{3}\)
    • \(H_1: p \neq \frac{1}{3}\)

Im restlichen Artikel verwende ich das erste Beispiel mit den Schwarzfahrern, und zeige am Ende noch kurz, welche Veränderungen man in den anderen beiden Fällen vornehmen müsste.

2. Test wählen

Um die Abfolge der 8 Schritte nicht zu verändern, die wir in den beiden einführenden Artikeln aufgestellt haben (erster und zweiter Artikel), nehme ich hier den 2. Schritt auch mit auf. Es ist natürlich schon klar, dass wir einen Binomialtest verwenden werden.

3. Signifikanzniveau festlegen

Wie in den vorherigen Artikeln schon beschrieben, legt das Signifikanzniveau die Wahrscheinlichkeit fest, mit der man einen bestimmten Fehler macht, nämlich die fälschliche Entscheidung dass die Alternativhypothese gilt, obwohl in Wirklichkeit die Nullhypothese wahr ist.

Allgemeiner Konsens ist hier ein Wert von 5%, also \(\alpha = 0.05\). In besonders kritischen Fragestellungen, z.B. solchen, die die menschliche Gesundheit betreffen, muß das Signifikanzniveau oft niedriger gewählt werden, der Test wird dann konservativer. Hier wählt man z.B. \(\alpha = 0.01\).

Für unsere Beispielaufgabe nehmen wir das übliche Signifikanzniveau von \(\alpha = 0.05\).

4. Daten sammeln

In einer Klausur oder Übung gibt es die Daten natürlich meist schon. Wenn man sie aber selber sammelt, müssen die Daten für einen Binomialtest eigentlich nur eine lange Liste von „ja“ und „nein“-Antworten sein. Wir fassen diese Daten dann im 5. Schritt zusammen in zwei Werte, in unserem Beispiel erstens die gesamte Anzahl an Würfen, \(n\), und zweitens die Anzahl der Treffer. Das ist eine Zahl zwischen 0 und \(n\), die wir nun einfach \(x\) nennen. Diese beiden Werte brauchen wir für den Binomialtest.

Wir lassen unseren Freund 10 Bälle werfen, und notieren 7 Treffer.

5. Prüfgröße berechnen

Beim Binomialtest ist die Prüfgröße sehr einfach bestimmt: Es ist einfach \(x\), die Anzahl der Treffer. In diesem Beispiel ist \(x=7\).

6. Verteilung der Prüfgröße bestimmen

Falls die Nullhypothese gilt, dann ist die Prüfgröße \(x\), die Anzahl der Treffer, binomialverteilt. Wir haben \(n\) Bälle geworfen, und erwarten, falls \(H_0\) gilt, in etwa einen Anteil von \(p=0.6\) Treffern. Unsere Prüfgröße \(x\) hätte also die folgende Binomialverteilung:

\[ x \sim B(n, p) \]

In unserem Fall wäre die Anzahl der Treffer \(B(10, 0.6)\) verteilt.

Die Binomialverteilung ist im entsprechenden Artikel genauer erklärt.

7. Kritischen Bereich (oder p-Wert) berechnen

Der kritische Bereich ist der Bereich für \(x\), ab dem wir nicht mehr an \(H_0\), also an eine Trefferwahrscheinlichkeit von höchstens 60%, glauben können. Wir suchen also eine bestimmte Anzahl an Korbtreffern, die unser Spieler nur sehr unwahrscheinlich erreichen oder überschreiten würde, wenn er in Wahrheit durchschnittlich nur 60% aller Würfe trifft.

Der vorherige Satz in mathematisch (aber mit derselben Bedeutung) lautet: Wir suchen eine Grenze \(k\), die unser Spieler nur mit einer Wahrscheinlichkeit von \(\alpha = 0.05\) erreichen oder überschreiten würde, wenn in Wahrheit die Nullhypothese \(H_0\) gilt.

Und jetzt dasselbe noch mathematischer (aber immer noch dieselbe Aussage): Wir suchen ein \(k\), für das gilt, dass \(P(x \geq k)\) höchstens 0.05 ist, unter der Annahme dass \(p = 0.6\).

Und zuletzt die ganz kurze Formulierung derselben Idee: Wir suchen ein \(k\), so dass

\[ P(X \geq k | p = 0.6) \leq 0.05 \]

Die Schreibweise mit dem vertikalen Balken bezeichnet eine bedingte Wahrscheinlichkeit, p=0.6 ist also hier gegeben.

Es ist sehr hilfreich, sich im Voraus schon zu überlegen, auf welcher Seite der kritische Bereich liegen muss, denn so kommt man erstens leichter zum nächsten Schritt, und kann zweitens am Ende sein Ergebnis nochmal auf Plausibilität prüfen. Im Beispiel hier geht die Nullhypothese von wenigen Treffern aus, und die Alternativhypothese von vielen. Es ist also ein einseitiger Test. Der kritische Bereich muss also im Bereich von hohen Treffern für x liegen. Der kritische Bereich könnte z.B. {8, 9, 10} sein, vielleicht auch nur {9, 10}, aber er wird auf keinen Fall z.B. {1, 2, 9, 10} sein, denn niedrige Ergebnisse wie 1 oder 2 Treffer sprechen in diesem Beispiel nicht für die Alternativhypothese.

Bei der obigen Formulierung \(P(X \geq k)\) müssen wir direkt an die Verteilungsfunktion der Binomialverteilung denken. Die Grenze \(k\) können wir herausfinden, indem wir nacheinander die einzelnen Werte für die DIchte der „hohen“ Ergebnisse summieren, bis wir insgesamt über 5%, also unser Signfiikanzniveau \(\alpha=0.05\) kommen (die Formel der Dichte hier gibt es im Artikel zur Binomialverteilung):

  • \(P(X = 10) = {10 \choose 10} \cdot 0.6^{10} \cdot 0.4^{0} = 0.006\). Verstehe, was hier ausgesagt wird: Falls dein Freund nur 60% aller Bälle trifft, dann ist seine Wahrscheinlichkeit, alle 10 von 10 Versuchen zu treffen, nur 0.6%.
  • \(P(X = 9) = {10 \choose 9} \cdot 0.6^{9} \cdot 0.4^{1} = 0.040\). Jetzt wissen wir, dass die Wahrscheinlichkeit für mindestens 9 Treffer 0.040 + 0.006, also 0.046 ist. Das ist noch ganz knapp unter dem Signifikanzniveau \(\alpha=0.05\). Eine Grenze von \(k=9\) würde der Basketballer also nur zu 4.6% erreichen oder überschreiten.
  • \(P(X = 8) = {10 \choose 8} \cdot 0.6^{8} \cdot 0.4^{2} = 0.121\). Die Wahrscheinlichkeit für mindestens 8 Treffer ist also 0.121 + 0.040 + 0.006 = 0.167. Jetzt können wir aufhören mit dem Dichten berechnen. Denn eine Grenze von \(k=8\) ist zu niedrig gewählt, sie erreicht der Spieler zu 16.7%.

Die Schranke für den kritischen Bereich liegt also bei 9 Körben. Daher ist der kritische Bereich {9, 10}. Die Schlussfolgerung: Wenn unser Spieler bei 10 Würfen mindestens 9 Körbe trifft, dann kann er behaupten, signifikant nachgewiesen zu haben, mehr als 60% aller Körbe zu treffen. Bei z.B. 7 Treffern hat er zwar mehr als 60% getroffen, aber es ist noch viel zu wahrscheinlich, dass er das nur durch Zufall geschafft hätte. Man könnte auch ausrechnen, wie wahrscheinlich es wäre, mindestens 7 Treffer zu erhalten (es passiert zu 38.2%, wer es gerne nachrechnen möchte).

8. Testentscheidung treffen

Da unser Spieler 7 Treffer erzielt hat, aber unser kritischer Bereich bei 9 und 10 Treffern liegt, können wir die Nullhypothese nicht ablehnen. Der Basketballer konnte nicht genügend Beweise für die Alternativhypothese liefern.

Änderungen bei den zwei anderen Beispielen

Für Beispiel 2, das mit den Schwarzfahrern, und Beispiel 3, das mit den Retouren beim Online-Kleidungshandel, ändern sich nur die Schritte 1 und 6. Wir erstellen andere Hypothesen, und wir berechnen den kritischen Bereich anders.

In Beispiel 2 möchten wir ja nachweisen, dass besonders wenige Schwarzfahrer unterwegs sind. Daher ist der kritische Bereich dann nicht am oberen Ende der möglichen Ergebnisse, sondern am unteren Ende. Wir würden beim „Abzählen“, das wir im Schritt 6 gemacht haben, nicht oben, bei \(n\), beginnen, sondern eben unten, ab 0. Dann erhalten wir einen Bereich mit „sehr niedrigen“ Ergebnissen, die zusammen nur in 5% der Fälle vorkommen würden.

In Beispiel 3 müssen wir etwas umständlicher vorgehen, und beide Bereiche abzählen, aber jeweils nur 2.5% (bzw. allgemein \(\frac{\alpha}{2}\)) der Wahrscheinlichkeit verteilen. Wir zählen also unten ab, bis wir bei maximal 2.5% angekommen sind, und dann dasselbe nochmal von oben.

Klausuraufgabe

Dein Freund ist Pokerspieler, und behauptet, Bluffs sehr gut erkennen zu können. Insbesondere sagt er, dass er mehr als 50% aller Bluffs erkennt – er ist also besser als wenn er nur zufällig raten würde.

Ihr startet also mit ein Experiment: Du bekommst zehnmal hintereinander Karten, und musst damit dann entweder bluffen oder die Wahrheit sagen. Dein Freund rät, ob du die Wahrheit sagst oder bluffst.

Am Ende liegt dein Freund in 7 von 10 Fällen richtig.

Führe einen Binomialtest zum Signifikanzniveau von \(\alpha = 0.05\) durch, um zu überprüfen ob dieses Experiment signifikant nachgewiesen hat, dass die Erkennungsquote über 50% liegt.

Habt ihr mit eurem Experiment signifikant nachgewiesen dass er in mehr als 50% der Fälle richtig liegt, oder kann dieses Ergebnis noch durch Zufall erklärt werden?

Lösung (klick)

Wir gehen nach den üblichen 8 Schritten beim Testen vor:

1. Hypothesen aufstellen

Wir möchten nachweisen, dass der Anteil größer als 50% ist. Die Alternativhypothese \(H_1\) muss also \(p > 0.5\) lauten. Die Nullhypothese \(H_0\) ist das „Gegenteil“ davon, also die andere Seite: \(p \leq 0.5\).

Die Nullhypothese bezeichnet den Status Quo, den Normalzustand, das „alles in Ordnung“. Die Alternativhypothese bezeichnet die Situation, in der sich etwas geändert hat, in der unsere Untersuchung „Erfolg“ hat.

Die Wahl der Null- und Alternativhypothese wird im Artikel „Was kommt in \(H_0\), und was in \(H_1\)?“ genauer erklärt.

2. Test wählen

In der Aufgabe wird schon erwähnt, dass wir einen Binomialtest durchführen sollen. Wir hätten es aber anhand der Tabelle zur Testwahl auch selbst herausfinden können: Wir haben eine nominale Zielgröße mit zwei Gruppen (dein Freund rät richtig bzw. falsch), und keine Einflussgröße. Daher ist der Binomialtest hier angebracht.

3. Signifikanzniveau festlegen

Das Niveau \(\alpha\) wird in Klausuraufgaben meist vorgegeben sein. Hier ist es \(\alpha = 0.05\)

4. Daten sammeln

Die Daten haben wir auch schon zusammengefasst erhalten: 10 Experimente, und davon 7 Erfolge. Das entspricht einer Erfolgsquote von 0.7.

5. Prüfgröße berechnen

Die Prüfgröße beim Binomialtest ist einfach die Anzahl der Erfolge. Hier ist also \(x=7\).

6. Verteilung der Prüfgröße bestimmen

Wichtig: Die Verteilung, die wir hier bestimmen, gilt nur falls die Nullhypothese wahr ist. Bei uns ist \(H_0 \leq 0.5\). Da das ein ganzer Bereich ist, also alles kleiner als 0.5, gehen wir nun vom „bestmöglichen“ Fall aus, also von dem Fall der am nähesten an der Grenze zur Alternativhypothese ist: \(p = 0.5\).

Da es darum geht, einen Anteil zu testen, müssen wir hier einen Binomialtest durchführen. Die Zielgröße ist dann allgemein binomialverteilt, also \(x \sim B(n, p)\). Hier ist \(n\) die Anzahl der Experimente, und \(p\) die Erfolgswahrscheinlichkeit in der Nullhypothese.

Wenn dein Freund also zufällig rät, ob du bluffst oder nicht, dann ist bei 10 Versuchen die Anzahl \(x\) der Treffer binomialverteilt mit:

\[ x \sim B(10, 0.5)\]

7. Kritischen Bereich (oder p-Wert) berechnen

Wir berechnen den kritischen Bereich genauso wie im Artikel oben erklärt: Wieviele Bluffs erkennt oder überschreitet der Pokerspieler mit einer Wahrscheinlichkeit von weniger als \(\alpha=0.05\)?

Wir suchen die Grenze \(k\), für die gilt, dass der Pokerspieler mit einer gesamten Wahrscheinlichkeit von höchstens \(\alpha=0.05\) soviele oder mehr Treffer erreichen kann. (Die Bestimmung dieser Schranke wurde oben im Artikel nochmal genauer erklärt)

Dazu berechnen wir die Wahrscheinlichkeiten der einzelnen Ereignisse separat:

  • \(P(X = 10) = {10 \choose 10} \cdot 0.5^{10} \cdot 0.5^{0} = 0.00098\).
  • \(P(X = 9) = {10 \choose 9} \cdot 0.5^{9} \cdot 0.5^{1} = 0.00978\).
  • \(P(X = 8) = {10 \choose 8} \cdot 0.5^{8} \cdot 0.5^{2} = 0.0439\).
  • \(P(X = 7) = {10 \choose 7} \cdot 0.5^{7} \cdot 0.5^{3} = 0.1172\).

Falls dein Freund nur rät, ist die Wahrscheinlichkeit dass er alle 10 Experimente richtig erkennt („Bluff oder nicht?“), nur 0.0098, also ca. 0.1%.

Die Wahrscheinlichkeit für 8 oder mehr Treffer ist 0.0439 + 0.00978 + 0.00098 = 0.05466. Das ist noch ein bisschen zu hoch, denn es ist höher als \(\alpha=0.05\).

Der kritische Bereich liegt also bei 9 oder 10 Treffern. Dein Freund muss 9 oder 10 Experimente richtig erkennen, damit man signifikant nachweisen kann, dass er besser als 50%, also besser als der Zufall ist.

8. Testentscheidung treffen

Da dein Freund nur 7 von 10 Experimenten richtig erkannt hat, aber ein signifikantes Ergebnis erst bei 9 oder 10 Treffern nachgewiesen werden kann, müssen wir bei diesem Test die Nullhypothese beibehalten.

Dein Freund hat zwar in 7 von 10 Situationen, also in 70% der Fälle Recht gehabt. Es konnte aber noch nicht signifikant nachgewiesen werden, dass dein Freund Bluffs besser als der Zufall erkennen kann. Die 7 von 10 Treffern könnten nämlich noch durch den Zufall, also durch reines Glück, erklärbar sein.

Kategorien als Einflussgrößen

Die bisherigen Artikel zur linearen Regression haben sich mit einem Beispiel beschäftigt, in dem wir die Ringgröße für eine Freundin möglichst genau schätzen wollen, um ihr unbemerkt einen (passenden!) Ring zu kaufen.

Zuerst haben wir die Ringgröße anhand ihrer Körpergröße geschätzt (eine einfache lineare Regression). Danach haben wir zusätzlich ihr Gewicht und ihr Alter verwendet, um mit drei Einflussgrößen eine genauere, sicherere Schätzung zu bekommen (die multiple lineare Regression).

Alle diese Variablen waren verhältnisskaliert, also Zahlen, die in diesem Fall von 0 bis unendlich gehen können. Es gibt aber nun noch andere Variablentypen, z.B. nominalskalierte Variablen, wie etwa der Beruf einer Person. Was wäre zum Beispiel, wenn unsere Freundin Handwerkerin ist, und wir wissen, dass Handwerker tendenziell kräftigere, größere Finger haben als Büroarbeiter?

Diese Information ist sicher hilfreich für uns, und wir möchten sie in unserer Regression berücksichtigen.

Wie behandelt man eine ja/nein-Kovariable?

Denken wir nochmal kurz zürück an das Beispiel aus dem Artikel zur einfachen linearen Regression: Wir haben eine EInflussgröße \(x\), die Körpergröße, die stetig und intervallskaliert ist. Die Zielgröße \(y\), die Ringgröße, sagen wir nun vorher durch eine Gerade:

Diese Gerade wird durch zwei Parameter, \(a\) und \(b\) beschrieben:

\[ y = a + b \cdot x \]

In unserem Beispiel haben wir die Parameter bestimmt als \(a = 2.8457\) und \(b = 0.2836\), die „fertige“ Regressionsgerade, die man auch in dem Bild oben sieht, lautet also

\[y = 2.8457 + 0.2836 \cdot x\]

Wie würde aber nun ein Regressionsmodell aussehen, das nur aus einer ja/nein-Kovariable besteht – z.B. die Kovariable „Handwerker“? Für dieses kurze Gedankenexperiment ignorieren wir die Körpergröße also.

Wir verwenden dieselbe Gleichung für das Modell, \( y = a + b \cdot x \), aber die Kovariable \(x\) kann nur die Werte „ja“ und „nein“ annehmen. Wir müssen die zwei Werte natürlich in zwei Zahlen kodieren. Die Wahl die das spätere Rechnen am einfachsten macht, ist die 0 für „nein“, und die 1 für „ja“. Für eine Person wäre also \(x=1\) wenn sie einen Handwerkerberuf hat, und \(x=0\), wenn nicht.

Diese Wahl hat einen schönen Vorteil: Die Gleichung wird sehr einfach. Wenn nämlich \(x=0\) ist, dann wird aus der Regressionsgleichung nur noch \(y = a\), weil ja der zweite Teil \(b\cdot x = 0\) (da \(x=0\) ist). Schauen wir uns mal eine „fertige“ Regression mit fiktiven Werten als Beispiel an:

\[y = 48.5 + 1.5 \cdot x \]

Was bedeutet das nun, wenn die Kovariable \(x\) für die Frage „Handwerker?“ steht? Die Variable kann nur zwei Werte annehmen, entweder 0 oder 1. Das heißt auch, dass die Vorhersage für \(y\) nur zwei Werte annehmen kann: Für Nichthandwerker, also z.B. Büroangestellte, ist ja \(x=0\), also wird die Vorhersage für die Ringgröße \(y = 48.5 + 0 \cdot 1.5 = 48.5\) sein. Und für Handwerker prognostizieren wir \(y = 48.5 + 1 \cdot 1.5 = 50\), also einen Ring der Größe 50.

Dieses Modell ist auch sehr einfach zu interpretieren: Die Vorhersage für Nichthandwerker liest man direkt aus dem Intercept, also \(a\), ab: 48.5cm. Und der Parameter \(b\) sagt uns, wieviel größer (oder evtl. kleiner) die Vorhersage für Handwerker wird: 1.5cm.

Das ist dann auch schon fast das ganze Geheimnis hinter kategorialen Kovariablen.

Stetige und kategoriale Einflussgrößen gemischt

Wir haben ja schon ein Regressionsmodell mit mehreren Einflussgrößen gesehen, die multiple Regression. Wir können die eben betrachtete kategoriale Einflussgröße nun genauso wie eine stetige Einflussgröße zusätzlich in das Modell aufnehmen.

Nennen wir die Einflussgröße für die Frage „Handwerker?“ \(x_1\), und die bereits bekannte EInflussgröße für die Körpergröße \(x_2\). Dann haben wir das folgende Regressionsmodell:

\[y = a + b_1 x_1 + b_2 x_2\]

Hierbei kann \(x_1\) nur die Werte 0 oder 1 annehmen, aber \(x_2\) als stetige Kovariable alle möglichen Körpergrößen.

Wenn wir nun Daten sammeln, und daraus die Parameter \(a, b_1, b_2\) schätzen wollen, kommt vielleicht das folgende fertige Modell dabei raus:

\[y = 0.16 + 0.28\cdot x_1 + 0.94\cdot x_2\]

Für eine Person mit \(x_1=168\text{cm}\) Körpergröße und einem Job als Handwerker (\(x_2=1\)) prognostizieren wir also eine Ringgröße von \(y=0.16+0.28\cdot 168 + 0.94\cdot 1 = 48.14\) – also sollte ein Ring der Größe 48 hoffentlich passen.

Einflussgrößen mit mehr als zwei Kategorien

Ein Problem gibt es noch: Wie gehen wir mit einer Einflussgröße vor, die nicht nur zwei mögliche Ausprägungen „ja/nein“, hat, sondern mehrere?

Ein Beispiel: Eine neue Einflussgröße „Sport“. Für die Ringgröße ist wohl wichtig, ob die Person Gewichte stemmt oder Marathon läuft. Wir haben also z.B. die Auswahlmöglichkeiten „kein Sport“, „Joggen“ „Klettern“, „Gewichtheben“.

Es wäre falsch, nun einfach eine Variable \(x_1\) anzulegen, die für diese Sportarten die Werte „kein Sport = 0“, „Joggen = 1“, „Klettern = 2“, und „Gewichtheben = 3“ annehmen kann. Das Problem ist, dass wir dann nur einen Parameter \(b_1\) erhalten, und z.B. der Unterschied zwischen „kein Sport“ und „joggen“ genauso groß sein muss wie der zwischen „Joggen“ und „Klettern“. Das kann man nachprüfen, indem man für Nichtsportler \(0\cdot b_1\) vergleicht mit \(1\cdot b_1\) für Jogger und \(2\cdot b_1\) für Kletterer. Falls sich aber die Ringgröße z.B. zwischen Joggern und Kletterern gar nicht unterscheidet, könnte unser Modell das gar nicht abbilden. Fachlich heißt das: Wir unterstellen einen linearen Zusammenhang, wo es gar keinen gibt.

WIe lösen wir dieses Problem nun am besten?

Wir müssen einen kleinen Umweg gehen, indem wir die eine Einflussgröße mit vier Kategorien aufteilen in drei separate Einflussgrößen mit jeweils zwei Kategorien „ja/nein“:

  • \(x_1\): Joggen, ja/nein?
  • \(x_2\): Klettern, ja/nein?
  • \(x_3\): Gewichtheben, ja/nein?

Für eine bestimmte Person ist dann höchstens eine dieser drei Einflussgrößen 1, alle anderen sind 0. Ein Gewichtheber hätte also \(x_1=0\), \(x_2 = 0\), und \(x_3=1\). Für den Fall „kein Sport“ brauchen wir keine extra Einflussgröße, denn diese Möglichkeit ergibt sich automatisch, wenn wir \(x_1=0\), \(x_2=0\), und \(x_3=0\) setzen – dann bleibt ja keine andere Möglichkeit übrig. (Es hat auch einen mathematischen Grund, warum wir das so lösen müssen – die Regression wäre nämlich sonst nicht eindeutig lösbar – aber darauf möchte ich hier nicht eingehen.)

Ein einfaches lineares Modell mit nur der Einflussgröße „Sport?“ sähe also so aus:

\[y = a + b_1 \cdot x_1 + b_2 \cdot x_2 + b_3\cdot x3\]

Es hätte vier Parameter. Man kann sich ausrechnen, dass in diesem Modell die vorhergesagte Ringgröße für jemanden der keinen Sport macht, genau \(a\) ist – denn alle anderen \(x_i\) sind ja Null.

Die Kontrolle, ob du diesen Teil verstanden hast, ist, dass du erklären kannst, warum unsere Vorhersage für einen Gewichtheber nun genau \(a+b_3\) ist. Ich hoffe, ich konnte das hier gut genug erklären – falls nicht, kannst du in den Kommentaren unten gerne nochmal nachfragen, ich passe den Artikel dann nochmal an.

Beispielaufgabe

Ein Forschungslabor untersucht die Auswirkung eines neuen Medikaments auf die Reaktionszeit (in Millisekunden) von Patienten. Es möchte erstens herausfinden, ob die Höhe der Dosis einen Einfluss hat, und zweitens, ob die Schwere der Krankheit einen Einfluss hat. Die Einflussgröße \(x_1\), die Dosis, wird in Milligramm (mg) als stetige Variable gemessen, und die Schwere der Krankheit als kategoriale Variable mit den Ausprägungen „gesund“, „leicht krank“, und „schwer krank“. Die kategoriale Variable wird durch eine Dummykodierung in das Modell eingefügt: Dabei wird „gesund“ als Referenzkategorie verwendet, und „leicht krank“ wird durch \(x_\text{leicht}\) dargestellt (d.h. \(x_\text{leicht}=1\) wenn der Patient „leicht krank“ ist, und \(x_\text{leicht}=0\) falls er gesund oder schwer krank ist). Die Einflussgröße \(x_\text{schwer}\) ist 1 wenn der Patient „schwer krank“ ist, und 0 falls er gesund oder leicht krank ist. Für eine gesunde Person ist also \(x_\text{leicht}=0\) und \(x_\text{schwer}=0\).

Es wurden 20 Patienten untersucht, und die Ergebnisse der Regression in der folgenden Tabelle zusammengefasst:

Parameter Schätzer p-Wert
\(a\) 328.22 0.000
\(b_1\) 0.95 0.003
\(b_\text{leicht}\) 47.67 0.406
\(b_\text{schwer}\) 141.21 0.019

Die Regressionsgerade für die Zielgröße \(y\), die Reaktionszeit in Sekunden, lautet also:

\[ y = 328.22 + 0.95 \cdot x_1 + 47.67 \cdot x_\text{leicht} + 141.21 \cdot x_\text{schwer} \]

  • a) Interpretiere die drei Parameter \(b_1, b_\text{leicht}, b_\text{schwer}\). Was bedeuten sie für die Reaktionszeit von Patienten?
  • b) Interpretiere die drei p-Werte für die drei \(b\)-Parameter. Wir geben ein Signifikanzniveau von \(\alpha=0.05\) vor.
  • c) Prognostiziere die erwartete Reaktionszeit für einen gesunden Patienten, der eine Dosis von 100mg bekommt.
  • d) Prognostiziere die erwartete Reaktionszeit für einen leicht kranken Patienten, der eine Dosis von 10mg bekommt.
Lösung (klick)

a)

\(b_1\) ist der Einfluss für die metrische Variable „Dosis“. Das bedeutet hier: Wenn die Dosis für einen Patienten um 1mg erhöht wird, erwarten wir, dass seine Reaktionszeit um 0.95 Millisekunden steigt (Vorsicht: nicht „um 0.95 Sekunden“! Denn in der Datenerhebung wurde sie in Millisekunden gemessen). Der Einfluss ist positiv, d.h. eine höhere Dosis führt zu einer höheren Reaktionszeit

Der Parameter \(b_\text{leicht}\) beschreibt, wie sehr sich die Reaktionszeit eines leicht kranken Patienten gegenüber eines gesunden Patienten unterscheidet. Der gesunde Patient hat in diesem Modell keinen Parameter, er ist die Referenzkategorie (siehe auch Aufgabe c)). Die Parameter für eine kategoriale Variable bschreiben hier immer die Abweichung zur Referenzkategorie. Ein leicht kranker Patient hat also eine um \(b_\text{leicht}\) = 47.67 Millisekunden langsamere (d.h. höhere) Reaktionszeit als ein gesunder Patient.

Analog dazu hat ein schwer kranker Patient eine um \(b_\text{schwer}\) = 141.21 Millisekunden höhere Reaktionszeit als ein gesunder Patient.

Man kann sich nun auch ausrechnen, dass der Unterschied eines schwer kranken zu einem leicht kranken Patienten genau die Differenz \(b_\text{schwer} – b_\text{leicht}\) ist: \(141.21 – 47.67 = 93.54\). Ein schwer kranker Patient hat also im Mittel eine um 93.54 Millisekunden höhere Reaktionszeit als ein leicht kranker.

b)

\(b_1\) ist mit einem p-Wert von 0.003 signifikant, denn der p-Wert ist kleiner als das vorgegebene Signifikanzniveau von \(\alpha=0.05\). Damit hat dieses Regressionsmodell gezeigt, dass die Dosis einen signifikanten Einfluss auf die Reaktionszeit hat.

\(b_\text{leicht}\) ist mit einem p-Wert von 0.406 nicht signifikant. Wir konnten nicht nachweisen, dass ein leicht kranker Patient langsamer reagiert als ein gesunder.

\(b_\text{schwer}\) ist mit einem p-Wert von 0.019 allerdings wieder signifikant. Wir konnten also hier nachweisen, dass ein schwer kranker Patient langsamer reagiert als ein gesunder.

c)

Wir setzen einfach in die Regressionsgleichung ein:

– \(x_1 = 100\)
– \(x_\text{leicht} = 0\)
– \(x_\text{schwer} = 0\)

Damit erhalten wir als Prognose:

\[ y = 328.22 + 0.95 \cdot 100 + 47.67 \cdot 0 + 141.21 \cdot 0 = 423.22 \]

Wir erwarten also eine Reaktionszeit von 423.22 Millisekunden.

d)

Analog zu Aufgabe c), allerdings ist der Patient jetzt leicht krank:

– \(x_1 = 10\)
– \(x_\text{leicht} = 1\)
– \(x_\text{schwer} = 0\)

Damit erhalten wir als Prognose:

\[ y = 328.22 + 0.95 \cdot 10 + 47.67 \cdot 1 + 141.21 \cdot 0 = 385.39 \]

Wir erwarten also eine Reaktionszeit von 385.39 Millisekunden.

Klausuraufgabe

In einer Großstadt wird die Abgasbelastung durch Autos zu einem Problem. Mit einem Regressionsmodell möchte man nun ausrechnen, wovon die Belastung abhängig ist. Man vermutet einen Zusammenhang mit der Außentemperatur. Außerdem vermutet man, dass an Arbeitstagen die Belastung wegen der Berufspendler höher ist.

Als Zielgröße verwendet man \(y\), den Anteil an Kohlenmonoxid (kurz: CO) in der Luft. Er wird in Milligramm pro Kubikmeter (\(\frac{\text{mg}}{m^3}\)) gemessen, und im Bereich von 0 bis 5 ist alles im grünen Bereich. Eine hohe Belastung ist ab ca. 8 \(\frac{\text{mg}}{m^3}\) gegeben.

Die Einflussgrößen sind \(x_1\), die Außentemperatur in °C, sowie eine kategoriale Variable für den Arbeitstag, mit den Ausprägungen „Arbeitstag“, „Wochenende“, und „Feiertag“. Die kategoriale Variable wird durch eine Dummykodierung in das Modell eingefügt: Dabei wird „Arbeitstag“ als Referenzkategorie verwendet, und „Wochenende“ wird durch \(x_\text{WE}\) dargestellt (d.h. \(x_\text{WE}=1\) wenn an diesem Tag Wochenende ist, und \(x_\text{WE}=0\) falls nicht). Die Einflussgröße \(x_\text{F}\) ist 1 wenn es Feiertag ist, und 0 falls es Arbeitstag oder Wochenende ist. An einem Arbeitstag ist also \(x_\text{WE}=0\) und \(x_\text{F}=0\).

Über das letzte Jahr wurde an 365 Tagen die CO-Belastung gemessen und ein Regressionsmodell gerechnet. Die Ergebnisse sind in der folgenden Tabelle zusammengefasst:

Parameter Schätzer p-Wert
\(a\) 1.94 0.000
\(b_1\) 0.03 0.019
\(b_\text{WE}\) -2.01 0.006
\(b_\text{F}\) -1.98 0.623

Die Regressionsgerade für die Zielgröße \(y\), die Reaktionszeit in Sekunden, lautet also:

\[ y = 1.94 + 0.03 \cdot x_1 – 2.01 \cdot x_\text{WE} – 1.98 \cdot x_\text{F} \]

a) Interpretiere die drei Parameter \(b_1, b_\text{WE}, b_\text{F}\). Was bedeuten sie für die CO-Belastung in der Luft?

b) Interpretiere die drei p-Werte für die drei \(b\)-Parameter. Wir geben ein Signifikanzniveau von \(\alpha=0.05\) vor.

c) Prognostiziere die erwartete CO-Belastung an einem Arbeitstag mit -8°C Temperatur.

d) Prognostiziere die erwartete Reaktionszeit an einem Feiertag mit 24°C Temperatur.

Lösung (klick)

a)

Der Parameter \(b_1\) sagt uns, um wieviel sich \(y\), also die CO-Konzentration, verändert, wenn die Außentemperatur um 1°C steigt. Da \(b_1\) hier 0.03 ist, haben wir einen positiven Zusammenhang: Die CO-Konzentration steigt mit höherer Außentemperatur, und zwar um 0.03 \(\frac{\text{mg}}{m^3}\) pro zusätzlichem °C.

Da \(b_\text{WE}\) negativ ist, hat das Wochenende einen negativen Einfluss auf die CO-Konzentration. An Wochenenden erwarten wir 2.01 \(\frac{\text{mg}}{m^3}\) weniger CO in der Luft.

An Feiertagen erwarten wir ebenso weniger CO in der Luft, nämlich 1.98 \(\frac{\text{mg}}{m^3}\) weniger.

Da \(b_\text{WE}\) ungefähr gleich groß ist wie \(b_\text{F}\), können wir schon mal vermuten, dass es keinen Unterschied macht ob heute Wochenende oder Feiertag ist: Beide Situationen haben einen ähnlichen (negativen) Einfluss auf die Schadstoffkonzentration.

b)

\(b_1\) ist signifikant, da sein p-Wert mit 0.019 kleiner ist als \(\alpha=0.05\). Wir konnten also mit dieser Regression nachweisen, dass die Außentemperatur einen signifikanten Einfluss auf die CO-Konzentration in der Luft hat.

Ebenso ist \(b_\text{WE}\) signifikant. Am Wochenende ist die Luftqualität also nachweislich besser als an Arbeitstagen.

Aber \(b_\text{F}\) ist nicht signifikant – der p-Wert beträgt 0.623. Wir konnten hier nicht nachweisen dass an Feiertagen eine unterschiedliche CO-Konzentration herrscht wie an Arbeitstagen. Das kann allerdings daran liegen, dass unsere Stichprobe zu klein war: Wir hatten als Stichprobe nur ein Jahr, also \(n=365\), und es gibt nicht so viele Feiertage in 365 Tagen. Mit einer größeren Stichprobe könnte es sein, dass dieser Parameter auch noch signifikant wird.

c)

Unsere Regressionsgerade lautet:

\[ y = 1.94 + 0.03 \cdot x_1 – 2.01 \cdot x_\text{WE} – 1.98 \cdot x_\text{F} \]

Wir setzen also ein: \(x_1 = -8\) (Vorsicht mit dem Minus!), und \(x_\text{WE} = 0\), und \(x_\text{F}=0\). Damit erhalten wir:

\[ y = 1.94 + 0.03 \cdot (-8) – 2.01 \cdot 0 – 1.98 \cdot 0 = 1.7 \]

Wir erwarten also eine CO-Konzentration von \(1.7 \frac{\text{mg}}{m^3}\).

d)

Analog zu Aufgabe c) setzen wir hier ein: \(x_1 = 24\), und \(x_\text{WE} = 0\), und \(x_\text{F}=1\). Damit erhalten wir:

\[ y = 1.94 + 0.03 \cdot 24 – 2.01 \cdot 0 – 1.98 \cdot 1 = 0.68 \]

Wir erwarten also eine CO-Konzentration von \(0.68 \frac{\text{mg}}{m^3}\).

Modellannahmen der linearen Regression

Behaltet im Kopf, was die lineare Regression macht. Sie zeichnet eine Gerade durch ein Streudiagramm. Das funktioniert in vielen Fällen gut, aber in anderen Fällen leiten die Ergebnisse zu Fehlschlüssen.

Hier ist ein Beispiel: Es wurde auf einer Teststrecke für 100 Autos deren Geschwindigkeit gemessen, und dann der Bremsweg bei einer Vollbremsung. Wer sich noch an die Fahrschule erinnert, weiß, dass der Bremsweg annähernd so berechnet werden kann:

\[ x = \frac{v}{10} \cdot \frac{v}{10} \cdot \frac{1}{2} \]

Das ist eine quadratische Formel. Sie lässt sich kürzen zu \(x = v^2 / 200\). Misst man jetzt auf der Teststrecke 100 Autos, könnte das Ergebnis so aussehen:

 

Die Regressionsgerade im rechten Bild ist in dieser Situation keine gute Wahl. Der Grund ist, dass eine der Annahmen des linearen Modells verletzt wurden.

Es gibt verschiedene Möglichkeiten, die Annahmen zu formulieren, und die genaue Anzahl der Annahmen ist dann auch abhängig von der Formulierung. In meiner Darstellungsweise gibt es die folgenden vier wichtigen Annahmen:

1. Linearer Zusammenhang

Die erste Annahme wurde in unserem obigen Beispiel gleich verletzt: Für ein lineares Modell muss der Zusammenhang natürlich auch linear sein. Das erste Bild ist ein Beispiel dafür, das zweite und dritte ein Gegenbeispiel:

Mathematisch sieht die Annahme für einen linearen Zusammenhang einfach so aus:

\[ \mathbb{E}(y_i) = a + b \cdot x \]

Das ist die Formulierung für das lineare Modell. Ein mögliches Gegenbeispiel, im zweiten Bild, sähe z.B. so aus: \(\mathbb{E}(y_i) = a + \sin(x) / 10\)

2. Normalverteilung der Residuen

Die Residuen sind die Abstände zwischen einer Beobachtung und deren Vorhersage auf der Regressionsgeraden. Möchte man nun nicht nur eine „gute“ Gerade durch die Daten ziehen, sondern auch Eigenschaften dieser Geraden testen, dann müssen als Voraussetzung dafür die Fehlerterme einer Normalverteilung folgen. Das hat den Grund, dass dann ein einfacher Hypothesentest für die Parameter (also z.B. Steigung der Geraden = 0) durchgeführt werden kann.

Das linke Bild zeigt eine Regressionsgerade, um die die Fehlerterme mit einer „schönen“ Normalverteilung streuen. Das ist die Idealsituation.

Das zweite Bild, in der Mitte, sieht anders aus. Hier gibt es sehr große Ausreißer, die die Schätzung stark beeinflussen würden, und zu ungenauen Konfidenzintervallen und Testaussagen führen würden. (Wer es genau wissen möchte: Ich habe die Residuen in diesem Diagramm als \(t\)-Verteilung mit einem Freiheitsgrad simuliert)

Das dritte Bild ist ein weiteres Beispiel für eine „falsche“ Verteilung: Hier sind die Residuen in etwa in ganzzahligen Abständen zur Regressionsgerade. Das ist ein sehr realitätsfernes Beispiel, es wird wohl nie vorkommen, aber es veranschaulicht sehr schön, welche Situationen durch die Modellannahme der normalverteilten Residuen „nicht erlaubt“ sind.

In eine Formel verpackt sieht diese Annahme nun so aus:

\[ \begin{align*} y_i &= a + b\cdot x_i + \epsilon_i \\ \epsilon_i &\sim \mathcal{N}(0, \sigma^2) \end{align*} \]

Die zweite Zeile verlangt, dass die Residuen \(\epsilon\) normalverteilt sind. In dieser Formel steckt eigentlich auch schon die nächste Annahme mit drin:

3. Gleichbleibende Varianz der Residuen

Diese Annahme besagt, dass die Varianz der Residuen sich über die \(x\)-Achse nicht verändern soll. Das linke Bild zeigt wieder ein positives Beispiel, und das rechte Bild zeigt, wie es nicht aussehen soll:

Die gleichbleibende Varianz (man sagt auch Homoskedastizität dazu – mein absolutes Lieblingswort) steckt auch schon in der oberen Formel drin. Man verlangt nämlich, dass für jede Beobachtung \(i\) die Varianz gleich ist. Es ist also \(\epsilon_i \sim \mathcal{N}(0, \sigma^2)\), und nicht \(\epsilon_i \sim \mathcal{N}(0, \sigma_i^2)\). Der Unterschied ist sehr klein: Statt \(\sigma^2\) steht in der zweiten Formel \(\sigma_i^2\). Das tiefgestellte \(i\) bedeutet, dass die Varianz hier für jede Beobachtung \(i\) unterschiedlich ist. Im rechten Bild wäre also z.B. für die erste Beobachtung \(\sigma_1^2 = 0.6\), und für die letzte Beobachtung \(\sigma_{100}^2 = 12.4\). Das bedeutet: unterschiedliche Varianzen, und genau das ist im linearen Modell nicht erlaubt. Die Streuung muss für jede Beobachtung gleich groß sein.

4. Unabhängigkeit der Residuen

Mit Unabhängigkeit ist das Folgende gemeint: Wenn ich den Fehlerterm für eine bestimmte Beobachtung kenne, dann darf mir das keine Information über den Fehlerterm für die nächste Beobachtung liefern. Das ist zum Beispiel im folgenden Bild der Fall:

Hier ist natürlich gleichzeitig die Annahme des linearen Einflusses verletzt (Verletzungen von Modellannahmen kommen selten alleine). Aber zusätzlich sind die Residuen abhängig voneinander: am linken Ende der \(x\)-Achse sind alle Residuen negativ, d.h. alle Punkte liegen unter der Regressionsgeraden. Die Abhängigkeit in diesem Bild heißt dann etwa: Wenn ich weiß, dass für Beobachtung \(i=10\) ein positives Residuum gibt, dann kann ich dadurch Schlüsse über das Residuum für die nächste Beobachtung \(i=11\) ziehen – es ist nämlich wahrscheinlich auch positiv.

Multiple lineare Regression

In den bisherigen Artikeln zur Regression ging es nur um die einfache lineare Regression. Hier schauen wir uns nun die multiple lineare Regression an.

Das Wort „multipel“ bedeutet, dass wir nun nicht mehr eine, sondern mehrere Einflussgrößen haben. Wichtig: es gibt mehrere Einflussgrößen. Die Anzahl der Zielgrößen verändert sich nicht, es ist immer noch nur eine Zielgröße.

Beispiel

Wir können uns das Beispiel aus den Artikeln zur einfachen linearen Regression ansehen, und es etwas weiterführen. Dort haben wir versucht, mit Hilfe der Regression die Ringgröße \(y\) einer Freundin zu schätzen, gegeben man kennt ihre Körpergröße \(x\).

Wenn dir jetzt allerdings sehr viel daran liegt, eine möglicht exakte Schätzung zu erhalten, um nicht mit einem unpassenden Ring vor ihr zu stehen, kannst du noch mehr Daten sammeln. Beispielsweise zusätzlich zur Körpergröße noch das Gewicht und das Alter von den 10 Frauen, die du befragst.

Die Daten würden nun also um zwei Variablen größer werden, und zum Beispiel so aussehen:

Person \(i\) 1 2 3 4 5 6 7 8 9 10
Körpergröße \(x_1\) 156.3 158.9 160.8 179.6 156.6 165.1 165.9 156.7 167.8 160.8
Körpergewicht \(x_2\) 62 52 83 69 74 52 77 65 79 51
Alter \(x_3\) 24 34 26 51 43 33 22 21 19 34
Ringgröße \(y\) 47.1 46.8 49.3 53.2 47.7 49.0 50.6 47.1 51.7 47.8

Wir haben jetzt nicht mehr eine Einflussgröße \(x\), sondern drei Stück: \(x_1\), \(x_2\), und \(x_3\). Und jede dieser Einflussgrößen hat eine Ausprägung pro Person \(i\). Das heißt, dass nun zwei Zahlen unter dem \(x\) stehen: Eine für die Einflussgröße und eine für die Person. Zum Beispiel ist das Körpergewicht der vierten Person \(x_{2,4} = 69kg\).

Dadurch, dass man jetzt mehr Daten verfügbar hat, kann man eine genauere Schätzung bekommen. Die Regressionsgleichung würde jetzt lauten:

\[ y = a + b_1 x_1 + b_2 x_2 + b_3 x_3 \]

Mit der multiplen Regression kann ich nun Werte für die Parameter \(a\), \(b_1\), \(b_2\), und \(b_3\) erhalten, und mit Hilfe derer kann ich nun wieder eine Vorhersage treffen.

Anmerkung: Genauso wie in der einfachen linearen Regression können die Parameter in anderen Büchern/Skripten anders benannt sein (z.B. \(\beta_0\), \(\beta_1\) usw.). Sie bedeuten aber genau dasselbe.

Schätzung der Parameter

Die Parameterschätzung ist etwas aufwändiger, und von Hand praktisch nicht mehr durchführbar. Grob gesagt werden die drei Einflussgrößen \(x_1\), \(x_2\) und \(x_3\), die man ja als Vektoren ansehen kann, spaltenweise in eine Matrix \(X\) zusammengefasst. Mit Hilfe dieser Matrix und dem Vektor aller Zielgrößen \(y\) kann man dann den Vektor der Parameter (nennen wir ihn mal \(b\)) schätzen:

\[ b = (X^\top X)^{-1} X^\top y \]

Das wird, wie gesagt, etwas komplizierter, und ist auch mit dem Taschenrechner nicht mehr zu lösen. In einer Klausur wird das Berechnen der Parameter in einer multiplen Regression nicht abgefragt werden, weshalb ich die Details hier überspringe. Die Standardliteratur hilft hier aber weiter (ich empfehle die Springer-Bücher zur Regression oder Statistik).

Was aber durchaus Klausurstoff sein kann, ist die Interpretation der Parameter und die Vorhersage mit bereits gegebenen Parametern. Das schauen wir uns jetzt noch genauer an.

Interpretation der Parameter

Wie gesagt, die Berechnung bei der multiplen Regression ist zu kompliziert für Papier und Taschenrechner, daher lasse ich die Herleitung hier weg. Aber mit den Daten aus der obigen Tabelle erhalten wir per Computer gerundet die folgenden Parameter:

\(a=0.6\), \(b_1=0.28\), \(b_2=0.06\), und \(b_3=-0.02\).

Die Regressionsgerade sieht also so aus:

\[ y = 0.66 + 0.28 \cdot x_1 + 0.06 \cdot x_2 – 0.02 \cdot x_3 \]

Was bedeuten diese Parameter nun?

Der Wert \(b_1\), also 0.28, sagt aus, dass bei einer Person, die einen Zentimeter größer ist als eine andere, die Ringgröße im Durchschnitt um 0.28 größer ist. Da der Wert 0.28 größer als Null ist, sprechen wir hier von einem positiven Effekt: Eine größere Körpergröße führt zu einer größeren Ringgröße.

Andersherum ist es beim Alter. Der Wert von -0.02 sagt aus, dass eine Person, die ein Jahr älter ist, im Durchschnitt eine um 0.02 kleinere Ringgröße hat. Das ist ein negativer Effekt, denn der Wert \(b_3\) ist kleiner als Null.

Da wir bei einer Stichprobe aber immer mit zufälligen Daten arbeiten, ist der Parameter für quasi jede Einflussgröße nie exakt Null. Der Parameter für das Alter, die -0.02, sind z.B. so klein, dass sie eventuell schon zufällig auftreten. Die Vermutung liegt nahe, dass das Alter gar keinen Einfluss auf die Ringgröße hat (aber das Gewicht und die Körpergröße durchaus).

Um zu prüfen, ob eine Einflussgröße tatsächlich einen Einfluss hat, gibt statistische Software normalerweise einen \(p\)-Wert zusätzlich zu dem Parameterschätzer aus. Dieser \(p\)-Wert gehört zu der Hypothese, dass der jeweilige Effekt (z.B. vom Alter) gleich Null ist. Wenn der \(p\)-Wert klein genug ist (meist: kleiner als 0.05), dann geht man davon aus, dass die zugehörige Einflussgröße tatsächlich einen Effekt auf die Zielgröße hat, und man spricht von einem signifikanten Effekt.

In unserem Beispiel sind die \(p\)-Werte:
– Für \(b_1\) (Körpergröße): \(p=0.0000026\)
– Für \(b_2\) (Gewicht): \(p=0.00099\)
– Für \(b_3\) (Alter): \(p=0.112\)

Da nur die ersten beiden \(p\)-Werte kleiner als 0.05 sind, können wir hier schlußfolgern, dass sowohl die Körpergröße, als auch das Gewicht einen signifikanten Einfluss auf die Ringgröße haben, aber das Alter nicht.

(Das Berechnen der \(p\)-Werte ist wieder etwas komplizierter, und in einer Klausur wohl nicht gefragt werden, und wird daher hier übersprungen. Falls das jemand genauer wissen will, verweise ich wieder auf die Standardliteratur zur Regression.)

Vorhersage bei der multiplen linearen Regression

Bei der multiplen linearen Regression läuft die Vorhersage genauso ab wie bei der einfachen Regression, nur eben mit mehreren Einflussgrößen. Unsere Regressionsgleichung lautet:

\[ y = 0.66 + 0.28 \cdot x_1 + 0.06 \cdot x_2 – 0.02 \cdot x_3 \]

Das heißt, wenn unsere Freundin nun wie bisher 170cm groß ist, aber wir zusätzlich wissen, dass sie 68kg wiegt und 29 Jahre alt ist, dann können wir eine genauere Schätzung für die Ringgröße abgeben:

\[y = 0.66 + 0.28 \cdot 170 + 0.06 \cdot 68 – 0.02 \cdot 29 = 51.76 \]

Wir erwarten also in etwa eine Ringgröße von 51.76, und sollten daher einen Ring mit einer Größe kaufen, der so nah wie möglich daran liegt (also wahrscheinlich einen der Größe 52).

Einfache lineare Regression

In diesem Artikel wird nun – aufbauend auf das einführende Beispiel – beschrieben, wie man die Regressionsgerade für unsere Beispieldaten berechnet und einzeichnet. Zur Wiederholung:

Wir möchten die Ringgröße (\(y\)) unserer Freundin schätzen, um sie mit einem Ring zu überraschen. Wir wissen aber nur ihre Körpergröße (\(x\)). Um nun die Ringgröße zu schätzen, sammeln wir 20 Datenpunkte von Freunden und Bekannten, und notieren ihre Körpergröße und Ringgröße:

Person \(i\) 1 2 3 4 5 6 7 8 9 10
Körpergröße \(x\) 156.3 158.9 160.8 179.6 156.6 165.1 165.9 156.7 167.8 160.8
Ringgröße \(y\) 47.1 46.8 49.3 53.2 47.7 49.0 50.6 47.1 51.7 47.8

Wir nennen hier \(y\) die Zielgröße, da ihre Vorhersage unser Ziel ist. Die Körpergröße \(x\) wird allgemein auch Einflussgröße genannt. Es gibt aber noch unzählige andere Namen für die beiden Typen von Variablen. In anderen Quellen wird \(y\) auch häufig Zielvariable, Regressand, Outcome, erklärte Variable oder abhängige Variable (weil sie von \(x\) abhängig ist) genannt. Andere Namen für \(x\) sind Kovariable, Input, Regressor, erklärende Variable oder unabhängige Variable.

Diese Daten können wir nun in ein Streudiagramm einzeichnen, und erkennen sofort, dass größere Frauen tendenziell auch größere Ringe brauchen:

regression-motivation1

Die Regression ist nun eine statistische Methode, um die bestmögliche Gerade zu finden, die man durch diese Daten legen kann. Eine Gerade wird ja definiert durch zwei Parameter \(a\) und \(b\); man kann sie dann darstellen als

\[ y = a + b \cdot x \]

Manchmal sieht man übrigens statt \(a + b \cdot x\) auch \(\alpha + \beta \cdot x\) oder \(\beta_0 + \beta_1 \cdot x\), aber das sind nur andere Namen für dieselben Zahlen.

Berechnung der Parameter \(a\) und \(b\)

Wenn wir also die bestmögliche Gerade finden wollen, die wir durch diese Punktwolke an Daten legen können, ist das gleichbedeutend damit, dass wir die bestmöglichen Werte für \(a\) und \(b\) finden wollen. Und dafür wurden die folgenden beiden Formeln entdeckt:

\[ b = \frac{\sum_{i=1}^n (x_i – \bar{x}) \cdot (y_i – \bar{y})}{\sum_{i=1}^n (x_i – \bar{x})^2} \]

Die Formel für \(a\) ist einfacher, aber wir müssen vorher das Ergebnis für \(b\) berechnen und dort einsetzen:

\[ a = \bar{y} – b\cdot \bar{x} \]

Die Werte \(\bar{x}\) und \(\bar{y}\) sind jeweils die Mittelwerte der gemessenen Daten \(x\) und \(y\).

Eine kürzere Formel für die Berechnung von \(b\)

Die Formel für \(b\) ist recht chaotisch, aber es gibt eine Möglichkeit, sie kürzer darzustellen, während sie immernoch dasselbe Ergebnis liefert:

\[ b = r_{xy} \cdot \frac{s_y}{s_x} \]

Dabei ist \(r_{xy}\) die Pearson-Korrelation zwischen \(x\) und \(y\), und \(s_x\) und \(s_y\) jeweils die Standardabweichung von \(x\) bzw. \(y\). Diese Werte muss man natürlich auch erstmal ausrechnen, so dass diese kürzere Formel insgesamt wahrscheinlich mehr Rechenaufwand bedeutet – außer man hat diese Zwischenergebnisse schon z.B. in einer vorherigen Teilaufgabe der Klausur erhalten und kann sie einfach einsetzen.

Beispielaufgabe

Wir berechnen hier die Werte \(a\) und \(b\) für die obenstehende Tabelle von 10 Personen. Dazu brauchen wir die Mittelwerte von \(x\) und \(y\) als Zwischenergebnisse:

\[ \begin{align*} \bar{x} &= \frac{1}{10} \cdot (156.3+158.9+160.8+179.6+156.6+165.1+165.9+156.7+167.8+160.8) \\ &= \frac{1}{10} \cdot 1628.5 \\ &= 162.85 \end{align*} \]

Genauso erhält man dann auch

\[ \bar{y} = 49.03 \]

Zum Berechnen von \(b\) könnte man nun sofort loslegen, alles in den Taschenrechner einzutippen. Das ist aber anfällig für Leichtsinnsfehler, und oft reicht auch der Platz im Taschenrechner nicht für diese große Formel aus. Ich schlage also vor, in mehreren Schritten vorzugehen:

Bestimmen der Werte \((x_i-\bar{x})\) und \((y_i-\bar{y})\)

Zuerst brauchen wir Zwischenergebnisse, wo wir von jedem Wert den zugehörigen Mittelwert abziehen. Aus der Tabelle

Person \(i\) 1 2 3 4 5 6 7 8 9 10
Körpergröße \(x\) 156.3 158.9 160.8 179.6 156.6 165.1 165.9 156.7 167.8 160.8
Ringgröße \(y\) 47.1 46.8 49.3 53.2 47.7 49.0 50.6 47.1 51.7 47.8

werden also die folgenden Werte berechnet:

Person \(i\) 1 2 3 4 5 6 7 8 9 10
\((x_i-\bar{x})\) -6.55 -3.95 -2.05 16.75 -6.25 2.25 3.05 -6.15 4.95 -2.05
\((y_i-\bar{y})\) -1.93 -2.23 0.27 4.17 -1.33 -0.03 1.57 -1.93 2.67 -1.23

Als Beispiel: Der erste Wert für \((x_i-\bar{x})\) ist einfach \(156.3 – 162.85 = – 6.55\).

Berechnen von \(b\)

Jetzt sind wir nicht weit vom Ergebnis entfernt. Wir brauchen im Zähler der Formel für \(b\) nun für jede Person \(i\) das Produkt der beiden Werte \((x_i-\bar{x})\) und \((y_i-\bar{y})\), für die erste Person also z.B. \((-6.55 \cdot -1.93) = 12.6415\).

Im Nenner der Formel für \(b\) brauchen wir das Quadrat der zweiten Zeile, also wir müssen \((x_i-\bar{x})^2\) berechnen.

Diese Werte berechnen wir nun für alle 10 Personen und können sie (ich runde auf zwei Nachkommastellen) in zwei neue Zeilen der Tabelle einfügen:

Person \(i\) 1 2 3 4 5 6 7 8 9 10
\((x_i-\bar{x})\) -6.55 -3.95 -2.05 16.75 -6.25 2.25 3.05 -6.15 4.95 -2.05
\((y_i-\bar{y})\) -1.93 -2.23 0.27 4.17 -1.33 -0.03 1.57 -1.93 2.67 -1.23
\((x_i-\bar{x}) \cdot (y_i-\bar{y})\) 12.64 8.81 -0.55 69.85 8.31 -0.07 4.79 11.87 13.22 2.52
\((x_i-\bar{x})^2\) 42.90 15.60 4.20 280.56 39.06 5.06 9.30 37.82 24.50 4.20

Und wenn man sich jetzt nochmal die Formel für \(b\) anschaut, sieht man dass wir soweit sind: der Zähler ist die Summe der Werte in der dritten Zeile, und der Nenner die Summe der Werte in der vierten Zeile. Die ergeben sich zu

\[ \sum_{i=1}^n (x_i-\bar{x}) \cdot (y_i-\bar{y}) = 131.39 \]

und

\[ \sum_{i=1}^n (x_i-\bar{x})^2 = 463.2 \]

Somit können wir also \(b\) berechnen:

\[ b =\frac{\sum_{i=1}^n (x_i – \bar{x}) \cdot (y_i – \bar{y})}{\sum_{i=1}^n (x_i – \bar{x})^2} = \frac{131.39}{463.2} = 0.2836 \]

Berechnen von \(a\)

Der Wert \(a\) ist nun mit diesem Ergebnis ganz einfach zu erhalten:

\[ a = \bar{y} – b\cdot \bar{x} = 49.03 – 0.2836 \cdot 162.85 = 2.8457 \]

Einzeichnen der Regressionsgerade

Wir haben also nun die letztendliche Regressionsgerade berechnen können:

\[ y = 2.8457 + 0.2836 \cdot x \]

Um die Gerade dann einzuzeichnen, reicht es, zwei Punkte zu bestimmen, indem wir irgendwelche \(x\)-Werte aussuchen, und die zugehörigen \(y\)-Werte bestimmen. Die \(x\)-Werte sollten sich im Rahmen der „normalen“ Werte der Daten bewegen. Mit Hilfe der Grafik können wir z.B. \(x=160\) und \(x=170\) aussuchen. Dann berechnen wir mit der Formel der Regressionsgeraden die zugehörigen \(y\)-Werte:

\[ 2.8457 + 0.2836 \cdot 160 = 48.22 \]

\[ 2.8457 + 0.2836 \cdot 170 = 51.06 \]

Die Punkte \((160, 48.22)\) und \((170, 51.06)\) können wir nun in das Streudiagramm einzeichnen, und eine Gerade durch die beiden Punkte ziehen:

regression-gerade

Vorhersage bei der einfachen linearen Regression

Bisher haben wir gelernt, wie man die beiden Koeffizienten \(a\) und \(b\) berechnet. Jetzt möchten wir mit Hilfe der Parameter auch für neue Daten \(x\) vorhersagen, welchen Wert für \(y\) wir erwarten.

Das Ziel, das wir mit der Regression erreichen wollen, ist nämlich folgendes: Angenommen es kommt eine neue Person, von der wir nur die Körpergröße \(x=170\) wissen. Was ist dann der Erwartungswert der Ringgröße \(y\)? Wir suchen also \(\mathbb{E}(y|x)\), den bedingten Erwartungswert von \(y\), gegeben man kennt \(x\).

Bei der einfachen linearen Regression gibt es ja nur eine Einflussgröße \(x\). Die Regressionsgerade lautet also

\[ y = a + b\cdot x \]

Um eine Vorhersage für die Zielgröße \(y\) zu erhalten, müssen wir also einfach den zugehörigen Wert für \(x\) in die Gleichung einsetzen. Die Werte für \(a\) und \(b\) haben wir vorher schon berechnet.

Als Beispiel: Im Beispiel aus dem vorherigen Artikel haben wir die Werte \(a=2.8457\) und \(b=0.2836\) bestimmt. Welche Ringgröße ist nun bei deiner Freundin zu erwarten, wenn sie eine Körpergröße von \(x=\)170cm hat? Dafür berechnen wir:

\[ y = a + b\cdot x = 2.8457 + 0.2836 \cdot 170 = 51.06 \]

Ein Ring mit der Größe 51 sollte also gut bei ihr passen.

Es ist hier noch wichtig zu erwähnen, dass wir nur den Erwartungswert von \(y\) vorhersagen. Die Ringgröße wird also nicht exakt 51.06 sein, sondern es gibt immer einen kleinen Fehler, den man im linearen Modell \(\epsilon\) (sprich: Epsilon) nennt. In Wirklichkeit lautet die Regressionsgleichung also

\[ y = a + b \cdot x + \epsilon \]

wobei \(\epsilon\) einen zufälligen und unbekannten Fehler bezeichnet.

Dieser Fehler heißt meistens Residuum, aber man trifft ihn auch manchmal unter den Namen Fehlerterm oder Epsilon an.

Klausuraufgabe

Für die folgenden 6 Autos wurden die Einflussgröße \(x\), die Leistung (in PS) und die Zielgröße \(y\), der Neupreis des Autos notiert:

Auto \(i\) 1 2 3 4 5 6
Leistung (PS) \(x\) 69 199 183 81 192 149
Neupreis \(y\) 21700 54400 47800 31000 48400 36700

a) Berechne die Parameter \(a\) und \(b\) einer linearen Regression. Die Zielgröße ist \(y\), der Neupreis, und wir möchten ihn mit Hilfe der Einflussgröße \(x\), der Leistung in PS, vorhersagen.
b) Verwende nun die berechneten Parameter, um den Neupreis für ein Auto mit 120PS zu prognostizieren.
c) Zeichne ein Streudiagramm der beiden Variablen, und zeichne die Regressionsgerade ein. (Diese Aufgabe ist auch eine nette Probe, ob die berechneten Werte für \(a\) und \(b\) plausibel sind)

Lösung (klick)

a)

Wir müssen zuerst den Steigungsparameter \(b\) berechnen, denn wir brauchen ihn zum Berechnen von \(a\). Die Formel für \(b\) lautet:

\[ b = \frac{\sum_{i=1}^n (x_i – \bar{x}) \cdot (y_i – \bar{y})}{\sum_{i=1}^n (x_i – \bar{x})^2} \]

Als allererstes brauchen wir also die zwei Mittelwerte, \(\bar{x}\) sowie \(\bar{y}\). Diese Werte ergeben sich zu \(\bar{x} = 145.5\) und \(\bar{y} = 40000\).

Wir berechnen jetzt für jede Beobachtung \(i\) diese Zwischenwerte in einer Hilfstabelle, damit wir nicht durcheinanderkommen. Zuerst berechnen und notieren wir die Werte \((x_i-\bar{x})\) sowie \((y_i-\bar{y})\), und mit diesen Ergebnissen berechnen wir dann die Werte die wir tatsächlich brauchen: \((x_i-\bar{x})^2\) sowie \((x_i-\bar{x}) \cdot (y_i-\bar{y})\).

Person \(i\) 1 2 3 4 5 6
\((x_i-\bar{x})\) -76.5 53.5 37.5 -64.5 46.5 3.5
\((y_i-\bar{y})\) -18300 14400 7800 -9000 8400 -3300
\((x_i-\bar{x}) \cdot (y_i-\bar{y})\) 1399950 770400 292500 580500 390600 -11550
\((x_i-\bar{x})^2\) 5852.25 2862.25 1406.25 4160.25 2162.25 12.25

Wenn man sich die Formel für \(b\) nochmal ansieht, merkt man dass der Parameter \(b\) nun einfach die Summe der dritten Zeile, geteilt durch die Summe der vierten Zeile ist:

\[b = \frac{3422400}{16455.5} = 207.9791 \]

Der Parameter \(a\) ist nun einfacher:

\[ a = \bar{y} – b\cdot \bar{x} = 40000 – 207.9791 \cdot 145.5 = 9739.042 \]

Und fertig! Die Regressionsgerade lautet also gerundet:

\[ y = 9739.04 + 207.98 \cdot x \]

b)

Für eine Vorhersage setzen wir einfach den gewünschten Wert der Leistung (in PS) in die Einflussgröße \(x\) der Regressionsgleichung ein:

\[ y = 9739.04 + 207.98 \cdot 120 = 34696.64 \]

Wir prognostizieren also für ein Auto mit 120 PS einen Neupreis von 34696.64 Euro.

c)

Das Streudiagramm lässt sich einfach zeichnen.

Um die Regressionsgerade einzeichnen zu können, brauchen wir zwei beliebige Vorhersagen Punkte, die wir mit einem Lineal verbinden. Einen Punkt haben wir schon aus Aufgabe b): \(x=120\) und \(y=34696.64\).

Um einen zweiten Punkt zu bekommen, suchen wir uns einfach einen realistischen Wert für \(x\) aus, z.B. \(x=100\). Dann prognostizieren wir \(y\) wie in Aufgabe b), nur mit 100 statt 120 PS, und erhalten \(y=30537.04\). Diese beiden Punkte können wir z.B. mit einem „X“ ins Diagramm einzeichnen, und mit einem Lineal verbinden:

Regression: Ein einführendes Beispiel

Idee der Regression

Das Ziel der Regression ist es, den Wert einer bestimmten Variablen anhand einer oder mehrerer bekannter Werte vorherzusagen.

Beispiel

Du möchtest deiner Freundin einen Verlobungsring kaufen, kennst aber ihre Ringgröße nicht. Es ist aber zu verdächtig, sie direkt zu fragen. Du weißt aber, dass kleinere Frauen tendenziell auch kleinere Ringgrößen haben, und nach ihrer Körpergröße kannst du sie ohne Bedenken fragen. Sie ist 170cm groß. Was nun?

Du befrägst deinen gesamten weiblichen Bekanntenkreis (10 Personen) nach Körpergröße und Ringgröße, und erhältst die folgenden Daten:

regression-motivation1

Deine Tante Emma ist zum Beispiel \(x=\)165cm groß und trägt Ringgröße \(y=\)49. Sie wird durch den Punkt ca. in der Mitte links repräsentiert.

Das sieht hilfreich aus. Da deine Freundin 170cm groß ist (\(x\)-Achse), hat sie wohl in etwa eine Ringgröße von 52 (\(y\)-Achse). Du kaufst ihr einen Ring in dieser Größe, er passt, sie sagt Ja, und ihr seid glücklich bis an euer Lebensende.

Was hier passiert ist, ist dass du in deinem Kopf eine Regression durchgeführt hast, um mit Hilfe einer bekannten Variablen – ihrer Körpergröße – eine unbekannte Variable, nämlich ihre Ringgröße vorherzusagen.

Die Regression in der Statistik ist nun ein mathematisches Werkzeug, um eine exakte Regel zu bauen, mit der man für jede Körpergröße eine „beste“ Vorhersage für die Ringgröße erhält. In diesem Beispiel würde man also die „beste“ Gerade bestimmen, die durch den oberen Graphen geht:

regression-motivation2

Wie man diese Gerade berechnet, interpretiert, und mit ihr Vorhersagen macht, sehen wir dann in den nächsten Abschnitten.