Archiv der Kategorie: Induktive Statistik

Modelldiagnose: Ist mein Modell überhaupt sinnvoll?

Die Ergebnise von statistischen Verfahren, z.B. Hypothesentests, oder eben die Regression, sind immer nur dann gültig, wenn gewisse Annahmen auch stimmen. Welche Annahmen bei einer Regression unterstellt werden, ist in einem anderen Artikel bereits erläutert – diesen Artikel empfehle ich vorher nochmal gründlich durchzulesen, dort sind die Annahmen im linearen Modell ausführlich erklärt. In diesem Artikel finden wir nun heraus, wie man überprüft ob diese Annahmen auch stimmen.

Bei der Regression geht man meist in der Reihenfolge vor, dass man zuerst das Modell „einfach mal berechnet“, und danach am fertig geschätzten Modell überprüft, ob die unterstellten Annahmen realistisch sind.

Grob kann man ein Modell auf zwei verschiedene Arten überprüfen: (a) mit grafischen Methoden, also durch Diagramme, und (b) durch Hypothesentests, d.h. mit Hilfe eines p-Werts. Die Variante (b), via Hypothesentests, hat den Vorteil dass es eine klare objektive ja/nein-Entscheidung gibt (nämlich den p-Wert), und es theoretisch keinen Ermessensspielraum für die Person gibt, die die Studie durchführt.

Für das Überprüfen der Annahmen einer Regression ist es wichtig zu verstehen, was Residuen sind. Dazu gibt es in diesem Artikel einen kleinen Exkurs.

1. Ist der Zusammenhang linear?

Die Annahme, dass der Zusammenhang zwischen Einflussgrößen und Zielgröße linear sein muss, ist der kritischste Faktor bei der Modelldiagnose. Falls der wahre Zusammenhang nicht linear ist, dann sind die Vorhersagen des Modells quasi unbrauchbar.

Überprüfen

Am besten überprüft man diese Annahme mit Grafiken. Man erstellt z.B. ein Diagramm der beobachteten vs. vorhergesagten Zielgröße, oder der Residuen vs. der vorhergesagten Zielgröße.

Im Diagramm (a) sieht man die Originaldaten, für die eine Regression gerechnet werden soll, also \(x\) und \(y\).

In Diagramm (b) sind nun \(\hat{y}\) und \(y\) abgebildet. Das sieht hier nur zufällig sehr ähnlich zu Diagramm (a) aus, denn es ist eine ganz andere Darstellung: auf der x-Achse sind die vorhergesagten y-Werte abgebildet. Im diagnostischen Idealfall sollten die Daten möglichst symmetrisch über und unter der ebenso eingezeichneten Diagonalen \(y=x\) liegen. Man sieht hier schon, dass das nicht der Fall ist.

Diagramm (c) verdeutlicht uns das nun: Hier zeichnen wir die vorhergesagten y-Werte, also \(\hat{y}\), gegen die Residuen \(\epsilon\) ab. Im Idealfall sollte man in diesem Diagramm nur „Zufallsrauschen“ erkennen, also keine Systematik. Hier ist das aber leider der Fall: Die Residuen haben eine klare Systematik, nämlich sind sie im niedrigen und im hohen Bereich der x-Achse eher größer als Null, und im mittleren Bereich eher kleiner. Das deutet stark darauf hin, dass wir dieses Problem beheben sollten.

Beheben

Zum Beheben solch eines Problems gibt es zwei Alternativen:

  1. Wir transformieren die Zielgröße, d.h. statt \(y\) nehmen wir einfach \(\sqrt{y}\) als Zielgröße
  2. Wir nehmen eine zusätzliche Einflussgröße in die Regression auf, d.h. als Einflussgrößen haben wir dann einmal \(x\) und einmal \(x^2\).

Wenn man sich für die erste Variante entscheidet, rechnet man also das Regressionsmodell \(\sqrt{y} = a + bx\). Die Diagnosediagramme sähen in diesem Beispiel dann so aus:

Hier sieht Diagramm (b) super aus! Die Residuen streuen überall im Bereich um 0, und sind überall symmetrisch und ohne erkennbare Struktur. Das ist nun so ziemlich der Idealfall bei einem Residuenplot.

In der zweiten Variante lässt man die Zielgröße wie sie ist, aber nimmt noch eine zweite Einflussgröße auf. Diese ist einfach bestimmt als das Quadrat der ersten Einflussgröße:

Das Ergebnis sieht fast gleich aus wie in der 1. Variante, was hier aber daran liegt dass das ein sehr einfaches, künstliches Beispiel ist. Auch hier ist der Residuenplot in Diagramm (b) quasi perfekt: symmetrisch verteilt um y=0 herum, und ohne erkennbare Struktur.

Für welche dieser beiden Varianten man sich entscheidet, ist oft eine Sache des Ausprobierens. Man vergleicht einfach für beide Varianten die Residuenplots, und nimmt dann das Modell, das besser passt.

Manchmal ist die erste Alternative auch gar nicht möglich, wenn z.B. die \(y\)-Werte teilweise negativ sind. Dann kann man keine Wurzel berechnen. In diesem Fall kann man einfach auf die zweite Variante ausweichen.

2. Sind die Residuen normalverteilt?

Ein häufiger Fehler bei der Regression ist, dass man denkt, die Zielgröße \(y\) muss normalverteilt sein, oder die Einflussgrößen müssen normalverteilt sein.

Das ist nicht der Fall!

Wichtig ist nur, dass die Residuen, also die Schätzfehler, \(y – \hat{y}\)  normalverteilt sind.

Überprüfen

Es gibt zwei Möglichkeiten, die Normalverteilung der Residuen zu überprüfen:

  1. Grafisch, mit einem QQ-Plot.
  2. Mit einem Hypothesentest, z.B. dem Kolmogorov-Smirnov-Test.

Ein QQ-Plot ist ein Diagramm, in dem auf der x-Achse die Quantile der Normalverteilung, und auf der y-Achse die Quantile der Residuen aus der Stichprobe aufgezeichnet werden. Daher kommt auch der Name „QQ-Plot“ – es bedeutet einfach Quantil-Quantil-Plot.

Diese Plots geben aber keine klare Antwort auf die Frage, ob die Residuen nun normalverteilt sind oder nicht. Es bleibt eine subjektive Entscheidung der Person, die den Plot betrachtet. Daher gehen wir hier nicht genauer auf sie ein – ich möchte sie nur kurz erwähnt haben.

Die zweite Möglichkeit, die Normalverteilung von Residuen zu überprüfen, ist via einem Hypothesentest. Der Kolmogorov-Smirnov-Test kann z.B. verwendet werden, um die Nullhypothese \(H_0\): „Die Residuen sind normalverteilt“ gegen die Alternativhypothese \(H_1\): „Die Residuen sind nicht normalverteilt“ zu testen. (Eine allgemeine Einführung in Hypothesentests gibt es in diesem Artikel)

Der Test kann von Hand quasi nicht durchgeführt werden, weswegen er in einer Klausur hoffentlich nie berechnet werden wird. Am Computer ist er allerdings einfach durchzuführen: Man übergibt ihm die Liste aller Residuen, und bekommt als Ergebnis einen p-Wert. Ist dieser kleiner als eine bestimmte Schranke (meist wird 0.05 gewählt), müssen wir davon ausgehen, dass die Residuen nicht normalverteilt sind.

Andere Tests (z.B. der Shapiro-Wilk-Test), sind für diese Aufgabe auch verbreitet. Sie beantworten genau dieselbe Frage, aber werden etwas anders berechnet.

Beheben

Wenn die Residuen nicht normalverteilt sind, ist der Grund oft, dass die 1. Annahme der Linearität verletzt ist. Dann ist der Ausweg derselbe wie bei der 1. Annahme: Eine Variablentransformation, z.B. indem man die Zielgröße \(y\) mit der Wurzel oder mit einem Logarithmus transformiert. Oder eben durch das Aufnehmen einer weiteren Einflussgröße, z.B. \(x^2\) wie oben in der 1. Annahme, der Linearität.

3. Ist die Varianz der Residuen gleichbleibend?

Für ein gültiges lineares Modell muss jedes Residuum die gleiche Verteilung haben: Eine Normalverteilung mit Mittelwert 0 und jeweils der gleichen Varianz \(\sigma^2\).

Schauen wir uns direkt ein Beispiel an, in dem diese Annahme verletzt ist – die Residuen also unterschiedliche Varianz haben:

In diesem Diagramm sehen wir auf der x-Achse das Alter von Küken in Tagen, und auf der y-Achse ihr Gewicht in Gramm. Wir können schon mit dem Auge erkennen, dass neugeborene Küken alle etwa dasselbe Gewicht haben, und je älter sie werden, desto stärker schwankt das Gewicht. Mit Hilfe der Regressionsgeraden erkennen wir schon, dass die Residuen, d.h. der Abstand der Punkte \(y\) von der Regressionsgeraden \(\hat{y}\), mit steigendem Alter der Küken tendenziell größer wird – also eine höhere Varianz hat.

Der Fachbegriff für diese Situation nennt sich heteroskedastische Fehler, d.h. Fehler mit verschiedener Varianz. Der Begriff für Fehler mit gleicher Varianz (die Situation die wir bei der linearen Regression brauchen) lautet homoskedastische Fehler.

Überprüfen

Bei einem multiplen Regressionsmodell, d.h. mit mehr als einer Einflussgröße \(x\), kann man nicht einfach ein Diagramm von x versus y zeichnen. Hier diagnostiziert man heteroskedastische Fehler dann mit derselben Methode die wir schon für nichtlineare Einflüsse verwendet haben: Wir zeichnen einen Plot der beobachteten y-Werte vs. der vorhergesagten y-Werte.

Beheben

Zum Beheben dieser Situation kommt ebenfalls eine Variablentransformation in Frage: Falls die Residuen eher prozentual konstant sind, macht eine log-Transformation der Zielgröße Sinn. Dazu muss die Zielgröße allerdings strikt positiv sein. Im Anschluß an einen Versuch der Transformation sollte man sich wieder die Diagnoseplots ansehen, und entscheiden ob die Situation nun besser geworden ist.

4. Sind die Residuen unabhängig?

Dieses Problem tritt häufig auf, wenn man eine Zeitreihe analysiert, wenn also die Zielgröße \(y\) und die Einflussgrößen \(x\) über einen bestimmten Zeitraum immer wieder gemessen wurden. Um eine Abhängigkeit der Residuen festzustellen, muss es nämlich eine gewisse Reihenfolge in den Daten geben, und das ist insbesondere dann der Fall, wenn eine Einflussgröße die Zeit ist. In allen anderen Fällen könnte man die Reihen des Datensatzes ja ohne Auswirkung beliebig umsortieren.

Falls eine der anderen drei Annahmen verletzt ist, z.B. dass der Zusammenhang zwischen Einflussgröße und Zielgröße nicht linear ist, dann ist meistens auch automatisch diese Annahme der unabhängigen Residuen verletzt. Wenn man sich z.B. das Diagramm aus Abschnitt 1 ansieht, in dem der Zusammenhang eher einer Parabel folgt, dann erkennt man dass die Größe vom Residuum z.B. ganz am rechten Ende der x-Achse mit der Größe vom „vorletzten“ Residuum direkt nebenan zusammenhängt – also abhängig ist.

Überprüfen

Die Zeitreihenanalyse geht etwas über den Themenumfang heraus, daher gebe ich nur ein paar Begriffe als Ansatz zur weiteren Recherche. Ganz grob gesagt erkennt man eine Abhängigkeit z.B. über Plots der Residuen vs. der Zeitachse. Eine andere Möglichkeit ist ein Diagramm der sogenannten Autokorrelationsfunktion der Residuen. Zuletzt gibt es noch den Durbin-Watson-Test, mit dem man einen Hypothesentest auf Autokorrelation durchführen kann.

Beheben

Um eine ernsthafte, problematische Abhängigkeit der Residuen zu beheben, muss man sich mit der Zeitreihenanalyse beschäftigen. Es bietet sich als Ausweg an, ein ARIMA-Modell zu rechnen, und z.B. einen AR(1) oder einen MA(1)-Term mit ins Modell aufzunehmen.

Weiterführende Literatur

  • Die oben beschriebenen vier Annahmen sind hier auf Englisch nochmal detailliert beschrieben: http://people.duke.edu/~rnau/testing.htm
  • Das Buch „Regression“ von Fahrmeir, Kneib, Lang (auf deutsch und englisch verfübar) hat ein ausführliches Kapitel über die Modelldiagnose. In der 2. Auflage der deutschen Ausgabe von 2009 ist Abschnitt 3.6.4 über die Modelldiagnose.
    • Seite 168 beschreibt 3 Ziele der Modelldiagnose
    • Seite 179 zeigt einige Auswege, falls Annahmen verletzt sind
    • Zwei weitere Situationen die man in der Modelldiagnose überprüfen kann, sind Multikollinearität (Seite 170) und Ausreißeranalyse bzw. einflussreiche Beobachtungen (Seite 173)

Testen von Regressionsparametern

Testen von Einflüssen

In den bisherigen Artikeln haben wir uns nur mit dem Schätzen von den Parametern der Regression beschäftigt.

Manchmal ist das schon genug, und wir sind mit dem Ergebnis zufrieden. Wenn wir z.B. das Modell einfach nur verwenden möchten, um eine Vorhersage zu erstellen, dann brauchen wir nur die Parameter, und können dann, wenn wir neue Einflussgrößen bekommen, eine Vorhersage für die Zielgröße machen.

In der Praxis ist das Schätzen von Parametern aber oft nur der erste Schritt, und der zweite Schritt ist dann das Testen dieser Parameter. Denn oft interessiert uns als zweiter Schritt, ob eine bestimmte Einflussgröße „wichtig“ für die Vorhersage der Zielgröße ist.

„Wichtig“ definieren wir hier als: Nicht 0. Denn wenn ein Parameter in Wirklichkeit 0 oder nahe an 0 ist, dann hat eine Einflussgröße keinen Effekt auf die Zielgröße, und wir könnten sie einfach wieder entfernen.

Dazu ein Beispiel: Wir möchten das Gewicht einer Person vorhersagen, mit Hilfe seiner Körpergröße (in Metern) und der Hausnummer seiner Adresse.

Die Grafiken zeigen, dass größere Menschen tendenziell schwerer sind, d.h. der Regressionsparameter \(b\) für die Körpergröße wird wahrscheinlich größer als Null sein. Allerdings gibt es zwischen der Hausnummer und dem Gewicht einer Person (wie erwartet) keinen wirklichen Zusammenhang. Der Vorteil ist nun, dass wir diese Variable rauswerfen können, und in zukünftigen Befragungen die Leute nicht mehr nach ihrer Adresse fragen müssen. Dadurch sparen wir Zeit und evtl. auch Geld, und der kürzere Fragebogen führt vielleicht auch zu mehr Bereitschaft zur Teilnahme, und damit einer größeren Stichprobe am Ende.

Hypothesen

Wir möchten also, wie oben beschrieben, wissen welche Einflussgrößen bzw. Parameter „wichtig“ für unser Regressionsmodell sind.

Die Hypothesen bei einer linearen Regression sind immer gleich. Für jeden berechneten Parameter, z.B. \(a\) und \(b\) bei der einfachen linearen Regression, führen wir einen Test durch, mit zwei Hypothesen. Am Beispiel für den Steigungsparameter \(b\) der Regressionsgeraden lauten sie: \(H_0\): Der Parameter \(b\) ist Null. \(H_1\): Der Parameter \(b\) ist ungleich Null.

Wenn wir diesen Test durchführen, und als Resultat die Nullhypothese ablehnen, dann können wir sagen, dass der Parameter \(b\) „signifikant ist“. Wir meinen damit ausführlich: Der Parameter \(b\) ist signifikant von Null verschieden.

Signifikanz

Das Signifikanzniveau, das wir festlegen müssen, gibt an wie sicher wir uns sein möchten, bevor wir die Nullhypothese bei einem Test ablehnen. Es ist genau dasselbe Prinzip wie bei den Hypothesentests in der Parameterschätzung. Punkt 3 in diesem Artikel erklärt dieses Prinzip bereits gut, aber es sei hier nochmal kurz zusammengefasst:

Wir nennen einen Parameter signifikant ungleich 0, wenn es „sehr unwahrscheinlich“ ist, dass der wahre Parameter 0 ist.

Wann etwas „sehr unwahrscheinlich“ ist, muss man vohrer definieren, indem man ein Signifikanzniveau \(\alpha\) festlegt. Meist ist, wie bei anderen Hypothesentests auch, \(\alpha=0.05\) ein gerne genutzter Wert. Das bedeutet sinngemäß, dass wir nur in 5% der Fälle die Nullhypothese ablehnen, obwohl sie in Wirklichkeit wahr ist. Wenn man allerdings noch sicherer sein möchte, keinen Fehler zu machen, kann man z.B. auch \(\alpha=0.01\) setzen.

Hier rechnen wir mit p-Werten

Wir erinnern uns, dass es zwei mögliche Arten gibt, die Entscheidung eines Tests zu berechnen: Entweder durch das Bestimmen eines kritischen Bereichs, oder durch das Berechnen eines p-Werts.

Detailliert wurde der Unterschied dieser beiden Wege in diesem Artikel bereits erklärt. Aber zusammenfassend sei nochmal gesagt:

  • Bei der Berechnung via kritischen Bereich bestimmt man eine Prüfgröße \(T\) und einen kritischen Bereich (meist ein oder zwei Intervalle). Der kritische Bereich hängt auch vom Signifikanzniveau \(\alpha\) ab. Wenn die Prüfgröße im kritischen Bereich liegt, wird die Nullhypothese abgelehnt, anderenfalls nicht.
  • Bei der Berechnung via p-Wert bestimmt man nur eine Zahl, den p-Wert. Wenn dieser kleiner ist als das vorgegebene Signifikanzniveau \(\alpha\), dann wird die Nullhypothese abgelehnt, anderenfalls nicht.

Hier sieht man auch einen weiteren Vorteil an der Variante via p-Wert: Man sieht sofort, zu welchem Signifikanzniveau dieser Test die Nullhypothese ablehen würde. Wenn der p-Wert also zum Beispiel p=0.0832 ist, dann würden wir direkt sehen, dass man zum Niveau  \(\alpha=0.05\) die Nullhypothese nicht ablehnen würde, aber zum Niveau \(\alpha=0.1\) schon – denn 0.0832 ist kleiner als 0.1. Würde man stattdessen mit dem kritischen Bereich rechnen, bekäme man am Anfang nur die Information: „Zum Niveau \(\alpha=0.05\) ist der Test nicht signifikant“. Man müsste ihn dann zum Niveau \(\alpha=0.1\) nocheinmal von vorne rechnen.

Im Kapitel zu Hypothesentests bei Vereteilungsparametern haben wir noch viel mit kritischen Bereichen gerechnet, da diese Variante gut mit der Hand zu berechnen ist, und sie daher in Klausuren immer noch abgefragt wird. In der Realität, und besonders bei komplexeren Hypothesentests, wird die Testentscheidung allerdings fast ausschließlich mit p-Werten berechnet. Das Ergebnis (der p-Wert) ist einfacher zu interpretieren, und gibt etwas detailliertere Informationen zurück als die sture „ja“/“nein“-Entscheidung, wenn man den Weg über den kritischen Bereich geht.

Ein p-Wert ist ein bisschen schwerer von Hand zu berechnen, aber wir gehen hier davon aus, dass wir in einer Klausur oder Übungsaufgabe nie einen p-Wert von Hand berechnen müssen. Oftmals ist in einer Klausur zum Beispiel eine „fertige“ Regression abgedruckt, und man muss die Ergebnisse in eigenen Worten interpretieren können.

Hier ist nochmal das Bild mit den Daten von oben, aber diesmal mit Regressionsgeraden eingezeichnet.

Für den Zusammenhang zwischen Körpergröße und Gewicht sieht man eine klare positive Steigung. Für die Hausnummer sieht man zwar eine ganz leicht steigende Gerade, die allerdings nicht signifikant ist – das sehen wir an der Ausgabe der Regression:

Schätzer Standardfehler t-Statistik p-Wert
Intercept \(a\) -48.012 30.144 -1.593 0.130
Größe \(b_1\) 0.730 0.175 4.181 0.001
Hausnummer \(b_2\) 0.068 0.069 0.985 0.339

Jedes Statistikprogramm gibt das Ergebnis etwas anders aus, aber die wichtigsten Zeilen sind die für den Schätzer, und die für den p-Wert. An dieser Ausgabe kann man die folgenden Dinge ablesen:

  • In der Spalte Schätzer sieht man: die Regressionsgerade lautet: \(y = -48.012 + 0.730\cdot x_1 + 0.068\cdot x_2\), wobei \(x_1\) die Körpergröße in cm ist, und \(x_2\) die Hausnummer einer Person.
    • Der Parameter \(b_1\) ist 0.730. Das heißt also, dass eine Person die 1cm größer ist, im Durchschnitt geschätzt 0.730kg, also 730 Gramm mehr wiegt.
    • Der Parameter \(b_2\) ist 0.068. Das heißt also, dass eine Person deren Hausnummer um 1 höher ist, etwa 0.068kg, also 68 Gramm mehr wiegt. Ob dieser Zusammenhang aber auch tatsächlich da ist, also statistisch signifikant ist, werden wir gleich sehen.
  • Die Spalten Standardfehler sowie t-Statistik sind Zwischenergebnisse, die man zum Berechnen des p-Werts in der letzten Spalte benötigt. Manche Statistikprogramme geben diese Werte auch gar nicht aus. Meist kann man die ignorieren, da man nur am p-Wert interessiert ist.
  • Der p-Wert für jeden Parameter liefert uns nun die Information, ob ein Parameter „wichtig“ oder nicht ist, d.h. ob er signifikant ist.
    • Der p-Wert für den Intercept wird normalerweise auch ignoriert, da er keine Aussage über einen Parameter trifft. Meistens beachtet man ihn nicht.
    • Der p-Wert für die Körpergröße, also für den Parameter \(b_1\), ist hier 0.001. Das ist weit kleiner als das Signifikanzniveau \(\alpha=0.05\), daher ist dieser Parameter signifikant. Wir können also sagen, dass die Körpergröße einen signifikanten Einfluss auf das Gewicht einer Person hat.
    • Der p-Wert für die Hausnummer einer Person, also für den Parameter \(b_2\), ist 0.339. Das ist recht groß, insbesondere größer als das Signifikanzniveau von 0.05. Die Hausnummer einer Person hat also keinen signifikanten Einfluss auf ihr Gewicht.

Obwohl der Parameter für die Hausnummer einer Person nicht signifikant ist, wird er natürlich durch den Zufall bedingt niemals als genau 0 geschätzt. Es kommt immer eine gewisse Zahl dabei heraus, und die Interpretation klingt in diesem Fall tatsächlich etwas komisch: eine Person, deren Hausnummer um 1 höher ist, wiegt etwa 68 Gramm mehr.

Einseitige vs. zweiseitige Tests

Wie bei Hypothesentests für Verteilungsparameter, können wir uns auch hier für einseitige oder zweiseitige Tests entscheiden. Der Unterschied ist in diesem Artikel gut erklärt, aber nochmal kurz die Zusammenfassung:

Ein einseitiger Test hat den Vorteil dass er bei geringer Stichprobengröße mit wenig Beweiskraft einen Effekt auch dann erkennt, wenn ein zweiseitiger Test ihn noch nicht erkennen würde. Ein zweiseitiger Test braucht immer etwas mehr Daten bzw. einen etwas eindeutigeren Zusammenhang, um diesen dann auch als signifikant zu erkennen.

Trotzdem verwendet man eigentlich immer zweiseitige Tests. Denn dann ist man unvoreingenommen und ganz neutral bezüglich irgendwelcher Vorurteile gegen mögliche Zusammenhänge in den Daten. Auch in den gängigen Statistikprogrammen werden standardmäßig zweiseitige Tests verwendet.

Natürlich kann man trotzdem einen einseitigen Test verwenden – in Klausuren wird das auch gerne mal verlangt – aber in der Praxis muss man die Wahl dann schon gut begründen können.

Der absolute Wert des Parameters sagt wenig aus

Es ist noch wichtig zu erwähnen, dass man die „Wichtigkeit“ eines Parameters nicht an seinem absoluten Wert ablesen kann. Wenn man also einen Koeffizienten von \(b = 0.5158\) hat, weiß man noch lange nicht ob er wichtig, d.h. signifikant oder nicht ist.

Es kommt nämlich darauf an, auf welcher Skala die Einflussgröße lebt. Dazu ein kurzes Beispiel: Wir messen die Größe einer Person, und ihr Gewicht. Auf der linken Grafik zeigen wir das Ergebnis, wenn wir die Größe in Zentimetern messen: \(y = -7.26 + 0.5158 \cdot x\). Der Steigungsparameter ist hier also \(b=0.5158\). Auf der rechten Grafik zeigen wir genau dieselben Daten, aber das ist das Ergebnis, falls wir die Körpergröße in Metern gemessen hätten. Das Ergebnis wäre dann \(y = -7.26 + 51.58 \cdot x\).

Das ist im Prinzip dasselbe Regressionsmodell, nur mit unterschiedlich skalierten Einflussgrößen. Du kannst gerne vergewissern, dass für deine persönliche Größe auch in beiden Modellen dasselbe Gewicht vorhergesagt wird. Bei einer Größe von 170cm wäre es z.B. für das Ergebnis \(y\) egal, ob man (im linken Modell) \(0.5158 \cdot 170\), oder (im rechten Modell) \(51.58 \cdot 1.70\) rechnet.

Das bedeutet, dass man für eine Aussage zur Wichtigkeit eines Parameters immer den Parameterschätzer zusammen mit dem p-Wert betrachten muss.

Beispielaufgabe

Die folgende Aufgabe soll dabei helfen, ein Gespür dafür zu bekommen, wie ein plausibles Regressionsmodell aussieht.

Ein Marktforschungsunternehmen möchte mit einem Regressionsmodell die Verkaufszahlen für Zahnpasta in einer Ladenkette vorhersagen. Als Einflussgrößen hat es dafür den Preis einer Tube Zahnpasta, und die Außentemperatur in °C zur Verfügung.

Das Unternehmen sammelt also über einen Monat hinweg Daten, und rechnet dann eine Regression.

Die Regressionsgerade für diese Studie lautet: \(y = a + b_1 * x_1 + b_2 * x_2\), wobei \(x_1\) der Preis einer Tube in Euro ist, und \(x_2\) die Außentemperatur in °C.

Wir haben schon eine Vorahnung, wie der Einfluss auf die Verkaufszahlen aussehen wird:

  1. Wir erwarten, dass der Preis einer Tube \(x_1\) einen negativen Einfluss auf die Verkaufszahlen hat, d.h. wenn der Preis größer wird, dann müssten weniger Tuben verkauft werden, d.h. die Zielgröße \(y\) wird kleiner.
  2. Für die Außentemperatur \(x_2\) vermuten wir keinen Einfluss. Bei einer Eisdiele wäre das anders, denn bei mehr Sonne wird normalerweise auch mehr Eis verkauft. Hier gehen wir aber mal davon aus, dass Zahnpasta zu jedem Wetter gleich gut verkauft wird.

Welches der folgenden Ergebnisse ist auf diese zwei Vermutungen hin das plausibelste?

a)
Parameter Schätzer p-Wert
\(a\) 1543.22 0.013
\(b_1\) 0.012 0.042
\(b_2\) 2.042 0.013
b)
Parameter Schätzer p-Wert
\(a\) 1543.22 0.013
\(b_1\) -934.02 0.017
\(b_2\) 37.02 0.006
c)
Parameter Schätzer p-Wert
\(a\) 1543.22 0.013
\(b_1\) -952.21 0.003
\(b_2\) -13.23 0.493
d)
Parameter Schätzer p-Wert
\(a\) 1543.22 0.013
\(b_1\) 12.23 0.342
\(b_2\) 63.42 0.255
Lösung (klick)

Das plausibelste Ergebnis finden wir indem wir unsere „Vorahnungen“ in Zahlen umformulieren:

  1. Der Preis einer Tube \(x_1\) soll einen negativen Einfluss auf die Verkaufszahlen haben. Das heißt dass \(b_1\) kleiner als 0 sein soll, und dazu auch noch signifikant (d.h. mit einem kleinen p-Wert, idealerweise unter 0.05)
  2. Die Außentemperatur soll keinen Einfluss haben. Das heißt dass der p-Wert für \(b_2\) groß sein soll, insbesondere größer als 0.05.

Nur in der Variante c) treffen beide dieser Erwartungen zu. Das ist also ein Ergebnis das sich mit unseren Erwartungen deckt. Die Regressionsgerade lautet hier:

\(y =1543.22 – 952.21 \cdot x_1 – 13.23 \cdot x_2 \)

Konfidenzintervalle für die geschätzten Parameter

Stell dir vor, du möchtest den Zusammenhang zwischen den beiden Variablen \(x = \) Körpergröße und \(y = \) Körpergewicht erforschen, und du befrägst \(n=6\) Personen nach diesen beiden Werten. Du erhältst ein Regressionsmodell mit der geschätzten Geraden \(y = 17.2 + 0.48 \cdot x\). Für eine 180cm große Person schätzt dieses Modell also ein Körpergewicht von \(17.2 + 0.48 \cdot 180 = 103.6kg\).

Fünf deiner Freunde sind aber an derselben Frage interessiert, und fragen selbst jeder \(n=6\) Personen nach diesen Daten. Bei ihnen ergeben sich natürlich andere Regressionsgeraden. Das Ergebnis der 6 Stichproben könnte z.B. so aussehen:

Wir haben also eine gewisse Unsicherheit in der Schätzung.  Die Regressionsgerade (d.h., die beiden Parameter \(a\) und \(b\), durch die die Gerade beschrieben wird) kann nie exakt berechnet werden, sondern immer nur geschätzt werden, und ist daher mit Unsicherheit behaftet.

Ein Konfidenzintervall kann diese Unsicherheit nun in Zahlen ausdrücken.

Was sind Konfidenzintervalle?

Für eine allgemeine Einführung, was ein Konfidenzintervall (abgekürzt: ein KI) ist, empfehle ich, erstmal den entsprechenden Artikel zu lesen und zu verstehen. Um KIs bei der Regression zu verstehen, hilft es enorm, erstmal die einfachere Variante der KIs für Schätzer zu verstehen. Denn die Regression ist im Grunde genommen einfach nur eine Art der Parameterschätzung: In der einfachen linearen Regression suchen wir die Parameter \(a\) und \(b\), und sie werden genauso geschätzt wie ein einfacher Verteilungsparameter: Durch eine Schätzfunktion, die die Daten aus einer erhobenen Stichprobe auf eine passende Art zusammenfasst. Das Ergebnis ist dann ein Punktschätzer, und die kennen wir ja auch schon aus dem Bereich der Parameterschätzer.

Wenn man nun versteht, dass die Parameter \(a\) und \(b\) bei der Regression auf denselben Prinzipien aufbauen wie ein Parameter z.B. beim Schätzen des Mittelwerts einer Normalverteilung, hat man einen großen Vorteil, denn man muss diese Prinzipien nur einmal lernen und verstehen. Und durch die Verknüpfung der beiden Anwendungsmöglichkeiten festigt sich die Information dann viel besser im Gehirn.

Ein Parameter einer Regression ist also ein Punktschätzer. Und für ihn gibt es – wieder ganz analog zu allen anderen Punktschätzern – entsprechende Konfidenzintervalle. Diese sagen aus, wie sicher wir uns mit dieser Schätzung sind. Wenn wir also nur sehr wenige Daten haben, ist das Intervall relativ groß, da wir nicht sehr sicher sind, ob der wahre Parameter nicht doch wo ganz anders liegt. Wenn wir aber eine sehr große Stichprobe haben, dann können wir uns ziemlich sicher sein, recht nah am wahren Parameter dran zu sein – das Konfidenzintervall wird also kleiner sein.

Wenn wir eine Regression berechnen, dann gehen wir davon aus, dass es ein wahres Modell gibt, also z.B. die Parameter \(a = 3.2\) und \(b = 1.6\). Wir nehmen an dass es diese wahren Parameter gibt, aber in der Praxis kennen wir sie dann nicht – wir möchten sie daher schätzen.

Wir haben als Daten nicht die komplette Grundgesamtheit verfügbar, sondern nur eine kleine Stichprobe. Daher werden die Parameter, die wir schätzen, quasi niemals die wahren Parameter sein, sondern nur irgendwo in der Nähe liegen – vielleicht schätzen wir z.B. \(\hat{a} = 3.0\) und \(\hat{b} = 1.63\). Das ist die beste Schätzung die wir mit der Stichprobe machen können, denn die wahren Werte kennen wir ja nicht. Wir werden immer eine gewisse Unsicherheit bei der Schätzung dabei haben. Aber: je mehr Daten uns zur Verfügung stehen, also je größer unsere Stichprobe ist, desto sicherer sind wir uns mit dem Ergebnis, d.h. desto kleiner ist unsere Unsicherheit bei der Schätzung. Das zeigt sich dann in einem engeren Konfidenzintervall.

Wie werden Konfidenzintervalle interpretiert?

Ein KI für einen Regressionsparameter, nehmen wir zum Beispiel einfach die Steigung \(b\), wird genauso interpretiert wie ein KI für z.B. den Mittelwert von normalverteilten Daten. Wie das geht, kann man in diesem Artikel nachlesen.

Das Konfidenzintervall für einen Regressionsparameter, z.B. \(a\) oder \(b\), sagt aus, in welchem Bereich der wahre Parameter „ziemlich sicher“ liegen könnte. Wenn wir uns zu 95% sicher sein möchten, heißt dass das wir eine Irrtumswahrscheinlichkeit von 5% tolerieren – dann setzen wir das Konfidenzniveau \(\alpha\) auf 5%, also ist dann \(\alpha = 0.05\). Genauso wie bei Parameterschätzern einer Verteilung gibt man hier also an, wie sicher man sich mit dem Konfidenzintervall sein möchte. Ein 95%-Konfidenzintervall (d.h. mit \(\alpha = 0.05\)) für den Parameter \(b\) könnte z.B. bei \([1.57, \, 1.69]\) liegen. Dann könnten wir sagen, dass wir den wahren Regressionsparameter \(b\) als 1.63 geschätzt haben, aber der wahre (und uns unbekannte) Wert auch irgendwo zwischen 1.57 und 1.69 liegen könnte – das wäre durch unsere Stichprobe auch noch plausibel.

Man schreibt das KI dann entweder als Intervall, in der Schreibweise \([1.57, \, 1.69]\), oder in der Schreibweise „Schätzer plus/minus Abstand“, also z.B. \(1.63 \pm 0.06\). Die beiden Schreibweisen beschreiben aber dasselbe Intervall.

Wie werden Konfidenzintervalle berechnet?

Auch beim Berechnen von KIs hilft es, sich noch einmal das Vorgehen für KIs bei Verteilungsparametern durchzulesen. Denn ein KI für einen Regressionsparameter berechnet man genau auf die selbe Weise. Wir brauchen dazu:

  • den Punktschätzer für den Parameter, z.B. \(\hat{a}\)
  • die Varianz dieses Parameters, z.B. \(\sigma^2_{\hat{a}}\)
    • Diese Varianz ist etwas komplizierter von Hand zu berechnen. Bei der einfachen linearen Regression geht das noch, aber bei der multiplen Regression, also mit mehreren Einflussgrößen, sollte man das unbedingt per Computer lösen. Sollte man in einer Klausur wirklich mal ein KI von Hand berechnen müssen, dann ist die Varianz hoffentlich schon gegeben.
  • das Konfidenzniveau \(\alpha\)
  • die Verteilungstabelle der t-Verteilung, um dort die Quantile abzulesen. Wir brauchen das \(1-\frac{\alpha}{2}\)-Quantil der t-Verteilung mit \(n-p-1\) Freiheitsgraden. Das notieren wir insgesamt mit dem Term \(t_{1-\frac{\alpha}{2}}(n-p-1)\). Er sieht auf den ersten Blick etwas kompliziert aus, aber das sind nur zwei Zahlen, die sich da drin verstecken: Das Quantil, und die Anzahl der Freiheitsgrade.
    Dabei ist \(n\) die Stichprobengröße, und \(p\) die Anzahl der Einflussgrößen. Bei der einfachen linearen Regression, also mit nur einer Einflussgröße, brauchen wir also z.B. das Quantil mit \(n-2\) Freiheitsgraden.
    Das Quantil ist bei einem Konfidenzniveau von 0.05 dann z.B. das 0.975-Quantil, oder das 97.5%-Quantil.

Das Konfidenzintervall für den ersten Parameter der Regression, also \(a\), lautet dann

\[ \hat{a} \pm \hat{\sigma}_\hat{a} \cdot t_{1-\alpha/2}(n-p-1) \]

Wir berechnen also als erstes den Term \(\hat{\sigma}_\hat{a} \cdot t_{1-\alpha/2}(n-p-1)\). Angenommen es kommt 1,43 heraus. Das Konfidenzintervall geht dann einfach von der unteren Grenze \(\hat{a} – 1.43\) bis zur oberen Grenze \(\hat{a} + 1.43\). Es ist symmetrisch um den Schätzwert \(\hat{a}\) herum.

Das KI für den zweiten Parameter \(b\) berechnet man genauso, nur dass man in der oberen Formel \(\hat{a}\) durch \(\hat{b}\) ersetzt.

Konfidenzintervall für die Varianz

Das Konfidenzintervall für die Varianz eines Merkmals berechnet man mit Hilfe der \(\chi^2\)-Verteilung. Man benötigt zum Berechnen eines Konfidenzintervalls nun zwei Werte aus der Tabelle der \(\chi^2\)-Verteilung: Falls wir z.B. ein 90%-Konfidenzintervall berechnen möchten, brauchen wir die Schranken zu den äußeren 10% der \(\chi^2\)-Verteilung, das heißt also auf der linken Seite das 5%-Quantil, und auf der rechten Seite das 95%-Quantil.

Allgemein gesagt benötigen wir für ein KI mit der Irrtumswahrscheinlichkeit \(\alpha\) die beiden Quantile \(\chi^2_{\frac{\alpha}{2}}(n-1)\) und \(\chi^2_{1-\frac{\alpha}{2}}(n-1)\). Bei einem 90%-KI ist die Irrtumswahrscheinlichkeit 10%, also ist \(\alpha = 0.1\). In diesem Fall brauchen wir das Quantil \(\chi^2_{0.05}(n-1)\) sowie \(\chi^2_{0.95}(n-1)\). In den Klammern steht die Anzahl der Freiheitsgrade (damit finden wir die relevante Zeile in der Tabelle), und die kommt auf die Stichprobengröße \(n\) an.

Die Formel für das KI der Varianz lautet insgesamt:

\[ \left[ \frac{(n-1) \cdot S^2}{\chi^2_{\frac{\alpha}{2}}(n-1)}, \frac{(n-1) \cdot S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)} \right] \]

Und wie üblich darf man sich von auf den ersten Blick komplizierten Notationen nicht erschrecken lassen: Im Nenner steht jeweils nur eine einzelne Dezimalzahl, nämlich ein Quantil der \(\chi^2\)-Verteilung mit \(n-1\) Freiheitsgraden. Das linke Ende des KIs ist einfach das \(\frac{\alpha}{2}\) Quantil (z.B. das 5%-Quantil), und das rechte Ende das \(1-\frac{\alpha}{2}\) Quantil (z.B. das 95%-Quantil).

Das \(S^2\) im Zähler ist die Stichprobenvarianz, die wir mit der üblichen Formel \(S^2 = \sum_{i=1}^n (x_i – \bar{x})^2\) berechnen.

Beispielaufgabe

Wir möchten herausfinden, in welchem Bereich die Varianz der Körpergröße von Männern wohl liegen wird. Dazu befragen wir 14 Männer nach ihrer Größe. Wir erhalten glücklicherweise nicht die rohen Daten, sondern schon die folgenden Zusammenfassungen der Stichprobe:

  • \(\bar{x} = 174cm\)
  • \(S^2 = 97.33\)

Berechne mit diesen Angaben ein 90%-Konfidenzintervall für die Varianz der Körpergröße unter Männern.


Wir betrachten einfach die Formel für das Konfidenzintervall, und füllen nacheinander alle fehlenden Zahlen ein:

\[ \left[ \frac{(n-1) \cdot S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)}, \frac{(n-1) \cdot S^2}{\chi^2_{\frac{\alpha}{2}}(n-1)} \right] \]

Wir benötigen also die Werte:

  • \(n-1\), das ist 13, denn wir haben \(n=14\) Männer befragt.
  • \(S^2 = 97.33\), das haben wir aus dem Aufgabentext entnommen. (Manchmal muss man aber die Stichprobenvarianz \(S^2\) in einer Klausur erst selbst aus den Rohdaten berechnen.)
  • \(\alpha\) ist die Irrtumswahrscheinlichkeit. Wenn wir ein 90%-Konfidenzintervall suchen, dann ist die Irrtumswahrscheinlichkeit 10% bzw. 0.1, also ist \(\alpha=0.1\)
  • \(\chi^2_{1-\frac{\alpha}{2}}(n-1)\) – das ist das 95%-Quantil (denn \(\alpha = 0.1\)) der \(\chi^2\)-Verteilung mit 13 Freiheitsgraden. Aus der Tabelle lesen wir in der Zeile \(df=13\) und der Spalte \(q=0.95\) ab, dass dieser Wert 22.362 ist.
  • \(\chi^2_{\frac{\alpha}{2}}(n-1)\) – das ist das 5%-Quantil derselben \(\chi^2\)-Verteilung. In der Zeile \(df=13\) und der Spalte \(q=0.05\) lesen wir also den Wert 5.892 ab.

Damit können wir alle Werte in das Intervall einsetzen:

\[ \left[ \frac{13 \cdot 97.33}{22.362}, \frac{13 \cdot 97.33}{5.892} \right] = \left[ 56.58, 214.75 \right] \]

Das 90%-Konfidenzintervall für die Varianz der Körpergrösse von Männern ist also [56.58, 214.75], d.h. die wahre Varianz liegt wahrscheinlich in diesem Bereich.

Konfidenzintervall für den Erwartungswert

Das KI für den Erwartungswert folgt einem ähnlichen Prinzip wie das bereits besprochene KI für einen Anteilswert:

\[ \text{Parameter} \pm \text{Quantil} \cdot \sqrt{\frac{\text{Varianz}}{n}} \]

In den meisten Fällen in der Realität ist die wahre Varianz nicht bekannt, und wird auch einfach aus der Stichprobe geschätzt. In einer Klausur wird der Fall, dass die Varianz \(\sigma^2\) bekannt ist, allerdings noch gefordert – daher betrachten wir ihn hier extra.

Die Formeln für die Konfidenzintervalle der beiden Varianten unterscheiden sich nur minimal:

  • Wenn die wahre Varianz \(\sigma^2\) bekannt ist, nehmen wir in der Formel direkt die wahre Varianz \(\sigma^2\) – anderenfalls schätzen wir sie durch die Stichprobenvarianz \(s^2\) und nehmen diesen Wert.
  • Wenn die wahre Varianz \(\sigma^2\) bekannt ist, dann nehmen wir das Quantil der Normalverteilung – anderenfalls nehmen wir das Quantil der t-Verteilung mit \(n-1\) Freiheitsgraden.
    • Wenn wir allerdings eine ausreichend große Stichprobe haben, z.B. \(n>30\), dann können wir doch wieder das Quantil der Normalverteilung verwenden.

Sehen wir uns die Formeln der beiden KIs also an:

KI für den Erwartungswert \(\mu\), falls Varianz \(\sigma^2\) bekannt

Für das Konfidenzintervall brauchen wir die folgenden Werte:

  • Die Stichprobengröße \(n\)
  • Den Mittelwert der Stichprobe \(\bar{x}\)
  • Die wahre Varianz \(\sigma^2\)
    • In der Formel brauchen wir allerdings ihre Wurzel, die Standardabweichung, also \(\sigma\). Diese beiden Werte zu verwechseln, ist ein häufiger Fehler in der Klausur.
  • Die gewünschte Irrtumswahrscheinlichkeit \(\alpha\)
    • Damit berechnen wir das passende \(1-\frac{\alpha}{2}\)-Quantil der Normalverteilung, das wir in der Formel brauchen – also den Wert \(z_{1-\frac{\alpha}{2}}\). Für eine gewünschte Irrtumswahrscheinlichkeit von 5% brauchen wir also später das 97,5%-Quantil (das ist 1.96, wer es nachprüfen möchte).

Die untere Grenze des Intervalls ist dann:

\[ u =  \bar{x} – z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\]

Für die obere Grenze ersetzen wir einfach das erste Minus durch ein Plus:

\[ o =  \bar{x} + z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\]

Insgesamt lautet das Konfidenzintervall also

\[ \left[ \bar{x} – z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}, \, \, \bar{x} + z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}} \right] \]

Oder, in Kurzschreibweise mit dem \(\pm\) Zeichen:

\[ \bar{x} \pm z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\]

Beispielaufgabe

Der Intelligenzquotient (IQ) ist so erstellt worden, dass er in der Gesamtbevölkerung normalverteilt ist mit einem Mittelwert von 100 und einer Standardabweichung von 15 (d.h. einer Varianz von \(15^2 = 225\). Wir haben nun eine Stichprobe von \(n=35\) Social-Media-Powerusern, die täglich mehr als 3 Stunden in sozialen Netzen unterwegs sind. Ich erspare euch die „Rohdaten“, d.h. die einzelnen 35 IQs, und liefere direkt den MIttelwert der Stichprobe:

  • \(\bar{x} = 93.523\)

Wir können die Varianz in der Gruppe als bekannt annehmen, nämlich als \(\sigma^2 = 225\). Berechne nun ein 95%-Konfidenzintervall (d.h. \(\alpha=0.05\)) für den mittleren IQ in der Grundgesamtheit aller Social-Media-Poweruser.


Die Formel dafür kennen wir:

\[ \bar{x} \pm z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\]

Dort tragen wir jetzt einfach alle geforderten Werte nacheinander ein. Manche müssen wir berechnen, andere aus einer Tabelle ablesen, und wieder andere einfach einsetzen:

  • \(\bar{x} = 93.523\), das steht in der Aufgabe
  • \(\alpha = 0.05\), denn da wir ein 95%-KI brauchen, ist die Irrtumswahrscheinlichkeit 5%, also 0.05.
  • \(z_{1-\frac{\alpha}{2}}\) ist \(z_{0.975}\), also das 97,5%-Quantil der Normalverteilung. Aus der Verteilungstabelle lesen wir ab, dass das 1.96 ist.
  • \(\sigma\) ist die Standardabweichung (Vorsicht: Die Wurzel aus der Varianz! Nicht verwechseln!). Bei uns ist \(\sigma = \sqrt{\sigma^2} = \sqrt{225} = 15\)
  • \(\sqrt{n} = \sqrt{35} = 5.916\)

Damit können wir das Intervall berechnen:

\[ 93.523 \pm 1.96 \cdot \frac{15}{5.916}\]

Das gesuchte Konfidenzintervall ist also \( 93.523 \pm 4.97\), also als Intervall geschrieben \([88.553, 98.493]\). Der mittlere IQ unter Social-Media-Powerusern liegt also wahrscheinlich in diesem Bereich.

KI für den Erwartungswert \(\mu\), falls Varianz \(\sigma^2\) unbekannt

Wie bereits erwähnt: Das Prinzip ist hier dasselbe, das KI wird berechnet durch

\[ \text{Parameter} \pm \text{Quantil} \cdot \sqrt{\frac{\text{Varianz}}{n}} \]

Die einzigen beiden Unterschiede sind, dass statt dem \(z\)-Quantil der Normalverteilung nun das der t-Verteilung verwendet wird, und dass nicht mehr die wahre Standardabweichung \(\sigma\) verwendet wird (da sie ja jetzt unbekannt ist), sondern die Stichprobenvarianz \(s^2\), bzw. ihre Wurzel \(s\) verwendet wird. Diese berechnen wir auf die bekannte Art und Weise: \(s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2\).

Die Formel für das Konfidenzintervall ist von der Bedeutung her identisch mit dem Fall, wenn die wahre Varianz \(\sigma^2\) bekannt ist, nur mit den oben besprochenen Unterschieden:

\[ \bar{x} \pm t_{1-\frac{\alpha}{2}}(n-1) \cdot \frac{s}{\sqrt{n}}\]

Die Bezeichnung \(t_{1-\frac{\alpha}{2}}(n-1)\) sieht vielleicht etwas furchteinflößend aus, aber sie ist ganz einfach das \(1-\frac{\alpha}{2}\)-Quantil der t-Verteilung mit \(n-1\) Freiheitsgraden – das ist am Ende nur eine harmlose Dezimalzahl. Ihren Wert findet man in der Tabelle der t-Verteilung.

Anmerkung: Falls die Stichprobe mehr als 30 Beobachtungen hat, kann man im Normalfall doch wieder das \(z\)-Quantil der Normalverteilung (statt dem Quantil der t-Verteilung) verwenden.

Beispielaufgabe

Wir interessieren uns für den mittleren Intelligenzquotienten (IQ) in einer Förderschule für Hochbegabte. In der breiten Bevölkerung ist zwar bekannt, dass der IQ normalverteilt ist mit \(\mu=100\) und \(\sigma^2=225\), aber in dieser Untergruppe kann man weder vom selben Mittelwert noch von derselben Varianz ausgehen. Wir erheben also durch einen IQ-Test die Zahlen für eine Stichprobe von \(n=22\) Hochbegabten, und erhalten:

  • \(\bar{x} = 134.32\)
  • \(s^2 = 98.83\)

Berechne nun ein 95%-Konfidenzintervall für den mittleren IQ von Hochbegabten in Förderklassen.


Wir verwenden ganz einfach die Formel für das KI, und setzen alle Werte nacheinander ein:

\[ \bar{x} \pm t_{1-\frac{\alpha}{2}}(n-1) \cdot \frac{s}{\sqrt{n}}\]

Die Werte, die wir brauchen sind:

  • \(\bar{x} = 134.32\), das steht direkt im Aufgabentext
  • \(\alpha = 0.05\), denn da wir ein 95%-KI brauchen, ist die Irrtumswahrscheinlichkeit 5%, also 0.05.
  • \(t_{1-\frac{\alpha}{2}}(n-1)\) ist das \(1-\frac{\alpha}{2}\)-Quantil, also das 97,5%-Quantil der t-Verteilung mit \(n-1\), also mit 21 Freiheitsgraden. In der Verteilungstabelle lesen wir ab, dass dieser Wert \(t_{0.975}(21) = 2.080\) ist
  • \(s = \sqrt{s^2} = \sqrt{98.83} = 9.941\)
  • \(\sqrt{n} = \sqrt{21} = 4.583\)

Wir setzen also diese Werte ein und rechnen aus:

\[ 134.32 \pm 2.080 \cdot \frac{9.941}{4.583}\]

Das gesuchte Konfidenzintervall ist also \( 134.32 \pm 4.51\), also in Intervallschreibweise \([129.81, 138.83]\). Der IQ unter Förderschülern liegt also ziemlich wahrscheinlich in diesem Bereich.

Konfidenzintervall für einen Anteil p

Wenn wir in unserer Stichprobe ein Merkmal mit nur zwei möglichen Ausprägungen haben, zum Beispiel „Student? (ja/nein)“, benötigen wir zum Berechnen des Konfidenzintervalls die folgenden Informationen:

  • Die Anzahl der Daten \(n\) (Stichprobengröße).
  • Den Parameterschätzer für den Anteilswert \(\hat{p}\). Im entsprechenden Artikel haben wir schon gelernt wie man ihn berechnet: \(\hat{p} = \frac{\sum_{i=1}^n x_i}{n}\)
  • Das gewünschte Konfidenzniveau \(1-\alpha\), d.h. die Irrtumswahrscheinlichkeit \(\alpha\). Meistens ist es \(\alpha = 0.05\) oder \(\alpha = 0.01\).

Mit Hilfe der gewünschten Irrtumswahrscheinlichkeit \(\alpha\) müssen wir nun ein Quantil der Normalverteilung bestimmen: Falls wir \(\alpha=0.05\) wählen, also eine Irrtumswahrscheinlichkeit von 5% wünschen, dann müssen wir das 97,5%-Quantil der Normalverteilung bestimmen (das ist 1,96). Falls wir uns noch sicherer sein möchten, und eine nur 1%-ige Irrtumswahrscheinlichkeit möchten, dann müssen wir das 99,5%-Quantil der Normalverteilung bestimmen (das ist 2,58). Allgemein gesagt benötigen wir das \(1-\frac{\alpha}{2}\)-Quantil, also den Wert \(z_{1-\frac{\alpha}{2}}\). Diesen Wert lesen wir in der Klausur aus der Verteilungstabelle der Normalverteilung ab.

Mit diesen Werten können wir nun das Konfidenzintervall berechnen. Die untere Grenze des Intervalls ist:

\[ u = \hat{p} – z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \]

Für die obere Grenze ersetzt man nur das Minus durch ein Plus:

\[ o = \hat{p} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \]

Das Konfidenzintervall ist also nun \([u, o]\). In einer Formelsammlung sieht man diese Schritte meist in eine einzige Formel zusammengefasst, die dann erstmal etwas einschüchternd aussieht. Aber sie verpackt die oberen Formeln nur in eine einzelne Zeile. So sieht das Konfidenzintervall als eine Formel aus:

\[ \left[ \hat{p} – z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}}, \, \, \hat{p} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \right] \]

Wenn man nun möchte, kann man das Intervall noch kürzer schreiben, denn in den zwei Formeln für die untere und obere Grenze ist nur ein Plus bzw. ein Minus unterschiedlich. Wenn wir dieses Symbol durch ein \(\pm\) ersetzen, dann lautet das KI einfach:

\[ \hat{p} \pm z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}}  \]

Anmerkung: Dieses Konfidenzintervall ist kein exaktes, sondern nur ein approximatives Intervall. Um diese Formel anwenden zu dürfen, sollte man mindestens 30 Beobachtungen in der Stichprobe haben, also  \(n \geq 30\)

Beispielaufgabe

Wir berechnen ein KI um diese Formeln zu illustrieren. Angenommen, wir gehen Freitagmittag in die Innenstadt und fragen die ersten 250 Menschen die wir treffen, ob sie bei der letzten Wahl auch wählen gegangen sind. 183 Menschen antworten mit „ja“ (was wir mit einer 1 kodieren). Wir möchten nun ein 99%-Konfidenzintervall für die Wahlbeteiligung in der Gesamtbevölkerung berechnen.


Dazu brauchen wir die folgenden Werte:

  • Die Stichprobengröße \(n\), das ist hier 250.
  • Den Parameterschätzer \(\hat{p}\), das ist bei uns \(\frac{183}{250} = 0.732\)
  • Die Irrtumswahrscheinlichkeit \(\alpha\). Da wir ein 99%-Konfidenzintervall möchten, ist \(\alpha\) bei uns 1-0.99, also 0.01.
  • Das Quantil der Normalverteilung, \(z_{1-\frac{\alpha}{2}}\), ist bei uns also das 99,5%-Quantil, also \(z_{0.995}\). Aus der Tabelle der Normalverteilung lesen wir dafür den Wert 2,58 ab.

Damit können wir nun die Grenzen des KIs berechnen. Die untere Grenze ist

\[ u = \hat{p} – z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} = 0.732 – 2.58 \cdot \sqrt{\frac{0.732 \cdot (1-0.732)}{250}} = 0.660 \]

Die obere Grenze ist dann

\[ u = \hat{p} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} = 0.732 + 2.58 \cdot \sqrt{\frac{0.732 \cdot (1-0.732)}{250}} = 0.804 \]

Unser 99%-Konfidenzintervall ist also gerundet \([0.66, 0.80]\). Wir schätzen also, dass die wahre Wahlbeteiligung ziemlich sicher im Bereich von 66% bis 80% legen wird.

Was ist ein Konfidenzintervall?

Wozu braucht man Konfidenzintervalle?

Im Bereich der Inferenzstatistik möchten wir ja ganz allgemein gesagt mit Hilfe einer Stichprobe Aussagen über die Grundgesamtheit machen. Im ersten Teil haben wir dazu die Punktschätzer kennengelernt: Mit ihnen fassen wir die erhobenen Daten einer Stichprobe so in einen Schätzer zusammen (z.B. in ihren Mittelwert), um damit das Verhalten eines Merkmals in der Grundgesamtheit zu schätzen.

Im Artikel „Was ist ein Parameter?“ haben wir hierfür ein Beispiel kennengelernt: Wir sind auf dem Oktoberfest, und möchten wissen ob in die Krüge systematisch zu wenig Bier gefüllt wird. Dazu bestellen wir uns 10 Maß Bier, und erhalten z.B. den Stichprobenmittelwert 962ml. Wir wissen, dass der Mittelwert in der Stichprobe bei 962ml liegt, aber den Mittelwert der Grundgesamtheit, also unter allen Krügen auf dem Oktoberfest, können wir nur schätzen. Und unsere beste Schätzug dafür sind eben diese 962ml aus der Stichprobe.

Der Punktschätzer oder Parameterschätzer ist hierbei aber nur der erste Schritt: Wir haben lediglich die Frage beantwortet: „Wieviel Bier ist schätzungsweise im Durchschnitt im Krug?“. Einige andere wichtige Fragen können wir aber noch nicht beantworten:

  • Wie präzise ist diese Schätzung von 962ml?
  • In welchem Bereich liegt der wahre Mittelwert höchstwahrscheinlich?
  • Kann es denn sein, dass der gesamte/wahre Mittelwert auch 950ml ist? Kann es sogar sein, dass in Wirklichkeit im Mittel doch 1000ml in die Krüge gefüllt wird, aber wir in dieser Stichprobe einfach nur Pech hatten?

Diese Fragen kann ein Punktschätzer nicht beantworten – aber ein Intervallschätzer kann das!

Was ist ein Konfidenzintervall?

Die folgende Unterscheidung ist zentral für das Verständnis von Konfidenzintervallen:

  • Mit der Stichprobe schätzen wir einen Parameter, zum Beispiel \(\hat{\mu}\)
  • Der wahre Parameter \(\mu\) in der Grundgesamtheit ist dann zwar in der Nähe von \(\hat{\mu}\), aber quasi nie genau gleich.

Den wahren Parameter \(\mu\) können wir also nie exakt bestimmen, aber wir können ihn quasi „einzäunen“ – also einen Bereich bestimmen, in dem er ziemlich sicher liegt.

Dieses „ziemlich sicher“ müssen wir natürlich definieren. Wollen wir zu 90% sicher sein, oder zu 95%? Vielleicht sogar 99%? In der Statistik wandeln wir diese Zahl immer in ihre Gegenwahrscheinlichkeit um, denn wir arbeiten lieber mit Irrtumswahrscheinlichkeiten statt Überdeckungswahrscheinlichkeiten. Wenn wir uns also zu 95% sicher sein wollen, dass der wahre Parameter in einem bestimmten Intervall liegt, bedeuetet das ja ebenso, dass er zu 5% nicht dort drin liegt.

Diese Irrtumswahrscheinlichkeit, oder Konfidenzniveau, ist eine Dezimalzahl, die wir mit \(\alpha\) bezeichnen. Wenn wir einen Bereich berechnen möchten, in dem der wahre Parameter mit 95% Sicherheit liegt, dann ist unser Niveau eben 5%, also \(\alpha = 0.05\).

Konfidenzintervalle werden auch nur geschätzt

Die folgende Grafik veranschaulicht ein Beispiel: Es gibt einen wahren Mittelwert \(\mu\) in der Grundgesamtheit – den kennen wir aber in der Realität nicht! Er ist hier nur eingezeichnet, um das Prinzip eines KIs zu veranschaulichen. Wir schätzen nun zuerst mit einem üblichen Parameterschätzer den Mittelwert \(\hat{\mu}\). Als nächstes schätzen wir die obere und untere Grenze des KIs, und zwar wieder mit einer Schätzfunktion, genau wie beim Mittelwert einen Schritt vorher.

In dieser Grafik sind zwei verschiedene Konfidenzintervalle berechnet und visualisiert worden: Das obere ist ein 99%-KI, also mit einer Irrtumswahrscheinlichkeit von nur 1%. Da wir uns hier sehr sicher (nämlich 99% sicher) sein wollen, dass der wahre Parameter in diesem KI liegt, muss das KI natürlich auch breiter sein, um einen Irrtum unwahrscheinlicher zu machen. Das untere KI ist im Gegensatz dazu „nur“ ein 95%-KI, also mit einer Irrtumswahrscheinlichkeit von 5%. In diesem Beispiel ist sogar der unwahrscheinliche Fall eingetreten, dass der wahre Mittelwert \(\mu\) außerhalb des KIs liegt. Das kann natürlich nie komplett ausgeschlossen werden, sondern immer nur durch das Konfidenzniveau \(\alpha\) eingeschränkt werden.

Das Thema „Was ist eine Schätzfunktion?“ haben wir im Rahmen der Parameterschätzer bereits besprochen. Ganz knapp gesagt ist eine Schätzfunktion eine Formel, die die Daten der erhobenen Stichprobe auf eine geeignete Art zusammenfasst.

Ein Konfidenzintervall (kurz: KI) wird nun, genauso wie der Parameterschätzer einen Schritt davor, mit Hilfe von Schätzfunktionen erstellt. Das KI wird also durch eine Formel (bzw. zwei Formeln) berechnet, die die Daten in zwei Werte zusammenfassen: die obere sowie die untere Grenze des Intervalls.

Wie schätzt man ein Konfidenzintervall?

Das zentrale Prinzip für alle Konfidenzintervalle ist, dass man zuerst einen Punktschätzer für einen Parameter berechnet, z.B. für den Anteilswert \(p\). Um diesen einzelnen Punkt herum bildet man dann ein Intervall, das meistens symmetrisch um den Parameterschätzer ist, und enger oder breiter ist, abhängig von der Varianz in der Stichprobe sowie des gewünschten Konfidenzniveaus \(\alpha\).

Um Konfidenzintervalle in einer Klausur schnell und sicher berechnen zu können, muss man fit darin sein, Quantile der Normalverteilung und der t-Verteilung aus einer Verteilungstabelle ablesen zu können. In der Realität machen das später meistens Statistikprogramme, aber für die Klausur ist der geübte Umgang mit diesen Tabellen von zentraler Bedeutung.

Anmerkung

Ich habe in diesem Artikel die folgende intuitive Erklärung für ein Konfidenzintervall verwendet:

Ein 95%-KI ist ein Intervall \([a, b]\), in dem der wahre Parameter, z.B. \(\mu\), mit einer Wahrscheinlichkeit von 95% auch tatsächlich liegt.

Das heißt: Der wahre Parameter \(\mu\) (den wir ja nicht kennen!) liegt mit einer Wahrscheinlichkeit von 95% im Intervall \([a,b]\).

Diese Beschreibung ist einfach und einleuchtend, aber mathematisch nicht zu 100% korrekt. Ich finde aber, darüber kann man hinwegschauen, insbesondere im Bereich der einführenden Statistikveranstaltungen. Wenn man es allerdings ganz genau nehmen will, ist die Definition, und somit auch die Interpretation eines KIs minimal anders:

Ein 95%-KI ist ein Intervall \([a, b]\), das, wenn es sehr häufig mit neuen Stichproben berechnet wird, den wahren Parameter, z.B. \(\mu\), mit einer Wahrscheinlichkeit von 95% auch überdeckt.

Das heißt: Ein einzelnes 95%-KI ist mit 95%-iger Wahrscheinlichkeit eines von denen, das den wahren Parameter \(\mu\) beinhaltet.

Diese Definition ist etwas umständlicher zu verstehen, aber nun formal korrekt. Wie schon erwähnt, ist diese Unterscheidung aber in einführenden Vorlesungen eher unwichtig – das wird (wenn überhaupt) erst viel später mal relevant.

Schätzfunktionen allgemein

In einem vorigen Artikel haben wir bereits gelernt, was ein Parameter ist: Als einfachstes Beispiel der prozentuale Anteil in einer Grundgesamtheit, oder aber der Erwartungswert bzw. die Varianz eines Merkmals.

Es gibt noch viele weitere solcher Kennzahlen, die man schätzen kann: Das Minimum eines Merkmals, die Korrelation zweier Merkmale, oder das 5%-Quantil eines Merkmals sind nur einige Beispiele dafür. Ich werde nicht auf alle diese Beispiele eingehen, aber wir sehen uns kurz an, wie ein Parameter allgemein geschätzt wird. Dieser Artikel gilt also für alle bisher besprochenen Parameterschätzer, und auch für weitere Schätzer so wie die gerade genannten Beispiele.

Wie schätzt man einen Parameter?

Ganz allgemein schätzt man einen beliebigen Parameter, indem man die Daten aus der gesammelten Stichprobe mit einer bestimmten Formel zusammenfasst. Diese Formel nennt man dann Schätzer oder Schätzfunktion – die Formel ist eine Funktion, weil sie die Stichprobe (meistens \(x\) oder in Langform \((x_1, x_2, \ldots, x_n)\) genannt) in einen Schätzer transformiert. Als Beispiele können wir die Schätzfunktionen für den Anteilswert \(p\) betrachten – der Schätzer wird dann meist \(\hat{p}\) („p-Dach“) genannt:

\[\hat{p} = \frac{\sum_{i=1}^n x_i}{n}\]

Mathematisch gesehen ist es wichtig, ob ein Dach über dem \(p\) steht oder nicht: Wir setzen ja voraus, dass es einen wahren Anteilswert gibt, den wir nicht kennen, aber schätzen möchten. Und unsere Schätzung nennen wir dann \(\hat{p}\). Es sollte aber klar sein, dass mit einer zufälligen Stichprobe der wahre Wert nie ganz genau getroffen wird, sondern immer ein kleiner Fehler dabei sein wird. Und deswegen gibt es zwei verschiedene Bezeichnungen für den wahren Wert bzw. unsere Schätzung dafür. Wenn in der Statistik über einem Buchstaben ein Dach steht, dann heißt das immer dass dieser Wert ein Schätzer für irgendetwas ist.

Als zweites Beispiel den Schätzer für die Varianz \(\sigma^2\) in einer Grundgesamtheit – der Schätzer heißt dann \(\hat{\sigma}^2\):

\[ \hat{\sigma}^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2 \]

Diese beiden beispielhaften Funktionen schätzen zwei ganz unterschiedliche Dinge, aber sie haben beide gemeinsam, dass sie die Daten der gesammelten Stichprobe, also \((x_1, x_2, \ldots, x_n)\), zusammenfassen in einen einzelnen Wert – den Schätzer. Man kann diese beiden Beispiele (und alle anderen denkbaren Schätzer) nun zusammenfassen in eine generelle, allgemeingültige Formel:

\[ T = g(x_1, x_2, \ldots, x_n) \]

Das \(T\) steht hierbei für den Parameter den wir schätzen möchten, also z.B. \(\hat{p}\) oder \(\hat{\sigma}^2\). Die Funktion \(g\) nimmt nun die Daten und fasst sie zusammen in ein Ergebnis, den Schätzer.

Die mathematischen Bezeichnungen können da zu Beginn ein wenig verwirren – das ging mir selbst nicht anders. Man muss sich aber vor Augen halten, dass es immer zwei „Welten“, bzw. zwei Betrachtungspunkte gibt: die Stichprobe und die Grundgesamtheit. Beide Welten haben ihre eigene Notation:

  • Der Mittelwert in der Stichprobe ist \(\bar{x}\)
  • Der gesamte Mittelwert in der Grundgesamtheit ist \(\mu\)
  • Wir können \(\mu\) allerdings nur schätzen, und dieser Wert lautet dann \(\hat{\mu}\)
  • Diesen Wert schätzen wir mit Hilfe des Stichprobenmittelwerts. Also: \(\hat{\mu} = \bar{x}\)

Wenn man so verstanden hat, warum die Formel \(\hat{\mu} = \bar{x}\) Sinn macht und was der Unterschied der beiden Werte ist (obwohl sie ja mathematisch die gleiche Zahl sind), dann hat man das Konzept der Parameterschätzung verstanden 🙂

Die wichtigsten Parameterschätzer

In diesem Artikel greifen wir das Beispiel aus dem Artikel „Was ist ein Parameter?“ wieder auf: Wir gehen auf das Oktoberfest, und möchten schätzen ob ein Maßkrug fair, d.h. mit (mindestens) 1 Liter Bier befüllt ist. Es macht vielleicht Sinn, diesen Artikel vorher nocheinmal zu lesen.

In diesem Artikel besprechen wir kurz die wichtigsten Parameterschätzer. Wer bisher gut aufgepasst hat, wird merken, dass die untenstehenden Formeln für diese Punktschätzer dieselben sind wie in der deskriptiven Statistik. Zum Beispiel ist also die Formel für den (deskriptiven!) Mittelwert einer Stichprobe dieselbe wie die Formel für den Punktschätzer für den Erwartungswert.

Die Idee hinter der Berechnung ist in den beiden Fällen aber unterschiedlich: Der Mittelwert macht nur eine Aussage über die Stichprobe – wir können also z.B. sagen, dass in 10 geprüften Maßkrügen im Durchschnitt 950ml Bier enthalten waren. Das ist auch kein Schätzwert, sondern ein exakter Wert – aber er gilt nur für diese eine Stichprobe von 10 Bieren.

Der Erwartungswert gilt dagegen für die Grundgesamtheit, d.h. über die Stichprobe hinweg für alle Maßkrüge auf dem Oktoberfest. Daher können wir den Erwartungswert nie exakt berechnen, sondern immer nur anhand einer Stichprobe schätzen.

Es ergibt sich nun mathematisch, dass der Stichprobenmittelwert auch der beste Schätzer für den Erwartungswert in der Grundgesamtheit ist – und genau deswegen sind die beiden Formeln (Stichprobenmittelwert und Erwartungswertschätzer) identisch. Auf dem Weg zur statistischen Erleuchtung ist es aber hilfreich im Hinterkopf zu behalten, dass das zwei unterschiedliche Konzepte sind.

Dieses Konzept erkennt man dann auch an der mathematischen Notation wieder. Der Mittelwert einer Stichprobe wird z.B. einfach \(\bar{x}\) („x quer“) genannt, aber der Schätzer für den Erwartungswert wird mit \(\hat{\mu}\) („mu Dach“) bezeichnet. Das Dach über einem Buchstaben (egal ob griechisch oder nicht) deutet darauf hin, dass der Buchstabe darunter geschätzt wird. \(\hat{\mu}\) ist also ein Schätzwert für den „wahren“, aber unbekannten Wert \(\mu\).

Prozentualer Anteil

Wir schätzen einen prozentualen Anteil, wenn wir ein nominales Merkmal mit nur zwei möglichen Ausprägungen („ja“ und „nein“) haben. Dann kodieren wir das Merkmal zuerst in die Zahlen 1 und 0 um. Meistens steht die 1 für „ja“. Um nun einen Schätzwert für den Anteil \(p\) an „ja“ in der Grundgesamtheit zu bekommen, berechnen wir einfach den Anteil an „ja“ in der Stichprobe: Wir zählen alle „ja“-Antworten und teilen sie durch die Stichprobengröße \(n\).

Lasst uns 10 Maß Bier trinken, und für jede Maß \(i\) das Merkmal \(x_i\) notieren, eine 0 falls nicht genug Bier drin war, und eine 1 falls es mindestens 1 Liter war:

Bier \(x_i\) \(x_1\) \(x_2\) \(x_3\) \(x_4\) \(x_5\) \(x_6\) \(x_7\) \(x_8\) \(x_9\) \(x_{10}\)
voll? 1 0 0 1 0 0 0 1 0 0

Die Formel für den Schätzer für \(p\) dafür lautet dann:

\[\hat{p} = \frac{\sum_{i=1}^n x_i}{n}\]

Die Summe im Zähler bedeutet einfach, dass wir alle Antworten aufsummieren. Da die „nein“-Antworten alle als 0 kodiert wurden, werden sie in der Summe nicht beachtet, und nur die Einser, also die „ja“-Antworten werden gezählt.

Der Schätzer für den Anteil an fair befüllten Krügen in der Grundgesamtheit wäre dann also:

\[\hat{p} = \frac{1+0+0+1+0+0+0+1+0+0}{10} = 0.3\]

Mit der 1 bezeichnen wir ja einen voll gefüllten Maßkrug, und mit der 0 einen Krug mit weniger als einem Liter Inhalt. Wir schätzen also, dass 30% aller Krüge auf dem Oktoberfest fair befüllt werden.

Erwartungswert

Was, wenn wir aber genauer abschätzen wollen, wie voll die Krüge befüllt werden? Dann sollten wir lieber etwas genauer den Erwartungswert des Inhalts schätzen, statt nur die Frage ob genug oder zuwenig Inhalt im Krug ist.

Zum Glück haben wir immer noch Durst, und bestellen nocheinmal 8 Maß Bier. Bei jedem Krug \(i\) wiegen wir nun nach, wieviel Inhalt (also \(x_i\)) genau drin ist,

Bier \(x_i\) \(x_1\) \(x_2\) \(x_3\) \(x_4\) \(x_5\) \(x_6\) \(x_7\) \(x_8\)
Inhalt (ml) 961 1012 970 940 1024 868 931 975

Die Formel um den Erwartungswert zu schätzen (also \(\hat{\mu}\) ist dieselbe wie die für den Stichprobenmittelwert, also für \(\bar{x}\)):

\[\hat{\mu} = \frac{1}{n} \cdot \sum_{i=1}^n x_i\]

Bei uns ist es:

\[\begin{align*}\hat{\mu} = \frac{1}{8} \cdot (& 961+1012+970+940+ \\ &1024+868+931+975) = 960.125 \end{align*} \]

Durch unsere Stichprobe haben wir also geschätzt, dass in der Grundgesamtheit im Mittel ca. 960ml Bier in einen Krug gefüllt werden.

Varianz

Der Schätzer von 960ml gibt uns schon einen Hinweis darauf, dass evtl. systematisch, also absichtlich, zuwenig Bier in die Krüge gefüllt wird. Um das genauer zu untersuchen, sollte man sich aber auch die Varianz der Daten ansehen. Denn es macht einen großen Unterschied ob jeder Krug mit ziemlich genau 960ml befüllt wird, oder ob manche Krüge mit 860ml, dafür manch andere mit 1060ml befüllt werden. Im zweiten Fall könnte es einfach auch sein, dass das Zapfpersonal sehr unterschiedlich einschenkt, und der niedrige durchschnittliche Inhalt von 960ml nur durch Zufall enstanden ist.

Unser Verdacht auf absichtlich niedrige Befüllung hängt also nicht nur vom Mittelwert, sondern auch von der Varianz in der Stichprobe ab. Dieses Konzept wird beim Berechnen des Konfidenzintervalls, und auch beim Hypothesentest sehr wichtig sein.

Die wahre Varianz wird mit \(\sigma^2\) bezeichnet, der Schätzer dafür lautet also \(\hat{\sigma}^2\). Die Formel ist identisch mit der Formel für die Stichprobenvarianz, also für \(s^2\):

\[ \hat{\sigma}^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2 \]

Dabei ist \(\bar{x}\) der Mittelwert der Daten. Bei uns ist er 960.125ml. Für dieses Beispiel kommt heraus:

\[\begin{align*}\hat{\sigma}^2 = \frac{1}{8-1} \cdot (&0.766 + 2691.016 + 97.516 + 405.016 +  \\ &4080.016 + 8487.016 +848.266 + 221.266) = 2404.41 \end{align*} \]

Die Zahlen in der Summe sind jeweils die einzelnen Terme für \((x_i-\bar{x})^2\), also die erste Zahl, 0.766, haben wir erhalten durch \((x_1-\bar{x})^2 = (961 – 960.125)^2\).

Wir schätzen also, dass die Varianz in der Grundgesamtheit bei 2404.41 liegt.

Was ist ein Parameter?

Die Aufgabe in der schließenden Statistik (oder Inferenzstatistik) ist es meistens, eine fundierte Aussage über das Verhalten eines Merkmals zu treffen. Die bestmögliche Information, die wir über ein Merkmal halten können, wäre seine gesamte Verteilung. Denn wenn wir die Verteilung (oder der Dichtefunktion) genau kennen, können wir alle wichtigen Fragen über dieses Merkmal beantworten, zum Beispiel:

  • Was ist der Mittelwert dieses Merkmals? (wie man das mit Hilfe der Dichtefunktion machen würde, ist hier erklärt)
  • Wieviel Prozent der Beobachtungen werden größer sein als 100? (Das ist der Wert der Verteilungsfunktion an der Stelle \(x=100\))
  • Was ist der Median? (das wäre das 50%-Quantil)
  • Welchen Wert des Merkmals werden nur 10% der Beobachtungen unterschreiten? (das wäre das 10%-Quantil)

Nehmen wir ein praktisches Beispiel zur Veranschaulichung: Wir möchten gerne herausfinden, wieviel Bier im Durchschnitt in einem Maßkrug auf dem Oktoberfest eingeschenkt wird. Wir vermuten nämlich, dass häufig zu wenig Bier gezapft wird, und die Krüge im Durchschnittmit weniger als einem Liter befüllt sind. Die Verteilung des Inhals eines Maßkrugs könnte in der Wahrheit zum Beispiel so aussehen:

In dieser Verteilung können wir z.B. ablesen, dass viele Krüge „fair“, d.h. in der Nähe von 1000ml befüllt sind, aber einige auch nur 950ml enthalten.

Es ist allerdings nicht sehr einfach, die gesamte Verteilung eines Merkmals so frei „von vorne“ zu bestimmen. Die Verteilung im oberen Bild lässt sich auch schwer beschreiben bzw. zusammenfassen – wir müssten die Grafik, oder eine lange Tabelle erstellen. Erst mit Hilfe dieser Tabelle würden wir dann z.B. Quantile berechnen

Stattdessen vereinfacht man sich diese Aufgabe in der Statistik häufig, indem man eine bestimmte Verteilungsfamilie unterstellt, man trifft also eine Annahme. Wir können zum Beispiel annehmen, dass der Inhalt eines Maßkrugs normalverteilt ist. Dann könnten wir davon ausgehen, dass der Inhalt eines Krugs vielleicht wie folgt verteilt ist:

Der Vorteil, die Verteilung vorher durch eine Annahme festzulegen ist, dass wir diese Verteilung jetzt ganz einfach durch zwei Parameter beschreiben können, nämlich die beiden Parameter der Normalverteilung: Mittelwert \(\mu\) und Varianz \(\sigma^2\). Jetzt reichen uns im Gegensatz zur oberen Grafik diese zwei Parameter, um die Verteilung vollständig zu charakterisieren: Es handelt sich um eine Normalverteilung mit den Parametern \(\mu = 985\) und \(\sigma^2 = 225\). Damit können wir sofort z.B. bestimmen, welchen Inhalt die 10% am wenigsten befüllten Krüge nicht überschreiten (es wäre das 10%-Quantil, hier 965.8ml – die Anleitung dazu zum Nachrechnen findet sich hier).

Wozu brauchen wir Parameterschätzung?

Um den Sinn der Parameterschätzung zu verstehen, muss man sich nur ein paar Dinge bewußt machen:

  1. Wir möchten eine Aussage über das Verhalten (z.B. den Mittelwert) eines bestimmten Merkmals in einer Grundgesamtheit treffen.
  2. Leider können wir nicht alle Daten, d.h. die ganze Grundgesamtheit, erhalten. Stattdessen bekommen wir nur eine Stichprobe, z.B. 100 Personen aus der Grundgesamtheit.
  3. Das beste was wir mit der Stichprobe machen können, ist einen Schätzwert für den Parameter zu berechnen.
  4. Wenn unsere Stichprobe groß genug und repräsentativ ist, können wir davon ausgehen dass dieser Schätzwert nah genug am wahren Wert liegt, so dass dieses Ergebnis für unsere Arbeit trotzdem hilfreich ist.

Greifen wir das oben erwähnte Beispiel mit den Maßkrügen nocheinmal auf:

Die Grundgesamtheit, über die wir hier eine Aussage machen wollen, sind alle ausgeschenkten Maßkrüge. Hätten wir diese Daten verfügbar, bräuchten wir den Mittelwert der Grundgesamtheit, d.h. aller Maßkrüge, gar nicht schätzen, sondern könnten ihn exakt berechnen!

Wir haben allerdings nur eine Stichprobe, zum Beispiel von 100 Maßkrügen. Wenn wir den Mittelwert des Inhalts dieser 100 Krüge berechnen, dann ist das höchstwahrscheinlich nicht exakt der wahre Mittelwert in der Grundgesamtheit, aber er wird nah genug daran liegen, dass dieser Wert trotzdem hilfreich ist. Wäre er das nicht, dann wäre der Job eines Statistikers nämlich ganz sinnlos. 🙂

Parameterschätzer sind die Grundlage für Hypothesentests

Ein weiterer wichtiger Punkt: Wir brauchen Parameterschätzer, um mit ihnen als nächsten Schritt Hypothesentests durchzuführen. Der Zusammenhang zwischen diesen Konzepten ist der folgende:

  • Für eine einzelne Stichprobe können wir natürlich ihren wahren Mittelwert berechnen – das ist einfach ihr Mittelwert, aus dem Bereich der deskriptiven Statistik.
  • Wir wissen dadurch allerdings noch nicht den wahren/gesamten Mittelwert in der Grundgesamtheit.
  • Den gesamten Mittelwert der Grundgesamtheit können wir allerdings mit Hilfe der Stichprobe schätzen. Er wird „wahrscheinlich“ in der Nähe des Mittelwerts der Stichprobe liegen. Das ist also unser Schätzer für den gesamten Mittelwert.
  • Mit Hilfe dieses Schätzers können wir nun einen Schritt weiter gehen, und Vermutungen (d.h. Hypothesen) über die Grundgesamtheit formulieren und überprüfen (testen) – zum Beispiel:
    • Der Stichprobenmittelwert ist zwar 12,4, aber könnte es noch sein, dass der wahre Mittelwert 10 ist? (Diese Frage beantwortet ein Hypothesentest).
    • In welchem Bereich liegt der gesamte Mittelwert der Grundgesamtheit mit einer Wahrscheinlichkeit von 95%? (diese Frage beantwortet dann ein Intervallschätzer).
      • Anmerkung: Diese Interpretation eines Intervallschätzers ist formal nicht ganz korrekt, aber viel einleuchtender für das Verständnis – und darum geht es mir in diesem Blog. Die Götter der Mathematik mögen mir vergeben 🙂

Alle diese Fragen beantwortet man mit Hilfe von gesammelten Daten und vorgegebenen Formeln, und in jedem Fall braucht man dafür als Zwischenschritt einen Parameterschätzer.

Was kann man schätzen?

Typischerweise, und besonders in einführenden Statistikveranstaltungen, schätzt man einen von drei Parametern eines Merkmals: (häufig bei nominalen Merkmalen) ein Prozentteil, sein Erwartungswert, oder seine Varianz.

Prozentuale Anteile

Wenn wir ein Merkmal mit nur zwei möglichen Ausprägungen (meistens „ja“ und „nein“) haben, interessiert uns zuallererst, wieviel Prozent der Beobachtungen „ja“ sind.

Messen wir z.B. auf dem Oktoberfest nach, ob ein Maßkrug mit weniger als einem Liter Bier befüllt ist, dann notieren wir pro Krug ein „ja“ oder ein „nein“, und können am Ende mit dieser Stichprobe schätzen, wieviel Prozent aller Krüge allgemein zuwenig Inhalt haben.

Erwartungswert

Der Erwartungswert eines Merkmals ist das Ergebnis, das wir im Durchschnitt erwarten würden. Wenn wir z.B. nicht nur wissen wollen ob ein Maßkrug zuwenig oder ausreichend Inhalt hat, sondern den genauen Inhalt in Milliliter messen wollen, ist der Erwartungswert einfach die durchschnittliche Biermenge in einem Glas. Angenommen wir bestellen 10 Maß Bier, und erhalten einen Schätzer von 950ml für den Erwartungswert, könnten wir schon misstrauisch werden, dass die Krüge fair befüllt werden.

Varianz

Oft reicht uns die Information nicht aus, dass z.B. im Erwartungswert nur 950ml Bier in einem Maßkrug enthalten sind. Es kommen eigentlich sofort weitere Fragen auf: Ist denn jeder Krug mit ziemlich genau 950ml befüllt, oder gibt es Krüge mit 850ml Inhalt, aber dafür auch andere Krüge mit 1050ml Inhalt? Und wie sicher können wir uns sein, dass der wahre Durchschnitt tatsächlich unter 1000ml liegt?

Solche Fragen werden mit Hilfe der Varianz beantwortet. Die Streuung eines Merkmals gibt uns Hinweise darauf, wie weit entfernt vom Erwartungswert die einzelnen Beobachtungen typischerweise sind.

Andere Verteilungsparameter

Man kann noch einige andere Parameter schätzen, die hier kurz erwähnt werden sollen, aber nicht ausgeführt werden. Zum Beispiel kann man genauso wie man den Erwartungswert schätzt, auch bestimmte Quantile einer Verteilung schätzen. Nimmt man das 50%-Quantil, schätzt man gleichbedeutend den Median einer Verteilung.

Für bestimmte Verteilungen schätzt man nicht Erwartungswert oder Varianz, sondern andere, eigene Parameter dieser Verteilung. Für die Exponentialverteilung schätzt man etwa ihren Parameter \(\lambda\).

Es ist sogar möglich, die gesamte Dichte eines Merkmals zu schätzen, ohne eine Annahme über die Verteilung zu treffen. Damit könnte man etwa die Dichte der ersten Grafik in diesem Artikel erstellen, ohne sie vorher zu kennen. Solche Methoden heißen (Kern-)Dichteschätzer, sie sind allerdings eher ein Thema für fortgeschrittene Statistikveranstaltungen.

Parameterschätzung bei der Regression

Auch bei der Regression schätzt man die Parameter des Modells. Das ist dann zum Beispiel der y-Achsenabschnitt \(a\) und die Steigung \(b\). Die Anwendung ist hier etwas anders als bei der Schätzung eines einzelnen Parameters, aber die Prinzipien dahinter sind identisch.