Archiv der Kategorie: Allgemein

Testen von Regressionsparametern

Testen von Einflüssen

In den bisherigen Artikeln haben wir uns nur mit dem Schätzen von den Parametern der Regression beschäftigt.

Manchmal ist das schon genug, und wir sind mit dem Ergebnis zufrieden. Wenn wir z.B. das Modell einfach nur verwenden möchten, um eine Vorhersage zu erstellen, dann brauchen wir nur die Parameter, und können dann, wenn wir neue Einflussgrößen bekommen, eine Vorhersage für die Zielgröße machen.

In der Praxis ist das Schätzen von Parametern aber oft nur der erste Schritt, und der zweite Schritt ist dann das Testen dieser Parameter. Denn oft interessiert uns als zweiter Schritt, ob eine bestimmte Einflussgröße „wichtig“ für die Vorhersage der Zielgröße ist.

„Wichtig“ definieren wir hier als: Nicht 0. Denn wenn ein Parameter in Wirklichkeit 0 oder nahe an 0 ist, dann hat eine Einflussgröße keinen Effekt auf die Zielgröße, und wir könnten sie einfach wieder entfernen.

Dazu ein Beispiel: Wir möchten das Gewicht einer Person vorhersagen, mit Hilfe seiner Körpergröße (in Metern) und der Hausnummer seiner Adresse.

Die Grafiken zeigen, dass größere Menschen tendenziell schwerer sind, d.h. der Regressionsparameter \(b\) für die Körpergröße wird wahrscheinlich größer als Null sein. Allerdings gibt es zwischen der Hausnummer und dem Gewicht einer Person (wie erwartet) keinen wirklichen Zusammenhang. Der Vorteil ist nun, dass wir diese Variable rauswerfen können, und in zukünftigen Befragungen die Leute nicht mehr nach ihrer Adresse fragen müssen. Dadurch sparen wir Zeit und evtl. auch Geld, und der kürzere Fragebogen führt vielleicht auch zu mehr Bereitschaft zur Teilnahme, und damit einer größeren Stichprobe am Ende.

Hypothesen

Wir möchten also, wie oben beschrieben, wissen welche Einflussgrößen bzw. Parameter „wichtig“ für unser Regressionsmodell sind.

Die Hypothesen bei einer linearen Regression sind immer gleich. Für jeden berechneten Parameter, z.B. \(a\) und \(b\) bei der einfachen linearen Regression, führen wir einen Test durch, mit zwei Hypothesen. Am Beispiel für den Steigungsparameter \(b\) der Regressionsgeraden lauten sie: \(H_0\): Der Parameter \(b\) ist Null. \(H_1\): Der Parameter \(b\) ist ungleich Null.

Wenn wir diesen Test durchführen, und als Resultat die Nullhypothese ablehnen, dann können wir sagen, dass der Parameter \(b\) „signifikant ist“. Wir meinen damit ausführlich: Der Parameter \(b\) ist signifikant von Null verschieden.

Signifikanz

Das Signifikanzniveau, das wir festlegen müssen, gibt an wie sicher wir uns sein möchten, bevor wir die Nullhypothese bei einem Test ablehnen. Es ist genau dasselbe Prinzip wie bei den Hypothesentests in der Parameterschätzung. Punkt 3 in diesem Artikel erklärt dieses Prinzip bereits gut, aber es sei hier nochmal kurz zusammengefasst:

Wir nennen einen Parameter signifikant ungleich 0, wenn es „sehr unwahrscheinlich“ ist, dass der wahre Parameter 0 ist.

Wann etwas „sehr unwahrscheinlich“ ist, muss man vohrer definieren, indem man ein Signifikanzniveau \(\alpha\) festlegt. Meist ist, wie bei anderen Hypothesentests auch, \(\alpha=0.05\) ein gerne genutzter Wert. Das bedeutet sinngemäß, dass wir nur in 5% der Fälle die Nullhypothese ablehnen, obwohl sie in Wirklichkeit wahr ist. Wenn man allerdings noch sicherer sein möchte, keinen Fehler zu machen, kann man z.B. auch \(\alpha=0.01\) setzen.

Hier rechnen wir mit p-Werten

Wir erinnern uns, dass es zwei mögliche Arten gibt, die Entscheidung eines Tests zu berechnen: Entweder durch das Bestimmen eines kritischen Bereichs, oder durch das Berechnen eines p-Werts.

Detailliert wurde der Unterschied dieser beiden Wege in diesem Artikel bereits erklärt. Aber zusammenfassend sei nochmal gesagt:

  • Bei der Berechnung via kritischen Bereich bestimmt man eine Prüfgröße \(T\) und einen kritischen Bereich (meist ein oder zwei Intervalle). Der kritische Bereich hängt auch vom Signifikanzniveau \(\alpha\) ab. Wenn die Prüfgröße im kritischen Bereich liegt, wird die Nullhypothese abgelehnt, anderenfalls nicht.
  • Bei der Berechnung via p-Wert bestimmt man nur eine Zahl, den p-Wert. Wenn dieser kleiner ist als das vorgegebene Signifikanzniveau \(\alpha\), dann wird die Nullhypothese abgelehnt, anderenfalls nicht.

Hier sieht man auch einen weiteren Vorteil an der Variante via p-Wert: Man sieht sofort, zu welchem Signifikanzniveau dieser Test die Nullhypothese ablehen würde. Wenn der p-Wert also zum Beispiel p=0.0832 ist, dann würden wir direkt sehen, dass man zum Niveau  \(\alpha=0.05\) die Nullhypothese nicht ablehnen würde, aber zum Niveau \(\alpha=0.1\) schon – denn 0.0832 ist kleiner als 0.1. Würde man stattdessen mit dem kritischen Bereich rechnen, bekäme man am Anfang nur die Information: „Zum Niveau \(\alpha=0.05\) ist der Test nicht signifikant“. Man müsste ihn dann zum Niveau \(\alpha=0.1\) nocheinmal von vorne rechnen.

Im Kapitel zu Hypothesentests bei Vereteilungsparametern haben wir noch viel mit kritischen Bereichen gerechnet, da diese Variante gut mit der Hand zu berechnen ist, und sie daher in Klausuren immer noch abgefragt wird. In der Realität, und besonders bei komplexeren Hypothesentests, wird die Testentscheidung allerdings fast ausschließlich mit p-Werten berechnet. Das Ergebnis (der p-Wert) ist einfacher zu interpretieren, und gibt etwas detailliertere Informationen zurück als die sture „ja“/“nein“-Entscheidung, wenn man den Weg über den kritischen Bereich geht.

Ein p-Wert ist ein bisschen schwerer von Hand zu berechnen, aber wir gehen hier davon aus, dass wir in einer Klausur oder Übungsaufgabe nie einen p-Wert von Hand berechnen müssen. Oftmals ist in einer Klausur zum Beispiel eine „fertige“ Regression abgedruckt, und man muss die Ergebnisse in eigenen Worten interpretieren können.

Hier ist nochmal das Bild mit den Daten von oben, aber diesmal mit Regressionsgeraden eingezeichnet.

Für den Zusammenhang zwischen Körpergröße und Gewicht sieht man eine klare positive Steigung. Für die Hausnummer sieht man zwar eine ganz leicht steigende Gerade, die allerdings nicht signifikant ist – das sehen wir an der Ausgabe der Regression:

Schätzer Standardfehler t-Statistik p-Wert
Intercept \(a\) -48.012 30.144 -1.593 0.130
Größe \(b_1\) 0.730 0.175 4.181 0.001
Hausnummer \(b_2\) 0.068 0.069 0.985 0.339

Jedes Statistikprogramm gibt das Ergebnis etwas anders aus, aber die wichtigsten Zeilen sind die für den Schätzer, und die für den p-Wert. An dieser Ausgabe kann man die folgenden Dinge ablesen:

  • In der Spalte Schätzer sieht man: die Regressionsgerade lautet: \(y = -48.012 + 0.730\cdot x_1 + 0.068\cdot x_2\), wobei \(x_1\) die Körpergröße in cm ist, und \(x_2\) die Hausnummer einer Person.
    • Der Parameter \(b_1\) ist 0.730. Das heißt also, dass eine Person die 1cm größer ist, im Durchschnitt geschätzt 0.730kg, also 730 Gramm mehr wiegt.
    • Der Parameter \(b_2\) ist 0.068. Das heißt also, dass eine Person deren Hausnummer um 1 höher ist, etwa 0.068kg, also 68 Gramm mehr wiegt. Ob dieser Zusammenhang aber auch tatsächlich da ist, also statistisch signifikant ist, werden wir gleich sehen.
  • Die Spalten Standardfehler sowie t-Statistik sind Zwischenergebnisse, die man zum Berechnen des p-Werts in der letzten Spalte benötigt. Manche Statistikprogramme geben diese Werte auch gar nicht aus. Meist kann man die ignorieren, da man nur am p-Wert interessiert ist.
  • Der p-Wert für jeden Parameter liefert uns nun die Information, ob ein Parameter „wichtig“ oder nicht ist, d.h. ob er signifikant ist.
    • Der p-Wert für den Intercept wird normalerweise auch ignoriert, da er keine Aussage über einen Parameter trifft. Meistens beachtet man ihn nicht.
    • Der p-Wert für die Körpergröße, also für den Parameter \(b_1\), ist hier 0.001. Das ist weit kleiner als das Signifikanzniveau \(\alpha=0.05\), daher ist dieser Parameter signifikant. Wir können also sagen, dass die Körpergröße einen signifikanten Einfluss auf das Gewicht einer Person hat.
    • Der p-Wert für die Hausnummer einer Person, also für den Parameter \(b_2\), ist 0.339. Das ist recht groß, insbesondere größer als das Signifikanzniveau von 0.05. Die Hausnummer einer Person hat also keinen signifikanten Einfluss auf ihr Gewicht.

Obwohl der Parameter für die Hausnummer einer Person nicht signifikant ist, wird er natürlich durch den Zufall bedingt niemals als genau 0 geschätzt. Es kommt immer eine gewisse Zahl dabei heraus, und die Interpretation klingt in diesem Fall tatsächlich etwas komisch: eine Person, deren Hausnummer um 1 höher ist, wiegt etwa 68 Gramm mehr.

Einseitige vs. zweiseitige Tests

Wie bei Hypothesentests für Verteilungsparameter, können wir uns auch hier für einseitige oder zweiseitige Tests entscheiden. Der Unterschied ist in diesem Artikel gut erklärt, aber nochmal kurz die Zusammenfassung:

Ein einseitiger Test hat den Vorteil dass er bei geringer Stichprobengröße mit wenig Beweiskraft einen Effekt auch dann erkennt, wenn ein zweiseitiger Test ihn noch nicht erkennen würde. Ein zweiseitiger Test braucht immer etwas mehr Daten bzw. einen etwas eindeutigeren Zusammenhang, um diesen dann auch als signifikant zu erkennen.

Trotzdem verwendet man eigentlich immer zweiseitige Tests. Denn dann ist man unvoreingenommen und ganz neutral bezüglich irgendwelcher Vorurteile gegen mögliche Zusammenhänge in den Daten. Auch in den gängigen Statistikprogrammen werden standardmäßig zweiseitige Tests verwendet.

Natürlich kann man trotzdem einen einseitigen Test verwenden – in Klausuren wird das auch gerne mal verlangt – aber in der Praxis muss man die Wahl dann schon gut begründen können.

Der absolute Wert des Parameters sagt wenig aus

Es ist noch wichtig zu erwähnen, dass man die „Wichtigkeit“ eines Parameters nicht an seinem absoluten Wert ablesen kann. Wenn man also einen Koeffizienten von \(b = 0.5158\) hat, weiß man noch lange nicht ob er wichtig, d.h. signifikant oder nicht ist.

Es kommt nämlich darauf an, auf welcher Skala die Einflussgröße lebt. Dazu ein kurzes Beispiel: Wir messen die Größe einer Person, und ihr Gewicht. Auf der linken Grafik zeigen wir das Ergebnis, wenn wir die Größe in Zentimetern messen: \(y = -7.26 + 0.5158 \cdot x\). Der Steigungsparameter ist hier also \(b=0.5158\). Auf der rechten Grafik zeigen wir genau dieselben Daten, aber das ist das Ergebnis, falls wir die Körpergröße in Metern gemessen hätten. Das Ergebnis wäre dann \(y = -7.26 + 51.58 \cdot x\).

Das ist im Prinzip dasselbe Regressionsmodell, nur mit unterschiedlich skalierten Einflussgrößen. Du kannst gerne vergewissern, dass für deine persönliche Größe auch in beiden Modellen dasselbe Gewicht vorhergesagt wird. Bei einer Größe von 170cm wäre es z.B. für das Ergebnis \(y\) egal, ob man (im linken Modell) \(0.5158 \cdot 170\), oder (im rechten Modell) \(51.58 \cdot 1.70\) rechnet.

Das bedeutet, dass man für eine Aussage zur Wichtigkeit eines Parameters immer den Parameterschätzer zusammen mit dem p-Wert betrachten muss.

Beispielaufgabe

Die folgende Aufgabe soll dabei helfen, ein Gespür dafür zu bekommen, wie ein plausibles Regressionsmodell aussieht.

Ein Marktforschungsunternehmen möchte mit einem Regressionsmodell die Verkaufszahlen für Zahnpasta in einer Ladenkette vorhersagen. Als Einflussgrößen hat es dafür den Preis einer Tube Zahnpasta, und die Außentemperatur in °C zur Verfügung.

Das Unternehmen sammelt also über einen Monat hinweg Daten, und rechnet dann eine Regression.

Die Regressionsgerade für diese Studie lautet: \(y = a + b_1 * x_1 + b_2 * x_2\), wobei \(x_1\) der Preis einer Tube in Euro ist, und \(x_2\) die Außentemperatur in °C.

Wir haben schon eine Vorahnung, wie der Einfluss auf die Verkaufszahlen aussehen wird:

  1. Wir erwarten, dass der Preis einer Tube \(x_1\) einen negativen Einfluss auf die Verkaufszahlen hat, d.h. wenn der Preis größer wird, dann müssten weniger Tuben verkauft werden, d.h. die Zielgröße \(y\) wird kleiner.
  2. Für die Außentemperatur \(x_2\) vermuten wir keinen Einfluss. Bei einer Eisdiele wäre das anders, denn bei mehr Sonne wird normalerweise auch mehr Eis verkauft. Hier gehen wir aber mal davon aus, dass Zahnpasta zu jedem Wetter gleich gut verkauft wird.

Welches der folgenden Ergebnisse ist auf diese zwei Vermutungen hin das plausibelste?

a)
Parameter Schätzer p-Wert
\(a\) 1543.22 0.013
\(b_1\) 0.012 0.042
\(b_2\) 2.042 0.013
b)
Parameter Schätzer p-Wert
\(a\) 1543.22 0.013
\(b_1\) -934.02 0.017
\(b_2\) 37.02 0.006
c)
Parameter Schätzer p-Wert
\(a\) 1543.22 0.013
\(b_1\) -952.21 0.003
\(b_2\) -13.23 0.493
d)
Parameter Schätzer p-Wert
\(a\) 1543.22 0.013
\(b_1\) 12.23 0.342
\(b_2\) 63.42 0.255
Lösung (klick)

Das plausibelste Ergebnis finden wir indem wir unsere „Vorahnungen“ in Zahlen umformulieren:

  1. Der Preis einer Tube \(x_1\) soll einen negativen Einfluss auf die Verkaufszahlen haben. Das heißt dass \(b_1\) kleiner als 0 sein soll, und dazu auch noch signifikant (d.h. mit einem kleinen p-Wert, idealerweise unter 0.05)
  2. Die Außentemperatur soll keinen Einfluss haben. Das heißt dass der p-Wert für \(b_2\) groß sein soll, insbesondere größer als 0.05.

Nur in der Variante c) treffen beide dieser Erwartungen zu. Das ist also ein Ergebnis das sich mit unseren Erwartungen deckt. Die Regressionsgerade lautet hier:

\(y =1543.22 – 952.21 \cdot x_1 – 13.23 \cdot x_2 \)

Klausuraufgabe

In einem Mietspiegel wird jährlich festgehalten, wie hoch die Nettomiete (d.h. ohne Nebenkosten wie Heizung) in einer bestimmten Region ist. Es werden Wohnungen erhoben, und als Merkmale unter Anderem ihre Nettomiete, ihre Größe (in Quadratmetern, qm), und die Information, ob die Wohnung einen Balkon hat (als kategoriale Variable, „ja“/“nein“).

Es wurde ein Regressionsmodell erstellt, um die Nettomiete für eine Wohnung vorherzusagen. Die Regressionsgerade lautet:

\[y = 62.5 + 8.75\cdot x_1 + 189.29\cdot x_2\]

wobei \(x_1\) die Größe in qm ist, und \(x_2\) die Variable für „Balkon vorhanden“ – sie ist 1, wenn die Wohnung einen Balkon hat, und 0 wenn sie keinen hat.

Der gesamte Output des Regressionsmodells, inkl. p-Werte, lautet:

Parameter Schätzer p-Wert
\(a\) 62.5 0.031
\(b_1\) 8.75 0.002
\(b_2\) 31 0.238

a) Interpretiere \(b_1\), den Parameter für die Wohnfläche, einzeln. Ist er kleiner oder größer als Null? Ist er zum Niveau \(\alpha = 0.05\) signifikant oder nicht? Was bedeutet das dann für die Vorhersage der Nettomiete?

b) Interpretiere nun genauso \(b_2\), den Parameter für den Balkon.

c) Berechne die Vorhersage für die Nettomiete Zielgröße für eine Wohnung, die 66qm groß ist und einen Balkon besitzt.

d) Wie würde sich die Vorhersage aus c) verändern, wenn die Wohnung keinen Balkon hätte?

Lösung (klick)

a) Der Parameter \(b_1\) ist 8.75. Das bedeutet, dass eine Wohnung für jeden qm den sie größer wird, 8.75€ mehr kostet. Bei einer Wohnung die 10qm größer ist als eine andere, erwarten wir dass sie um 87.50€ teurer ist – unter der Annahme dass alle anderen Einflussgrößen gleich sind, d.h. beide Wohnungen müssen einen Balkon haben, oder beide Wohnungen müssen keinen Balkon haben.

Der Parameter \(b_1\) ist signifikant, da der p-Wert 0.002, und somit kleiner als \(\alpha=0.05\) ist. Das heißt dass die Wohnfläche (wie zu erwarten war) einen signifikanten Einfluss auf die Nettomiete hat.

b) Der Parameter \(b_2\) liegt bei 31. Das heißt dass wir erwarten, dass eine Wohnung mit Balkon um 31€ teurer ist als eine Wohnung ohne Balkon – vorausgesetzt die Wohnfläche bleibt gleich. Der p-Wert ist  hier 0.238, und damit ist der Parameter nicht signifikant. Wir konnten also nicht nachweisen, dass die 31€ Unterschied auch wirklich statistisch signifikant sind. Es ist gut möglich, dass ein Balkon „in Wirklichkeit“ keinen Einfluss auf die Nettomiete hat.

c) Obwohl der Parameter \(b_2\) für den Balkon nicht signifikant ist, muss er hier natürlich trotzdem verwendet werden. Man darf ihn nicht einfach entfernen – ansonsten wäre das restliche Modell nicht mehr gültig. Wenn man ihn wirklich herausnehmen möchte, dann müsste man das Modell noch einmal neu rechnen – denn dann würde sich auch der Wert \(b_1\) für die Wohnfläche ändern.

Um die Vorhersage zu erhalten, setzen wir in die Regressionsgerade einfach \(x_1=66\) und \(x_2=1\) ein, und erhalten:

\[y = 62.5 + 8.75\cdot 66 + 189.29\cdot 1 = 829.29\]

Wir erwarten also, dass diese Wohnung 829.29€ Miete kosten wird.

d) Wenn die Wohnung keinen Balkon hätte, dann würde sich die Einflussgröße \(x_2\) von 1 auf 0 ändern. Wir könnten also eine Abkürzung nehmen, und von den eben berechneten 829.29€ einfach 31€ abziehen, und hätten dann die Lösung: 798.29€.

Natürlich könnten wir alternativ auch auf Nummer Sicher gehen und die gesamte Formel nochmal ausrechnen:

\[y = 62.5 + 8.75\cdot 66 + 189.29\cdot 0 = 798.29\]

Konfidenzintervalle für die geschätzten Parameter

Stell dir vor, du möchtest den Zusammenhang zwischen den beiden Variablen \(x = \) Körpergröße und \(y = \) Körpergewicht erforschen, und du befrägst \(n=6\) Personen nach diesen beiden Werten. Du erhältst ein Regressionsmodell mit der geschätzten Geraden \(y = 17.2 + 0.48 \cdot x\). Für eine 180cm große Person schätzt dieses Modell also ein Körpergewicht von \(17.2 + 0.48 \cdot 180 = 103.6kg\).

Fünf deiner Freunde sind aber an derselben Frage interessiert, und fragen selbst jeder \(n=6\) Personen nach diesen Daten. Bei ihnen ergeben sich natürlich andere Regressionsgeraden. Das Ergebnis der 6 Stichproben könnte z.B. so aussehen:

Wir haben also eine gewisse Unsicherheit in der Schätzung.  Die Regressionsgerade (d.h., die beiden Parameter \(a\) und \(b\), durch die die Gerade beschrieben wird) kann nie exakt berechnet werden, sondern immer nur geschätzt werden, und ist daher mit Unsicherheit behaftet.

Ein Konfidenzintervall kann diese Unsicherheit nun in Zahlen ausdrücken.

Was sind Konfidenzintervalle?

Für eine allgemeine Einführung, was ein Konfidenzintervall (abgekürzt: ein KI) ist, empfehle ich, erstmal den entsprechenden Artikel zu lesen und zu verstehen. Um KIs bei der Regression zu verstehen, hilft es enorm, erstmal die einfachere Variante der KIs für Schätzer zu verstehen. Denn die Regression ist im Grunde genommen einfach nur eine Art der Parameterschätzung: In der einfachen linearen Regression suchen wir die Parameter \(a\) und \(b\), und sie werden genauso geschätzt wie ein einfacher Verteilungsparameter: Durch eine Schätzfunktion, die die Daten aus einer erhobenen Stichprobe auf eine passende Art zusammenfasst. Das Ergebnis ist dann ein Punktschätzer, und die kennen wir ja auch schon aus dem Bereich der Parameterschätzer.

Wenn man nun versteht, dass die Parameter \(a\) und \(b\) bei der Regression auf denselben Prinzipien aufbauen wie ein Parameter z.B. beim Schätzen des Mittelwerts einer Normalverteilung, hat man einen großen Vorteil, denn man muss diese Prinzipien nur einmal lernen und verstehen. Und durch die Verknüpfung der beiden Anwendungsmöglichkeiten festigt sich die Information dann viel besser im Gehirn.

Ein Parameter einer Regression ist also ein Punktschätzer. Und für ihn gibt es – wieder ganz analog zu allen anderen Punktschätzern – entsprechende Konfidenzintervalle. Diese sagen aus, wie sicher wir uns mit dieser Schätzung sind. Wenn wir also nur sehr wenige Daten haben, ist das Intervall relativ groß, da wir nicht sehr sicher sind, ob der wahre Parameter nicht doch wo ganz anders liegt. Wenn wir aber eine sehr große Stichprobe haben, dann können wir uns ziemlich sicher sein, recht nah am wahren Parameter dran zu sein – das Konfidenzintervall wird also kleiner sein.

Wenn wir eine Regression berechnen, dann gehen wir davon aus, dass es ein wahres Modell gibt, also z.B. die Parameter \(a = 3.2\) und \(b = 1.6\). Wir nehmen an dass es diese wahren Parameter gibt, aber in der Praxis kennen wir sie dann nicht – wir möchten sie daher schätzen.

Wir haben als Daten nicht die komplette Grundgesamtheit verfügbar, sondern nur eine kleine Stichprobe. Daher werden die Parameter, die wir schätzen, quasi niemals die wahren Parameter sein, sondern nur irgendwo in der Nähe liegen – vielleicht schätzen wir z.B. \(\hat{a} = 3.0\) und \(\hat{b} = 1.63\). Das ist die beste Schätzung die wir mit der Stichprobe machen können, denn die wahren Werte kennen wir ja nicht. Wir werden immer eine gewisse Unsicherheit bei der Schätzung dabei haben. Aber: je mehr Daten uns zur Verfügung stehen, also je größer unsere Stichprobe ist, desto sicherer sind wir uns mit dem Ergebnis, d.h. desto kleiner ist unsere Unsicherheit bei der Schätzung. Das zeigt sich dann in einem engeren Konfidenzintervall.

Wie werden Konfidenzintervalle interpretiert?

Ein KI für einen Regressionsparameter, nehmen wir zum Beispiel einfach die Steigung \(b\), wird genauso interpretiert wie ein KI für z.B. den Mittelwert von normalverteilten Daten. Wie das geht, kann man in diesem Artikel nachlesen.

Das Konfidenzintervall für einen Regressionsparameter, z.B. \(a\) oder \(b\), sagt aus, in welchem Bereich der wahre Parameter „ziemlich sicher“ liegen könnte. Wenn wir uns zu 95% sicher sein möchten, heißt dass das wir eine Irrtumswahrscheinlichkeit von 5% tolerieren – dann setzen wir das Konfidenzniveau \(\alpha\) auf 5%, also ist dann \(\alpha = 0.05\). Genauso wie bei Parameterschätzern einer Verteilung gibt man hier also an, wie sicher man sich mit dem Konfidenzintervall sein möchte. Ein 95%-Konfidenzintervall (d.h. mit \(\alpha = 0.05\)) für den Parameter \(b\) könnte z.B. bei \([1.57, \, 1.69]\) liegen. Dann könnten wir sagen, dass wir den wahren Regressionsparameter \(b\) als 1.63 geschätzt haben, aber der wahre (und uns unbekannte) Wert auch irgendwo zwischen 1.57 und 1.69 liegen könnte – das wäre durch unsere Stichprobe auch noch plausibel.

Man schreibt das KI dann entweder als Intervall, in der Schreibweise \([1.57, \, 1.69]\), oder in der Schreibweise „Schätzer plus/minus Abstand“, also z.B. \(1.63 \pm 0.06\). Die beiden Schreibweisen beschreiben aber dasselbe Intervall.

Wie werden Konfidenzintervalle berechnet?

Auch beim Berechnen von KIs hilft es, sich noch einmal das Vorgehen für KIs bei Verteilungsparametern durchzulesen. Denn ein KI für einen Regressionsparameter berechnet man genau auf die selbe Weise. Wir brauchen dazu:

  • den Punktschätzer für den Parameter, z.B. \(\hat{a}\)
  • die Varianz dieses Parameters, z.B. \(\sigma^2_{\hat{a}}\)
    • Diese Varianz ist etwas komplizierter von Hand zu berechnen. Bei der einfachen linearen Regression geht das noch, aber bei der multiplen Regression, also mit mehreren Einflussgrößen, sollte man das unbedingt per Computer lösen. Sollte man in einer Klausur wirklich mal ein KI von Hand berechnen müssen, dann ist die Varianz hoffentlich schon gegeben.
  • das Konfidenzniveau \(\alpha\)
  • die Verteilungstabelle der t-Verteilung, um dort die Quantile abzulesen. Wir brauchen das \(1-\frac{\alpha}{2}\)-Quantil der t-Verteilung mit \(n-p-1\) Freiheitsgraden. Das notieren wir insgesamt mit dem Term \(t_{1-\frac{\alpha}{2}}(n-p-1)\). Er sieht auf den ersten Blick etwas kompliziert aus, aber das sind nur zwei Zahlen, die sich da drin verstecken: Das Quantil, und die Anzahl der Freiheitsgrade.
    Dabei ist \(n\) die Stichprobengröße, und \(p\) die Anzahl der Einflussgrößen. Bei der einfachen linearen Regression, also mit nur einer Einflussgröße, brauchen wir also z.B. das Quantil mit \(n-2\) Freiheitsgraden.
    Das Quantil ist bei einem Konfidenzniveau von 0.05 dann z.B. das 0.975-Quantil, oder das 97.5%-Quantil.

Das Konfidenzintervall für den ersten Parameter der Regression, also \(a\), lautet dann

\[ \hat{a} \pm \hat{\sigma}_\hat{a} \cdot t_{1-\alpha/2}(n-p-1) \]

Wir berechnen also als erstes den Term \(\hat{\sigma}_\hat{a} \cdot t_{1-\alpha/2}(n-p-1)\). Angenommen es kommt 1,43 heraus. Das Konfidenzintervall geht dann einfach von der unteren Grenze \(\hat{a} – 1.43\) bis zur oberen Grenze \(\hat{a} + 1.43\). Es ist symmetrisch um den Schätzwert \(\hat{a}\) herum.

Das KI für den zweiten Parameter \(b\) berechnet man genauso, nur dass man in der oberen Formel \(\hat{a}\) durch \(\hat{b}\) ersetzt.

Konfidenzintervall für die Varianz

Das Konfidenzintervall für die Varianz eines Merkmals berechnet man mit Hilfe der \(\chi^2\)-Verteilung. Man benötigt zum Berechnen eines Konfidenzintervalls nun zwei Werte aus der Tabelle der \(\chi^2\)-Verteilung: Falls wir z.B. ein 90%-Konfidenzintervall berechnen möchten, brauchen wir die Schranken zu den äußeren 10% der \(\chi^2\)-Verteilung, das heißt also auf der linken Seite das 5%-Quantil, und auf der rechten Seite das 95%-Quantil.

Allgemein gesagt benötigen wir für ein KI mit der Irrtumswahrscheinlichkeit \(\alpha\) die beiden Quantile \(\chi^2_{\frac{\alpha}{2}}(n-1)\) und \(\chi^2_{1-\frac{\alpha}{2}}(n-1)\). Bei einem 90%-KI ist die Irrtumswahrscheinlichkeit 10%, also ist \(\alpha = 0.1\). In diesem Fall brauchen wir das Quantil \(\chi^2_{0.05}(n-1)\) sowie \(\chi^2_{0.95}(n-1)\). In den Klammern steht die Anzahl der Freiheitsgrade (damit finden wir die relevante Zeile in der Tabelle), und die kommt auf die Stichprobengröße \(n\) an.

Die Formel für das KI der Varianz lautet insgesamt:

\[ \left[ \frac{(n-1) \cdot S^2}{\chi^2_{\frac{\alpha}{2}}(n-1)}, \frac{(n-1) \cdot S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)} \right] \]

Und wie üblich darf man sich von auf den ersten Blick komplizierten Notationen nicht erschrecken lassen: Im Nenner steht jeweils nur eine einzelne Dezimalzahl, nämlich ein Quantil der \(\chi^2\)-Verteilung mit \(n-1\) Freiheitsgraden. Das linke Ende des KIs ist einfach das \(\frac{\alpha}{2}\) Quantil (z.B. das 5%-Quantil), und das rechte Ende das \(1-\frac{\alpha}{2}\) Quantil (z.B. das 95%-Quantil).

Das \(S^2\) im Zähler ist die Stichprobenvarianz, die wir mit der üblichen Formel \(S^2 = \sum_{i=1}^n (x_i – \bar{x})^2\) berechnen.

Beispielaufgabe

Wir möchten herausfinden, in welchem Bereich die Varianz der Körpergröße von Männern wohl liegen wird. Dazu befragen wir 14 Männer nach ihrer Größe. Wir erhalten glücklicherweise nicht die rohen Daten, sondern schon die folgenden Zusammenfassungen der Stichprobe:

  • \(\bar{x} = 174cm\)
  • \(S^2 = 97.33\)

Berechne mit diesen Angaben ein 90%-Konfidenzintervall für die Varianz der Körpergröße unter Männern.


Wir betrachten einfach die Formel für das Konfidenzintervall, und füllen nacheinander alle fehlenden Zahlen ein:

\[ \left[ \frac{(n-1) \cdot S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)}, \frac{(n-1) \cdot S^2}{\chi^2_{\frac{\alpha}{2}}(n-1)} \right] \]

Wir benötigen also die Werte:

  • \(n-1\), das ist 13, denn wir haben \(n=14\) Männer befragt.
  • \(S^2 = 97.33\), das haben wir aus dem Aufgabentext entnommen. (Manchmal muss man aber die Stichprobenvarianz \(S^2\) in einer Klausur erst selbst aus den Rohdaten berechnen.)
  • \(\alpha\) ist die Irrtumswahrscheinlichkeit. Wenn wir ein 90%-Konfidenzintervall suchen, dann ist die Irrtumswahrscheinlichkeit 10% bzw. 0.1, also ist \(\alpha=0.1\)
  • \(\chi^2_{1-\frac{\alpha}{2}}(n-1)\) – das ist das 95%-Quantil (denn \(\alpha = 0.1\)) der \(\chi^2\)-Verteilung mit 13 Freiheitsgraden. Aus der Tabelle lesen wir in der Zeile \(df=13\) und der Spalte \(q=0.95\) ab, dass dieser Wert 22.362 ist.
  • \(\chi^2_{\frac{\alpha}{2}}(n-1)\) – das ist das 5%-Quantil derselben \(\chi^2\)-Verteilung. In der Zeile \(df=13\) und der Spalte \(q=0.05\) lesen wir also den Wert 5.892 ab.

Damit können wir alle Werte in das Intervall einsetzen:

\[ \left[ \frac{13 \cdot 97.33}{22.362}, \frac{13 \cdot 97.33}{5.892} \right] = \left[ 56.58, 214.75 \right] \]

Das 90%-Konfidenzintervall für die Varianz der Körpergrösse von Männern ist also [56.58, 214.75], d.h. die wahre Varianz liegt wahrscheinlich in diesem Bereich.

Klausuraufgabe

Im 100-Meter-Sprint auf der Olympiade 2016 in Rio waren die Zeiten der 8 Teilnehmer die folgenden:

Platz Name Land Zeit
Gold Usain Bolt JAM 9.81
Silber Justin Gatlin USA 9.89
Bronze Andre De Grasse CAN 9.91
4. Yohan Blake JAM 9.93
5. Akani Simbine RSA 9.94
6. Ben Youssef Meite CIV 9.96
7. Jimmy Vicaut FRA 10.04
8. Trayvon Bromell USA 10.06

Berechne einen Schätzer für die Varianz der Sprintergebnisse, und erstelle danach ein 90%-Konfidenzintervall für die Varianz.

Lösung (klick)

Um den Schätzer für die Varianz auszurechnen, verwenden wir die Formel für die Stichprobenvarianz, also \(S^2\):

\[ \hat{\sigma}^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2 \]

Wir brauchen zuerst den Mittelwert der 8 Zeiten: er ist 9.9425. Der Schätzer für die Varianz, also \(\hat{\sigma}^2\) ist dann \(S^2 = 0.00645\).

Die gesamte Formel für das KI lautet:

\[ \left[ \frac{(n-1) \cdot S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)}, \frac{(n-1) \cdot S^2}{\chi^2_{\frac{\alpha}{2}}(n-1)} \right] \]

Wir sammeln also die einzelnen Werte, die wir dort einsetzen müssen:

  • \(S^2\) ist der Schätzer für die Varianz, den haben wir gerade berechnet: \(S^2 = 0.00645\).
  • \(\alpha\) ist die Irrtumswahrscheinlichkeit. Da wir ein 90%-Intervall möchten, ist die Irrtumswahrscheinlichkeit 10%, also ist \(\alpha = 0.1\).
  • \(\chi^2_{1-\frac{\alpha}{2}}(n-1)\) sieht etwas tricky aus, aber es ist nur ein einzelner Wert, den wir in der Tabelle der Chi-Quadrat-Verteilung nachschlagen müssen: Wir brauchen das \(1-\frac{\alpha}{2}\)-Quantil, also das 95%-Quantil der Chi-Quadrat-Verteilung mit \(n-1\), also mit 7 Freiheitsgraden (da wir \(n=8\) Sprinter in der Stichprobe hatten). In der Tabelle sehen wir also in der Zeile df=7 und in der Spalte q=0.95 nach, und finden dort den Wert 14.067
  • \(\chi^2_{\frac{\alpha}{2}}(n-1)\) ist ganz analog dazu das 5%-Quantil, bei immer noch 7 Freiheitsgraden. Dieser Wert ist 2.167.
  • \(n-1\) ist 7, da wir 8 Personen in der Stichprobe haben.

Wir können also nun alle Werte in der Formel ersetzen:

\[ \left[ \frac{7 \cdot 0.00645}{14.067}, \frac{7 \cdot 0.00645}{2.167} \right] \]

Das fertige Intervall ist dann \([0.0032, 0.0208]\). Wir können also mit einer Irrtumswahrscheinlichkeit von 10% davon ausgehen, dass die wahre Varianz unter den olympischen Sprintern sich irgendwo zwischen 0.0032 und 0.0208 bewegt.

Konfidenzintervall für den Erwartungswert

Das KI für den Erwartungswert folgt einem ähnlichen Prinzip wie das bereits besprochene KI für einen Anteilswert:

\[ \text{Parameter} \pm \text{Quantil} \cdot \sqrt{\frac{\text{Varianz}}{n}} \]

In den meisten Fällen in der Realität ist die wahre Varianz nicht bekannt, und wird auch einfach aus der Stichprobe geschätzt. In einer Klausur wird der Fall, dass die Varianz \(\sigma^2\) bekannt ist, allerdings noch gefordert – daher betrachten wir ihn hier extra.

Die Formeln für die Konfidenzintervalle der beiden Varianten unterscheiden sich nur minimal:

  • Wenn die wahre Varianz \(\sigma^2\) bekannt ist, nehmen wir in der Formel direkt die wahre Varianz \(\sigma^2\) – anderenfalls schätzen wir sie durch die Stichprobenvarianz \(s^2\) und nehmen diesen Wert.
  • Wenn die wahre Varianz \(\sigma^2\) bekannt ist, dann nehmen wir das Quantil der Normalverteilung – anderenfalls nehmen wir das Quantil der t-Verteilung mit \(n-1\) Freiheitsgraden.
    • Wenn wir allerdings eine ausreichend große Stichprobe haben, z.B. \(n>30\), dann können wir doch wieder das Quantil der Normalverteilung verwenden.

Sehen wir uns die Formeln der beiden KIs also an:

KI für den Erwartungswert \(\mu\), falls Varianz \(\sigma^2\) bekannt

Für das Konfidenzintervall brauchen wir die folgenden Werte:

  • Die Stichprobengröße \(n\)
  • Den Mittelwert der Stichprobe \(\bar{x}\)
  • Die wahre Varianz \(\sigma^2\)
    • In der Formel brauchen wir allerdings ihre Wurzel, die Standardabweichung, also \(\sigma\). Diese beiden Werte zu verwechseln, ist ein häufiger Fehler in der Klausur.
  • Die gewünschte Irrtumswahrscheinlichkeit \(\alpha\)
    • Damit berechnen wir das passende \(1-\frac{\alpha}{2}\)-Quantil der Normalverteilung, das wir in der Formel brauchen – also den Wert \(z_{1-\frac{\alpha}{2}}\). Für eine gewünschte Irrtumswahrscheinlichkeit von 5% brauchen wir also später das 97,5%-Quantil (das ist 1.96, wer es nachprüfen möchte).

Die untere Grenze des Intervalls ist dann:

\[ u =  \bar{x} – z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\]

Für die obere Grenze ersetzen wir einfach das erste Minus durch ein Plus:

\[ o =  \bar{x} + z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\]

Insgesamt lautet das Konfidenzintervall also

\[ \left[ \bar{x} – z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}, \, \, \bar{x} + z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}} \right] \]

Oder, in Kurzschreibweise mit dem \(\pm\) Zeichen:

\[ \bar{x} \pm z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\]

Beispielaufgabe

Der Intelligenzquotient (IQ) ist so erstellt worden, dass er in der Gesamtbevölkerung normalverteilt ist mit einem Mittelwert von 100 und einer Standardabweichung von 15 (d.h. einer Varianz von \(15^2 = 225\). Wir haben nun eine Stichprobe von \(n=35\) Social-Media-Powerusern, die täglich mehr als 3 Stunden in sozialen Netzen unterwegs sind. Ich erspare euch die „Rohdaten“, d.h. die einzelnen 35 IQs, und liefere direkt den MIttelwert der Stichprobe:

  • \(\bar{x} = 93.523\)

Wir können die Varianz in der Gruppe als bekannt annehmen, nämlich als \(\sigma^2 = 225\). Berechne nun ein 95%-Konfidenzintervall (d.h. \(\alpha=0.05\)) für den mittleren IQ in der Grundgesamtheit aller Social-Media-Poweruser.


Die Formel dafür kennen wir:

\[ \bar{x} \pm z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\]

Dort tragen wir jetzt einfach alle geforderten Werte nacheinander ein. Manche müssen wir berechnen, andere aus einer Tabelle ablesen, und wieder andere einfach einsetzen:

  • \(\bar{x} = 93.523\), das steht in der Aufgabe
  • \(\alpha = 0.05\), denn da wir ein 95%-KI brauchen, ist die Irrtumswahrscheinlichkeit 5%, also 0.05.
  • \(z_{1-\frac{\alpha}{2}}\) ist \(z_{0.975}\), also das 97,5%-Quantil der Normalverteilung. Aus der Verteilungstabelle lesen wir ab, dass das 1.96 ist.
  • \(\sigma\) ist die Standardabweichung (Vorsicht: Die Wurzel aus der Varianz! Nicht verwechseln!). Bei uns ist \(\sigma = \sqrt{\sigma^2} = \sqrt{225} = 15\)
  • \(\sqrt{n} = \sqrt{35} = 5.916\)

Damit können wir das Intervall berechnen:

\[ 93.523 \pm 1.96 \cdot \frac{15}{5.916}\]

Das gesuchte Konfidenzintervall ist also \( 93.523 \pm 4.97\), also als Intervall geschrieben \([88.553, 98.493]\). Der mittlere IQ unter Social-Media-Powerusern liegt also wahrscheinlich in diesem Bereich.

KI für den Erwartungswert \(\mu\), falls Varianz \(\sigma^2\) unbekannt

Wie bereits erwähnt: Das Prinzip ist hier dasselbe, das KI wird berechnet durch

\[ \text{Parameter} \pm \text{Quantil} \cdot \sqrt{\frac{\text{Varianz}}{n}} \]

Die einzigen beiden Unterschiede sind, dass statt dem \(z\)-Quantil der Normalverteilung nun das der t-Verteilung verwendet wird, und dass nicht mehr die wahre Standardabweichung \(\sigma\) verwendet wird (da sie ja jetzt unbekannt ist), sondern die Stichprobenvarianz \(s^2\), bzw. ihre Wurzel \(s\) verwendet wird. Diese berechnen wir auf die bekannte Art und Weise: \(s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2\).

Die Formel für das Konfidenzintervall ist von der Bedeutung her identisch mit dem Fall, wenn die wahre Varianz \(\sigma^2\) bekannt ist, nur mit den oben besprochenen Unterschieden:

\[ \bar{x} \pm t_{1-\frac{\alpha}{2}}(n-1) \cdot \frac{s}{\sqrt{n}}\]

Die Bezeichnung \(t_{1-\frac{\alpha}{2}}(n-1)\) sieht vielleicht etwas furchteinflößend aus, aber sie ist ganz einfach das \(1-\frac{\alpha}{2}\)-Quantil der t-Verteilung mit \(n-1\) Freiheitsgraden – das ist am Ende nur eine harmlose Dezimalzahl. Ihren Wert findet man in der Tabelle der t-Verteilung.

Anmerkung: Falls die Stichprobe mehr als 30 Beobachtungen hat, kann man im Normalfall doch wieder das \(z\)-Quantil der Normalverteilung (statt dem Quantil der t-Verteilung) verwenden.

Beispielaufgabe

Wir interessieren uns für den mittleren Intelligenzquotienten (IQ) in einer Förderschule für Hochbegabte. In der breiten Bevölkerung ist zwar bekannt, dass der IQ normalverteilt ist mit \(\mu=100\) und \(\sigma^2=225\), aber in dieser Untergruppe kann man weder vom selben Mittelwert noch von derselben Varianz ausgehen. Wir erheben also durch einen IQ-Test die Zahlen für eine Stichprobe von \(n=22\) Hochbegabten, und erhalten:

  • \(\bar{x} = 134.32\)
  • \(s^2 = 98.83\)

Berechne nun ein 95%-Konfidenzintervall für den mittleren IQ von Hochbegabten in Förderklassen.


Wir verwenden ganz einfach die Formel für das KI, und setzen alle Werte nacheinander ein:

\[ \bar{x} \pm t_{1-\frac{\alpha}{2}}(n-1) \cdot \frac{s}{\sqrt{n}}\]

Die Werte, die wir brauchen sind:

  • \(\bar{x} = 134.32\), das steht direkt im Aufgabentext
  • \(\alpha = 0.05\), denn da wir ein 95%-KI brauchen, ist die Irrtumswahrscheinlichkeit 5%, also 0.05.
  • \(t_{1-\frac{\alpha}{2}}(n-1)\) ist das \(1-\frac{\alpha}{2}\)-Quantil, also das 97,5%-Quantil der t-Verteilung mit \(n-1\), also mit 21 Freiheitsgraden. In der Verteilungstabelle lesen wir ab, dass dieser Wert \(t_{0.975}(21) = 2.080\) ist
  • \(s = \sqrt{s^2} = \sqrt{98.83} = 9.941\)
  • \(\sqrt{n} = \sqrt{21} = 4.583\)

Wir setzen also diese Werte ein und rechnen aus:

\[ 134.32 \pm 2.080 \cdot \frac{9.941}{4.583}\]

Das gesuchte Konfidenzintervall ist also \( 134.32 \pm 4.51\), also in Intervallschreibweise \([129.81, 138.83]\). Der IQ unter Förderschülern liegt also ziemlich wahrscheinlich in diesem Bereich.

Klausuraufgabe

  • a) Eine Fluglinie möchte das durchschnittliche Gewicht von Passagieren möglichst sicher abschätzen. Die „wahre“ Varianz des Körpergewichts in der Grundgesamtheit ist aus früheren Erhebungen bekannt und beträgt \(\sigma^2 = 120\). Der Mittelwert könnte sich aber in den letzten Jahren verändert haben. Die Airline wiegt daher 105 Passagiere, und bekommt den Stichprobenmittelwert \(\bar{x}=79.83\) Kilogramm heraus.
    Bestimme ein 99%-Konfidenzintervall für den wahren Erwartungswert \(\mu\) des Körpergewichts in der Grundgesamtheit von allen Passagieren.
  • b) Um den Blutdruck von Leistungssportlern zu schätzen, nimmt ein Sportinstitut von 22  Marathonläufern den Blutdruck. Die Ergebnisse wurden bereits in Stichprobenmittelwert und Standardabweichung zusammengefasst, und lauten:
    • \(\bar{x} = 128.3\)
    • \(s = 11.43\)

    Berechne ein 95%-Konfidenzintervall für den wahren Erwartungswert des Blutdrucks unter Marathonläufern.

Lösung (klick)
  • a) Da in diesem Fall die wahre Varianz schon bekannt ist, brauchen wir die Stichprobenvarianz nicht zu berechnen. Wir verwenden direkt die Formel:
    \[ \bar{x} \pm z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\] Um die untere Grenze des Intervalls zu berechnen, ersetzen wir das \(\pm\)-Zeichen durch ein Minus, und für die obere Grenze ersetzen wir es durch ein Plus.
    Wir benötigen die folgenden Werte zum Einsetzen in die Formel:

    • \(\bar{x}\) ist der Stichprobenmittelwert, den haben wir schon bekommen: Er ist 79.83
    • \(\alpha\) ist die Irrtumswahrscheinlichkeit des Konfidenzintervalls. Bei einem 99%-KI ist sie 1%, also ist \(\alpha = 0.01\).
    • \(z_{1-\frac{\alpha}{2}}\) ist das \(1-\frac{\alpha}{2}\)-Quantil, also das 99,5%-Quantil der Standardnormalverteilung. Aus ihrer Tabelle können wir diesen Wert ablesen: Er ist 2.57.
    • \(\sigma\) ist die wahre Standardabweichung, die hier ja bekannt ist. Vorsicht: In der Aufgabenstellung haben wir die Varianz bekommen, also \(\sigma^2\), und sie ist 120. Wir brauchen die Standardabweichung \(\sigma\), also ihre Wurzel (Das ist ein typischer Fehler in einer Klausur). Die Standardabweichung ist \(\sigma = \sqrt{120} = 10.95\)
    • \(\sqrt{n}\) ist \(\sqrt{105} = 10.25\)

    Das KI ist also, nachdem alles eingesetzt wurde, \(79.83 \pm 2.57 \cdot \frac{10.95}{10.25}\). Vereinfacht ist es dann \(79.83 \pm 2.75\), und somit ist die untere Grenze \(79.83 – 2.75 = 77.08\), und die obere Grenze ist \(79.83 + 2.75 = 82.58\).
    Wir können also mit einer Irrtumswahrscheinlichkeit von 1% sagen, dass der wahre Erwartungswert \(\mu\) des Körpergewichts aller Passagiere zwischen 77.08kg und 82.58kg liegt.

  • b) Wir möchten ein Konfidenzintervall für den Mittelwert haben, aber kennen die wahre Varianz \(\sigma^2\) nicht (so ist es in der Realität aber meistens auch). Die Formel für dieses KI lautet
    \[ \bar{x} \pm t_{1-\frac{\alpha}{2}}(n-1) \cdot \frac{s}{\sqrt{n}}\] Wir müssen hier die folgenden Werte einsetzen:

    • \(\bar{x}\) ist in der Aufgabe als 128.3 gegeben.
    • \(\alpha\), die Irrtumswahrscheinlichkeit, ist 5%, da wir ein 95%-Konfidenzintervall möchten. Also: \(\alpha=0.05\).
    • \(t_{1-\frac{\alpha}{2}}(n-1)\) ist der fiese Teil in dieser Formel. Aber man muss nur wissen, was damit gemeint ist: Wir suchen das \(1-\frac{\alpha}{2}\)-Quantil, also das 0.975-Quantil (oder äquivalent das 97,5%-Quantil) der t-Verteilung, und zwar der mit \(n-1\) Freiheitsgraden – das sind bei uns 21, denn die Stichprobengröße ist hier \(n=22\).
      Wir brauchen also den Wert \(t_{0.975}(21)\). Dafür müssen wir in der Tabelle der t-Verteilung nun nachsehen, und zwar in der Spalte „Quantil = 0.975“, und in der Zeile „df = 21“. Der Wert der dort steht ist 2.080.
    • \(s\) ist die Standardabweichung in der Stichprobe, die wurde freundlicherweise schon in der Aufgabenstellung für uns berechnet: \(s = 11.43\).
    • \(\sqrt{n} = \sqrt{22} = 4.69\)

    Damit können wir jetzt alles in die Formel einsetzen:
    \[ 128.3 \pm 2.080 \cdot \frac{11.43}{4.69}\] Vereinfacht steht dann da \(128.3 \pm 5.069\), und somit geht das Konfidenzintervall von unten \(128.3 – 5.069 = 123.23\) bis oben \(128.3 + 5.069\) = 133.37.
    Wir können also sagen, dass mit 5%-iger Irrtumswahrscheinlichkeit der erwartete Blutdruck von Marathonläufern zwischen 123.23 und 133.37 liegt.

Konfidenzintervall für einen Anteil p

Wenn wir in unserer Stichprobe ein Merkmal mit nur zwei möglichen Ausprägungen haben, zum Beispiel „Student? (ja/nein)“, benötigen wir zum Berechnen des Konfidenzintervalls die folgenden Informationen:

  • Die Anzahl der Daten \(n\) (Stichprobengröße).
  • Den Parameterschätzer für den Anteilswert \(\hat{p}\). Im entsprechenden Artikel haben wir schon gelernt wie man ihn berechnet: \(\hat{p} = \frac{\sum_{i=1}^n x_i}{n}\)
  • Das gewünschte Konfidenzniveau \(1-\alpha\), d.h. die Irrtumswahrscheinlichkeit \(\alpha\). Meistens ist es \(\alpha = 0.05\) oder \(\alpha = 0.01\).

Mit Hilfe der gewünschten Irrtumswahrscheinlichkeit \(\alpha\) müssen wir nun ein Quantil der Normalverteilung bestimmen: Falls wir \(\alpha=0.05\) wählen, also eine Irrtumswahrscheinlichkeit von 5% wünschen, dann müssen wir das 97,5%-Quantil der Normalverteilung bestimmen (das ist 1,96). Falls wir uns noch sicherer sein möchten, und eine nur 1%-ige Irrtumswahrscheinlichkeit möchten, dann müssen wir das 99,5%-Quantil der Normalverteilung bestimmen (das ist 2,58). Allgemein gesagt benötigen wir das \(1-\frac{\alpha}{2}\)-Quantil, also den Wert \(z_{1-\frac{\alpha}{2}}\). Diesen Wert lesen wir in der Klausur aus der Verteilungstabelle der Normalverteilung ab.

Mit diesen Werten können wir nun das Konfidenzintervall berechnen. Die untere Grenze des Intervalls ist:

\[ u = \hat{p} – z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \]

Für die obere Grenze ersetzt man nur das Minus durch ein Plus:

\[ o = \hat{p} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \]

Das Konfidenzintervall ist also nun \([u, o]\). In einer Formelsammlung sieht man diese Schritte meist in eine einzige Formel zusammengefasst, die dann erstmal etwas einschüchternd aussieht. Aber sie verpackt die oberen Formeln nur in eine einzelne Zeile. So sieht das Konfidenzintervall als eine Formel aus:

\[ \left[ \hat{p} – z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}}, \, \, \hat{p} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \right] \]

Wenn man nun möchte, kann man das Intervall noch kürzer schreiben, denn in den zwei Formeln für die untere und obere Grenze ist nur ein Plus bzw. ein Minus unterschiedlich. Wenn wir dieses Symbol durch ein \(\pm\) ersetzen, dann lautet das KI einfach:

\[ \hat{p} \pm z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}}  \]

Anmerkung: Dieses Konfidenzintervall ist kein exaktes, sondern nur ein approximatives Intervall. Um diese Formel anwenden zu dürfen, sollte man mindestens 30 Beobachtungen in der Stichprobe haben, also  \(n \geq 30\)

Beispielaufgabe

Wir berechnen ein KI um diese Formeln zu illustrieren. Angenommen, wir gehen Freitagmittag in die Innenstadt und fragen die ersten 250 Menschen die wir treffen, ob sie bei der letzten Wahl auch wählen gegangen sind. 183 Menschen antworten mit „ja“ (was wir mit einer 1 kodieren). Wir möchten nun ein 99%-Konfidenzintervall für die Wahlbeteiligung in der Gesamtbevölkerung berechnen.


Dazu brauchen wir die folgenden Werte:

  • Die Stichprobengröße \(n\), das ist hier 250.
  • Den Parameterschätzer \(\hat{p}\), das ist bei uns \(\frac{183}{250} = 0.732\)
  • Die Irrtumswahrscheinlichkeit \(\alpha\). Da wir ein 99%-Konfidenzintervall möchten, ist \(\alpha\) bei uns 1-0.99, also 0.01.
  • Das Quantil der Normalverteilung, \(z_{1-\frac{\alpha}{2}}\), ist bei uns also das 99,5%-Quantil, also \(z_{0.995}\). Aus der Tabelle der Normalverteilung lesen wir dafür den Wert 2,58 ab.

Damit können wir nun die Grenzen des KIs berechnen. Die untere Grenze ist

\[ u = \hat{p} – z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} = 0.732 – 2.58 \cdot \sqrt{\frac{0.732 \cdot (1-0.732)}{250}} = 0.660 \]

Die obere Grenze ist dann

\[ u = \hat{p} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} = 0.732 + 2.58 \cdot \sqrt{\frac{0.732 \cdot (1-0.732)}{250}} = 0.804 \]

Unser 99%-Konfidenzintervall ist also gerundet \([0.66, 0.80]\). Wir schätzen also, dass die wahre Wahlbeteiligung ziemlich sicher im Bereich von 66% bis 80% legen wird.

Klausuraufgabe

Der lokale Nahverkehr möchte schätzen, welcher Anteil seiner U-Bahn-Passagiere als Schwarzfahrer unterwegs ist. Dazu kontrollieren sie 175 Personen nach ihrem Ticket, und finden 11 Schwarzfahrer unter ihnen.

  • a) Schätze den Anteil der Schwarzfahrer in der Grundgesamtheit
  • b) Berechne ein 95%-Konfidenzintervall für den wahren Anteil an Schwarzfahrern in der Grundgesamtheit
  • c) Berechne nun ein 99%-Konfidenzintervall. Erkläre wie und warum es anders aussieht als das 95%-Konfidenzintervall.
Lösung (klick)
  • a) Unsere Stichprobe besteht aus einem einzelnen Merkmal mit zwei möglichen Ergebnissen: „Kein Schwarzfahrer“ und „Schwarzfahrer“. Wir kodieren also „Schwarzfahrer“ mit einer 1, und „kein Schwarzfarher“ mit einer 0. Den Anteil an Schwarzfahrern schätzen wir dann mit \(11 / 175 = 0.0629\). Allgemein wäre die Formel \(\hat{p} = \frac{\sum_{i=1}^n x_i}{n}\), und wir setzen im Zähler die Anzahl aller 1er-Beobachteungen ein (also 11), und im Nenner die Anzahl der insgesamt untersuchten Personen (also 175).
    Da nun \(\hat{p} = 0.0629\) ist, schätzen wir also, dass 6,29% aller Passagiere Schwarzfahrer sind.
  • b) Wir müssen die untere und die obere Grenze des KIs berechnen. Die untere Grenze berechnet man durch
    \[ u = \hat{p} – z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \] Die dafür nötigen Werte sind:

    • \(\hat{p}\) ist 0.0629, das haben wir in Teil a) berechnet
    • \(\alpha\) ist die Irrtumswahrscheinlichkeit. Bei einem 95%-Konfidenzintervall ist sie 5%, also \(\alpha = 0.05\)
    • \(z_{1-\frac{\alpha}{2}}\) ist das \(1-\frac{\alpha}{2}\)-Quantil, also das 97,5%-Quantil, der Standardnormalverteilung. In der Tabelle der Normalverteilung lesen wir ab, dass das 1,96 ist.
    • \(\hat{p} (1 – \hat{p}) = 0.0629 \cdot 0.9371 = 0.0589\)
    • \(n\) ist die Stichprobengröße, also 175

    Die untere Grenze ist also \(0.0629 – 1.96 \cdot \sqrt{\frac{0.0589}{175}}\), und im Ergebnis 0.0269.

    Die obere Grenze erhält man, wenn man in der Formel das Minus durch ein Plus ersetzt, also durch
    \[ o = \hat{p} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \] Das Ergebnis dafür ist \(0.0629 + 1.96 \cdot \sqrt{\frac{0.0589}{175}} = 0.0989\)

    Das 95%-Konfidenzintervall ist also im Ergebnis \([0.0269, 0.0989]\). Mit einer Irrtumswahrscheinlichkeit von 5% gibt es also zwischen 2,7% und 9,9% Schwarzfahrer in der Gesamtbevölkerung.

  • c) Um das 99%-Konfidenzintervall zu berechnen, verändert sich gegenüber Teil b) nur der Wert \(\alpha\). Er ist jetzt 0.01. Wir müssen daher auch das \(z\)-Quantil neu berechnen, es ist jetzt das 99.5%-Quantil, denn \(1-\frac{\alpha}{2} = 0.995\). Aus der Tabelle lesen wir dafür ab: \(z_{0.995} = 2.57\).Da alle anderen Werte (die Stichprobengröße, der Schätzer \(\hat{p}\) für den Anteil) gleich bleiben, ersetzen wir gegenüber Teil b) nur die 1.96 mit den 2.57, und erhalten als Grenzen:
    \[ u = 0.0629 – 2.57 \cdot \sqrt{\frac{0.0589}{175}} = 0.01587 \] \[ o = 0.0629 + 2.57 \cdot \sqrt{\frac{0.0589}{175}} = 0.1100 \] Das 99%-KI ist also \([0.0158, 0.1100]\), und ausformuliert heißt das, dass mit einer nur 1%-igen Irrtumswahrscheinlichkeit der Anteil an Schwarzfahrern zwischen 1,6% und 11% liegt.

    Zur Interpretation: Dieses Intervall ist breiter als das 95%-KI. Da wir uns hier nicht mehr „nur“ zu 95%, sondern zu 99% sicher sein wollen, folgt daraus dass wir uns einen Fehler noch ungerner erlauben möchten. Daher müssen wir „auf Nummer sicher“ gehen, und das Konfidenzintervall muss breiter sein als das 95%-KI.

Was ist ein Konfidenzintervall?

Wozu braucht man Konfidenzintervalle?

Im Bereich der Inferenzstatistik möchten wir ja ganz allgemein gesagt mit Hilfe einer Stichprobe Aussagen über die Grundgesamtheit machen. Im ersten Teil haben wir dazu die Punktschätzer kennengelernt: Mit ihnen fassen wir die erhobenen Daten einer Stichprobe so in einen Schätzer zusammen (z.B. in ihren Mittelwert), um damit das Verhalten eines Merkmals in der Grundgesamtheit zu schätzen.

Im Artikel „Was ist ein Parameter?“ haben wir hierfür ein Beispiel kennengelernt: Wir sind auf dem Oktoberfest, und möchten wissen ob in die Krüge systematisch zu wenig Bier gefüllt wird. Dazu bestellen wir uns 10 Maß Bier, und erhalten z.B. den Stichprobenmittelwert 962ml. Wir wissen, dass der Mittelwert in der Stichprobe bei 962ml liegt, aber den Mittelwert der Grundgesamtheit, also unter allen Krügen auf dem Oktoberfest, können wir nur schätzen. Und unsere beste Schätzug dafür sind eben diese 962ml aus der Stichprobe.

Der Punktschätzer oder Parameterschätzer ist hierbei aber nur der erste Schritt: Wir haben lediglich die Frage beantwortet: „Wieviel Bier ist schätzungsweise im Durchschnitt im Krug?“. Einige andere wichtige Fragen können wir aber noch nicht beantworten:

  • Wie präzise ist diese Schätzung von 962ml?
  • In welchem Bereich liegt der wahre Mittelwert höchstwahrscheinlich?
  • Kann es denn sein, dass der gesamte/wahre Mittelwert auch 950ml ist? Kann es sogar sein, dass in Wirklichkeit im Mittel doch 1000ml in die Krüge gefüllt wird, aber wir in dieser Stichprobe einfach nur Pech hatten?

Diese Fragen kann ein Punktschätzer nicht beantworten – aber ein Intervallschätzer kann das!

Was ist ein Konfidenzintervall?

Die folgende Unterscheidung ist zentral für das Verständnis von Konfidenzintervallen:

  • Mit der Stichprobe schätzen wir einen Parameter, zum Beispiel \(\hat{\mu}\)
  • Der wahre Parameter \(\mu\) in der Grundgesamtheit ist dann zwar in der Nähe von \(\hat{\mu}\), aber quasi nie genau gleich.

Den wahren Parameter \(\mu\) können wir also nie exakt bestimmen, aber wir können ihn quasi „einzäunen“ – also einen Bereich bestimmen, in dem er ziemlich sicher liegt.

Dieses „ziemlich sicher“ müssen wir natürlich definieren. Wollen wir zu 90% sicher sein, oder zu 95%? Vielleicht sogar 99%? In der Statistik wandeln wir diese Zahl immer in ihre Gegenwahrscheinlichkeit um, denn wir arbeiten lieber mit Irrtumswahrscheinlichkeiten statt Überdeckungswahrscheinlichkeiten. Wenn wir uns also zu 95% sicher sein wollen, dass der wahre Parameter in einem bestimmten Intervall liegt, bedeuetet das ja ebenso, dass er zu 5% nicht dort drin liegt.

Diese Irrtumswahrscheinlichkeit, oder Konfidenzniveau, ist eine Dezimalzahl, die wir mit \(\alpha\) bezeichnen. Wenn wir einen Bereich berechnen möchten, in dem der wahre Parameter mit 95% Sicherheit liegt, dann ist unser Niveau eben 5%, also \(\alpha = 0.05\).

Konfidenzintervalle werden auch nur geschätzt

Die folgende Grafik veranschaulicht ein Beispiel: Es gibt einen wahren Mittelwert \(\mu\) in der Grundgesamtheit – den kennen wir aber in der Realität nicht! Er ist hier nur eingezeichnet, um das Prinzip eines KIs zu veranschaulichen. Wir schätzen nun zuerst mit einem üblichen Parameterschätzer den Mittelwert \(\hat{\mu}\). Als nächstes schätzen wir die obere und untere Grenze des KIs, und zwar wieder mit einer Schätzfunktion, genau wie beim Mittelwert einen Schritt vorher.

In dieser Grafik sind zwei verschiedene Konfidenzintervalle berechnet und visualisiert worden: Das obere ist ein 99%-KI, also mit einer Irrtumswahrscheinlichkeit von nur 1%. Da wir uns hier sehr sicher (nämlich 99% sicher) sein wollen, dass der wahre Parameter in diesem KI liegt, muss das KI natürlich auch breiter sein, um einen Irrtum unwahrscheinlicher zu machen. Das untere KI ist im Gegensatz dazu „nur“ ein 95%-KI, also mit einer Irrtumswahrscheinlichkeit von 5%. In diesem Beispiel ist sogar der unwahrscheinliche Fall eingetreten, dass der wahre Mittelwert \(\mu\) außerhalb des KIs liegt. Das kann natürlich nie komplett ausgeschlossen werden, sondern immer nur durch das Konfidenzniveau \(\alpha\) eingeschränkt werden.

Das Thema „Was ist eine Schätzfunktion?“ haben wir im Rahmen der Parameterschätzer bereits besprochen. Ganz knapp gesagt ist eine Schätzfunktion eine Formel, die die Daten der erhobenen Stichprobe auf eine geeignete Art zusammenfasst.

Ein Konfidenzintervall (kurz: KI) wird nun, genauso wie der Parameterschätzer einen Schritt davor, mit Hilfe von Schätzfunktionen erstellt. Das KI wird also durch eine Formel (bzw. zwei Formeln) berechnet, die die Daten in zwei Werte zusammenfassen: die obere sowie die untere Grenze des Intervalls.

Wie schätzt man ein Konfidenzintervall?

Das zentrale Prinzip für alle Konfidenzintervalle ist, dass man zuerst einen Punktschätzer für einen Parameter berechnet, z.B. für den Anteilswert \(p\). Um diesen einzelnen Punkt herum bildet man dann ein Intervall, das meistens symmetrisch um den Parameterschätzer ist, und enger oder breiter ist, abhängig von der Varianz in der Stichprobe sowie des gewünschten Konfidenzniveaus \(\alpha\).

Um Konfidenzintervalle in einer Klausur schnell und sicher berechnen zu können, muss man fit darin sein, Quantile der Normalverteilung und der t-Verteilung aus einer Verteilungstabelle ablesen zu können. In der Realität machen das später meistens Statistikprogramme, aber für die Klausur ist der geübte Umgang mit diesen Tabellen von zentraler Bedeutung.

Anmerkung

Ich habe in diesem Artikel die folgende intuitive Erklärung für ein Konfidenzintervall verwendet:

Ein 95%-KI ist ein Intervall \([a, b]\), in dem der wahre Parameter, z.B. \(\mu\), mit einer Wahrscheinlichkeit von 95% auch tatsächlich liegt.

Das heißt: Der wahre Parameter \(\mu\) (den wir ja nicht kennen!) liegt mit einer Wahrscheinlichkeit von 95% im Intervall \([a,b]\).

Diese Beschreibung ist einfach und einleuchtend, aber mathematisch nicht zu 100% korrekt. Ich finde aber, darüber kann man hinwegschauen, insbesondere im Bereich der einführenden Statistikveranstaltungen. Wenn man es allerdings ganz genau nehmen will, ist die Definition, und somit auch die Interpretation eines KIs minimal anders:

Ein 95%-KI ist ein Intervall \([a, b]\), das, wenn es sehr häufig mit neuen Stichproben berechnet wird, den wahren Parameter, z.B. \(\mu\), mit einer Wahrscheinlichkeit von 95% auch überdeckt.

Das heißt: Ein einzelnes 95%-KI ist mit 95%-iger Wahrscheinlichkeit eines von denen, das den wahren Parameter \(\mu\) beinhaltet.

Diese Definition ist etwas umständlicher zu verstehen, aber nun formal korrekt. Wie schon erwähnt, ist diese Unterscheidung aber in einführenden Vorlesungen eher unwichtig – das wird (wenn überhaupt) erst viel später mal relevant.

Schätzfunktionen allgemein

In einem vorigen Artikel haben wir bereits gelernt, was ein Parameter ist: Als einfachstes Beispiel der prozentuale Anteil in einer Grundgesamtheit, oder aber der Erwartungswert bzw. die Varianz eines Merkmals.

Es gibt noch viele weitere solcher Kennzahlen, die man schätzen kann: Das Minimum eines Merkmals, die Korrelation zweier Merkmale, oder das 5%-Quantil eines Merkmals sind nur einige Beispiele dafür. Ich werde nicht auf alle diese Beispiele eingehen, aber wir sehen uns kurz an, wie ein Parameter allgemein geschätzt wird. Dieser Artikel gilt also für alle bisher besprochenen Parameterschätzer, und auch für weitere Schätzer so wie die gerade genannten Beispiele.

Wie schätzt man einen Parameter?

Ganz allgemein schätzt man einen beliebigen Parameter, indem man die Daten aus der gesammelten Stichprobe mit einer bestimmten Formel zusammenfasst. Diese Formel nennt man dann Schätzer oder Schätzfunktion – die Formel ist eine Funktion, weil sie die Stichprobe (meistens \(x\) oder in Langform \((x_1, x_2, \ldots, x_n)\) genannt) in einen Schätzer transformiert. Als Beispiele können wir die Schätzfunktionen für den Anteilswert \(p\) betrachten – der Schätzer wird dann meist \(\hat{p}\) („p-Dach“) genannt:

\[\hat{p} = \frac{\sum_{i=1}^n x_i}{n}\]

Mathematisch gesehen ist es wichtig, ob ein Dach über dem \(p\) steht oder nicht: Wir setzen ja voraus, dass es einen wahren Anteilswert gibt, den wir nicht kennen, aber schätzen möchten. Und unsere Schätzung nennen wir dann \(\hat{p}\). Es sollte aber klar sein, dass mit einer zufälligen Stichprobe der wahre Wert nie ganz genau getroffen wird, sondern immer ein kleiner Fehler dabei sein wird. Und deswegen gibt es zwei verschiedene Bezeichnungen für den wahren Wert bzw. unsere Schätzung dafür. Wenn in der Statistik über einem Buchstaben ein Dach steht, dann heißt das immer dass dieser Wert ein Schätzer für irgendetwas ist.

Als zweites Beispiel den Schätzer für die Varianz \(\sigma^2\) in einer Grundgesamtheit – der Schätzer heißt dann \(\hat{\sigma}^2\):

\[ \hat{\sigma}^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2 \]

Diese beiden beispielhaften Funktionen schätzen zwei ganz unterschiedliche Dinge, aber sie haben beide gemeinsam, dass sie die Daten der gesammelten Stichprobe, also \((x_1, x_2, \ldots, x_n)\), zusammenfassen in einen einzelnen Wert – den Schätzer. Man kann diese beiden Beispiele (und alle anderen denkbaren Schätzer) nun zusammenfassen in eine generelle, allgemeingültige Formel:

\[ T = g(x_1, x_2, \ldots, x_n) \]

Das \(T\) steht hierbei für den Parameter den wir schätzen möchten, also z.B. \(\hat{p}\) oder \(\hat{\sigma}^2\). Die Funktion \(g\) nimmt nun die Daten und fasst sie zusammen in ein Ergebnis, den Schätzer.

Die mathematischen Bezeichnungen können da zu Beginn ein wenig verwirren – das ging mir selbst nicht anders. Man muss sich aber vor Augen halten, dass es immer zwei „Welten“, bzw. zwei Betrachtungspunkte gibt: die Stichprobe und die Grundgesamtheit. Beide Welten haben ihre eigene Notation:

  • Der Mittelwert in der Stichprobe ist \(\bar{x}\)
  • Der gesamte Mittelwert in der Grundgesamtheit ist \(\mu\)
  • Wir können \(\mu\) allerdings nur schätzen, und dieser Wert lautet dann \(\hat{\mu}\)
  • Diesen Wert schätzen wir mit Hilfe des Stichprobenmittelwerts. Also: \(\hat{\mu} = \bar{x}\)

Wenn man so verstanden hat, warum die Formel \(\hat{\mu} = \bar{x}\) Sinn macht und was der Unterschied der beiden Werte ist (obwohl sie ja mathematisch die gleiche Zahl sind), dann hat man das Konzept der Parameterschätzung verstanden 🙂

Die wichtigsten Parameterschätzer

In diesem Artikel greifen wir das Beispiel aus dem Artikel „Was ist ein Parameter?“ wieder auf: Wir gehen auf das Oktoberfest, und möchten schätzen ob ein Maßkrug fair, d.h. mit (mindestens) 1 Liter Bier befüllt ist. Es macht vielleicht Sinn, diesen Artikel vorher nocheinmal zu lesen.

In diesem Artikel besprechen wir kurz die wichtigsten Parameterschätzer. Wer bisher gut aufgepasst hat, wird merken, dass die untenstehenden Formeln für diese Punktschätzer dieselben sind wie in der deskriptiven Statistik. Zum Beispiel ist also die Formel für den (deskriptiven!) Mittelwert einer Stichprobe dieselbe wie die Formel für den Punktschätzer für den Erwartungswert.

Die Idee hinter der Berechnung ist in den beiden Fällen aber unterschiedlich: Der Mittelwert macht nur eine Aussage über die Stichprobe – wir können also z.B. sagen, dass in 10 geprüften Maßkrügen im Durchschnitt 950ml Bier enthalten waren. Das ist auch kein Schätzwert, sondern ein exakter Wert – aber er gilt nur für diese eine Stichprobe von 10 Bieren.

Der Erwartungswert gilt dagegen für die Grundgesamtheit, d.h. über die Stichprobe hinweg für alle Maßkrüge auf dem Oktoberfest. Daher können wir den Erwartungswert nie exakt berechnen, sondern immer nur anhand einer Stichprobe schätzen.

Es ergibt sich nun mathematisch, dass der Stichprobenmittelwert auch der beste Schätzer für den Erwartungswert in der Grundgesamtheit ist – und genau deswegen sind die beiden Formeln (Stichprobenmittelwert und Erwartungswertschätzer) identisch. Auf dem Weg zur statistischen Erleuchtung ist es aber hilfreich im Hinterkopf zu behalten, dass das zwei unterschiedliche Konzepte sind.

Dieses Konzept erkennt man dann auch an der mathematischen Notation wieder. Der Mittelwert einer Stichprobe wird z.B. einfach \(\bar{x}\) („x quer“) genannt, aber der Schätzer für den Erwartungswert wird mit \(\hat{\mu}\) („mu Dach“) bezeichnet. Das Dach über einem Buchstaben (egal ob griechisch oder nicht) deutet darauf hin, dass der Buchstabe darunter geschätzt wird. \(\hat{\mu}\) ist also ein Schätzwert für den „wahren“, aber unbekannten Wert \(\mu\).

Prozentualer Anteil

Wir schätzen einen prozentualen Anteil, wenn wir ein nominales Merkmal mit nur zwei möglichen Ausprägungen („ja“ und „nein“) haben. Dann kodieren wir das Merkmal zuerst in die Zahlen 1 und 0 um. Meistens steht die 1 für „ja“. Um nun einen Schätzwert für den Anteil \(p\) an „ja“ in der Grundgesamtheit zu bekommen, berechnen wir einfach den Anteil an „ja“ in der Stichprobe: Wir zählen alle „ja“-Antworten und teilen sie durch die Stichprobengröße \(n\).

Lasst uns 10 Maß Bier trinken, und für jede Maß \(i\) das Merkmal \(x_i\) notieren, eine 0 falls nicht genug Bier drin war, und eine 1 falls es mindestens 1 Liter war:

Bier \(x_i\) \(x_1\) \(x_2\) \(x_3\) \(x_4\) \(x_5\) \(x_6\) \(x_7\) \(x_8\) \(x_9\) \(x_{10}\)
voll? 1 0 0 1 0 0 0 1 0 0

Die Formel für den Schätzer für \(p\) dafür lautet dann:

\[\hat{p} = \frac{\sum_{i=1}^n x_i}{n}\]

Die Summe im Zähler bedeutet einfach, dass wir alle Antworten aufsummieren. Da die „nein“-Antworten alle als 0 kodiert wurden, werden sie in der Summe nicht beachtet, und nur die Einser, also die „ja“-Antworten werden gezählt.

Der Schätzer für den Anteil an fair befüllten Krügen in der Grundgesamtheit wäre dann also:

\[\hat{p} = \frac{1+0+0+1+0+0+0+1+0+0}{10} = 0.3\]

Mit der 1 bezeichnen wir ja einen voll gefüllten Maßkrug, und mit der 0 einen Krug mit weniger als einem Liter Inhalt. Wir schätzen also, dass 30% aller Krüge auf dem Oktoberfest fair befüllt werden.

Erwartungswert

Was, wenn wir aber genauer abschätzen wollen, wie voll die Krüge befüllt werden? Dann sollten wir lieber etwas genauer den Erwartungswert des Inhalts schätzen, statt nur die Frage ob genug oder zuwenig Inhalt im Krug ist.

Zum Glück haben wir immer noch Durst, und bestellen nocheinmal 8 Maß Bier. Bei jedem Krug \(i\) wiegen wir nun nach, wieviel Inhalt (also \(x_i\)) genau drin ist,

Bier \(x_i\) \(x_1\) \(x_2\) \(x_3\) \(x_4\) \(x_5\) \(x_6\) \(x_7\) \(x_8\)
Inhalt (ml) 961 1012 970 940 1024 868 931 975

Die Formel um den Erwartungswert zu schätzen (also \(\hat{\mu}\) ist dieselbe wie die für den Stichprobenmittelwert, also für \(\bar{x}\)):

\[\hat{\mu} = \frac{1}{n} \cdot \sum_{i=1}^n x_i\]

Bei uns ist es:

\[\begin{align*}\hat{\mu} = \frac{1}{8} \cdot (& 961+1012+970+940+ \\ &1024+868+931+975) = 960.125 \end{align*} \]

Durch unsere Stichprobe haben wir also geschätzt, dass in der Grundgesamtheit im Mittel ca. 960ml Bier in einen Krug gefüllt werden.

Varianz

Der Schätzer von 960ml gibt uns schon einen Hinweis darauf, dass evtl. systematisch, also absichtlich, zuwenig Bier in die Krüge gefüllt wird. Um das genauer zu untersuchen, sollte man sich aber auch die Varianz der Daten ansehen. Denn es macht einen großen Unterschied ob jeder Krug mit ziemlich genau 960ml befüllt wird, oder ob manche Krüge mit 860ml, dafür manch andere mit 1060ml befüllt werden. Im zweiten Fall könnte es einfach auch sein, dass das Zapfpersonal sehr unterschiedlich einschenkt, und der niedrige durchschnittliche Inhalt von 960ml nur durch Zufall enstanden ist.

Unser Verdacht auf absichtlich niedrige Befüllung hängt also nicht nur vom Mittelwert, sondern auch von der Varianz in der Stichprobe ab. Dieses Konzept wird beim Berechnen des Konfidenzintervalls, und auch beim Hypothesentest sehr wichtig sein.

Die wahre Varianz wird mit \(\sigma^2\) bezeichnet, der Schätzer dafür lautet also \(\hat{\sigma}^2\). Die Formel ist identisch mit der Formel für die Stichprobenvarianz, also für \(s^2\):

\[ \hat{\sigma}^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2 \]

Dabei ist \(\bar{x}\) der Mittelwert der Daten. Bei uns ist er 960.125ml. Für dieses Beispiel kommt heraus:

\[\begin{align*}\hat{\sigma}^2 = \frac{1}{8-1} \cdot (&0.766 + 2691.016 + 97.516 + 405.016 +  \\ &4080.016 + 8487.016 +848.266 + 221.266) = 2404.41 \end{align*} \]

Die Zahlen in der Summe sind jeweils die einzelnen Terme für \((x_i-\bar{x})^2\), also die erste Zahl, 0.766, haben wir erhalten durch \((x_1-\bar{x})^2 = (961 – 960.125)^2\).

Wir schätzen also, dass die Varianz in der Grundgesamtheit bei 2404.41 liegt.

Was ist ein Parameter?

Die Aufgabe in der schließenden Statistik (oder Inferenzstatistik) ist es meistens, eine fundierte Aussage über das Verhalten eines Merkmals zu treffen. Die bestmögliche Information, die wir über ein Merkmal halten können, wäre seine gesamte Verteilung. Denn wenn wir die Verteilung (oder der Dichtefunktion) genau kennen, können wir alle wichtigen Fragen über dieses Merkmal beantworten, zum Beispiel:

  • Was ist der Mittelwert dieses Merkmals? (wie man das mit Hilfe der Dichtefunktion machen würde, ist hier erklärt)
  • Wieviel Prozent der Beobachtungen werden größer sein als 100? (Das ist der Wert der Verteilungsfunktion an der Stelle \(x=100\))
  • Was ist der Median? (das wäre das 50%-Quantil)
  • Welchen Wert des Merkmals werden nur 10% der Beobachtungen unterschreiten? (das wäre das 10%-Quantil)

Nehmen wir ein praktisches Beispiel zur Veranschaulichung: Wir möchten gerne herausfinden, wieviel Bier im Durchschnitt in einem Maßkrug auf dem Oktoberfest eingeschenkt wird. Wir vermuten nämlich, dass häufig zu wenig Bier gezapft wird, und die Krüge im Durchschnittmit weniger als einem Liter befüllt sind. Die Verteilung des Inhals eines Maßkrugs könnte in der Wahrheit zum Beispiel so aussehen:

In dieser Verteilung können wir z.B. ablesen, dass viele Krüge „fair“, d.h. in der Nähe von 1000ml befüllt sind, aber einige auch nur 950ml enthalten.

Es ist allerdings nicht sehr einfach, die gesamte Verteilung eines Merkmals so frei „von vorne“ zu bestimmen. Die Verteilung im oberen Bild lässt sich auch schwer beschreiben bzw. zusammenfassen – wir müssten die Grafik, oder eine lange Tabelle erstellen. Erst mit Hilfe dieser Tabelle würden wir dann z.B. Quantile berechnen

Stattdessen vereinfacht man sich diese Aufgabe in der Statistik häufig, indem man eine bestimmte Verteilungsfamilie unterstellt, man trifft also eine Annahme. Wir können zum Beispiel annehmen, dass der Inhalt eines Maßkrugs normalverteilt ist. Dann könnten wir davon ausgehen, dass der Inhalt eines Krugs vielleicht wie folgt verteilt ist:

Der Vorteil, die Verteilung vorher durch eine Annahme festzulegen ist, dass wir diese Verteilung jetzt ganz einfach durch zwei Parameter beschreiben können, nämlich die beiden Parameter der Normalverteilung: Mittelwert \(\mu\) und Varianz \(\sigma^2\). Jetzt reichen uns im Gegensatz zur oberen Grafik diese zwei Parameter, um die Verteilung vollständig zu charakterisieren: Es handelt sich um eine Normalverteilung mit den Parametern \(\mu = 985\) und \(\sigma^2 = 225\). Damit können wir sofort z.B. bestimmen, welchen Inhalt die 10% am wenigsten befüllten Krüge nicht überschreiten (es wäre das 10%-Quantil, hier 965.8ml – die Anleitung dazu zum Nachrechnen findet sich hier).

Wozu brauchen wir Parameterschätzung?

Um den Sinn der Parameterschätzung zu verstehen, muss man sich nur ein paar Dinge bewußt machen:

  1. Wir möchten eine Aussage über das Verhalten (z.B. den Mittelwert) eines bestimmten Merkmals in einer Grundgesamtheit treffen.
  2. Leider können wir nicht alle Daten, d.h. die ganze Grundgesamtheit, erhalten. Stattdessen bekommen wir nur eine Stichprobe, z.B. 100 Personen aus der Grundgesamtheit.
  3. Das beste was wir mit der Stichprobe machen können, ist einen Schätzwert für den Parameter zu berechnen.
  4. Wenn unsere Stichprobe groß genug und repräsentativ ist, können wir davon ausgehen dass dieser Schätzwert nah genug am wahren Wert liegt, so dass dieses Ergebnis für unsere Arbeit trotzdem hilfreich ist.

Greifen wir das oben erwähnte Beispiel mit den Maßkrügen nocheinmal auf:

Die Grundgesamtheit, über die wir hier eine Aussage machen wollen, sind alle ausgeschenkten Maßkrüge. Hätten wir diese Daten verfügbar, bräuchten wir den Mittelwert der Grundgesamtheit, d.h. aller Maßkrüge, gar nicht schätzen, sondern könnten ihn exakt berechnen!

Wir haben allerdings nur eine Stichprobe, zum Beispiel von 100 Maßkrügen. Wenn wir den Mittelwert des Inhalts dieser 100 Krüge berechnen, dann ist das höchstwahrscheinlich nicht exakt der wahre Mittelwert in der Grundgesamtheit, aber er wird nah genug daran liegen, dass dieser Wert trotzdem hilfreich ist. Wäre er das nicht, dann wäre der Job eines Statistikers nämlich ganz sinnlos. 🙂

Parameterschätzer sind die Grundlage für Hypothesentests

Ein weiterer wichtiger Punkt: Wir brauchen Parameterschätzer, um mit ihnen als nächsten Schritt Hypothesentests durchzuführen. Der Zusammenhang zwischen diesen Konzepten ist der folgende:

  • Für eine einzelne Stichprobe können wir natürlich ihren wahren Mittelwert berechnen – das ist einfach ihr Mittelwert, aus dem Bereich der deskriptiven Statistik.
  • Wir wissen dadurch allerdings noch nicht den wahren/gesamten Mittelwert in der Grundgesamtheit.
  • Den gesamten Mittelwert der Grundgesamtheit können wir allerdings mit Hilfe der Stichprobe schätzen. Er wird „wahrscheinlich“ in der Nähe des Mittelwerts der Stichprobe liegen. Das ist also unser Schätzer für den gesamten Mittelwert.
  • Mit Hilfe dieses Schätzers können wir nun einen Schritt weiter gehen, und Vermutungen (d.h. Hypothesen) über die Grundgesamtheit formulieren und überprüfen (testen) – zum Beispiel:
    • Der Stichprobenmittelwert ist zwar 12,4, aber könnte es noch sein, dass der wahre Mittelwert 10 ist? (Diese Frage beantwortet ein Hypothesentest).
    • In welchem Bereich liegt der gesamte Mittelwert der Grundgesamtheit mit einer Wahrscheinlichkeit von 95%? (diese Frage beantwortet dann ein Intervallschätzer).
      • Anmerkung: Diese Interpretation eines Intervallschätzers ist formal nicht ganz korrekt, aber viel einleuchtender für das Verständnis – und darum geht es mir in diesem Blog. Die Götter der Mathematik mögen mir vergeben 🙂

Alle diese Fragen beantwortet man mit Hilfe von gesammelten Daten und vorgegebenen Formeln, und in jedem Fall braucht man dafür als Zwischenschritt einen Parameterschätzer.

Was kann man schätzen?

Typischerweise, und besonders in einführenden Statistikveranstaltungen, schätzt man einen von drei Parametern eines Merkmals: (häufig bei nominalen Merkmalen) ein Prozentteil, sein Erwartungswert, oder seine Varianz.

Prozentuale Anteile

Wenn wir ein Merkmal mit nur zwei möglichen Ausprägungen (meistens „ja“ und „nein“) haben, interessiert uns zuallererst, wieviel Prozent der Beobachtungen „ja“ sind.

Messen wir z.B. auf dem Oktoberfest nach, ob ein Maßkrug mit weniger als einem Liter Bier befüllt ist, dann notieren wir pro Krug ein „ja“ oder ein „nein“, und können am Ende mit dieser Stichprobe schätzen, wieviel Prozent aller Krüge allgemein zuwenig Inhalt haben.

Erwartungswert

Der Erwartungswert eines Merkmals ist das Ergebnis, das wir im Durchschnitt erwarten würden. Wenn wir z.B. nicht nur wissen wollen ob ein Maßkrug zuwenig oder ausreichend Inhalt hat, sondern den genauen Inhalt in Milliliter messen wollen, ist der Erwartungswert einfach die durchschnittliche Biermenge in einem Glas. Angenommen wir bestellen 10 Maß Bier, und erhalten einen Schätzer von 950ml für den Erwartungswert, könnten wir schon misstrauisch werden, dass die Krüge fair befüllt werden.

Varianz

Oft reicht uns die Information nicht aus, dass z.B. im Erwartungswert nur 950ml Bier in einem Maßkrug enthalten sind. Es kommen eigentlich sofort weitere Fragen auf: Ist denn jeder Krug mit ziemlich genau 950ml befüllt, oder gibt es Krüge mit 850ml Inhalt, aber dafür auch andere Krüge mit 1050ml Inhalt? Und wie sicher können wir uns sein, dass der wahre Durchschnitt tatsächlich unter 1000ml liegt?

Solche Fragen werden mit Hilfe der Varianz beantwortet. Die Streuung eines Merkmals gibt uns Hinweise darauf, wie weit entfernt vom Erwartungswert die einzelnen Beobachtungen typischerweise sind.

Andere Verteilungsparameter

Man kann noch einige andere Parameter schätzen, die hier kurz erwähnt werden sollen, aber nicht ausgeführt werden. Zum Beispiel kann man genauso wie man den Erwartungswert schätzt, auch bestimmte Quantile einer Verteilung schätzen. Nimmt man das 50%-Quantil, schätzt man gleichbedeutend den Median einer Verteilung.

Für bestimmte Verteilungen schätzt man nicht Erwartungswert oder Varianz, sondern andere, eigene Parameter dieser Verteilung. Für die Exponentialverteilung schätzt man etwa ihren Parameter \(\lambda\).

Es ist sogar möglich, die gesamte Dichte eines Merkmals zu schätzen, ohne eine Annahme über die Verteilung zu treffen. Damit könnte man etwa die Dichte der ersten Grafik in diesem Artikel erstellen, ohne sie vorher zu kennen. Solche Methoden heißen (Kern-)Dichteschätzer, sie sind allerdings eher ein Thema für fortgeschrittene Statistikveranstaltungen.

Parameterschätzung bei der Regression

Auch bei der Regression schätzt man die Parameter des Modells. Das ist dann zum Beispiel der y-Achsenabschnitt \(a\) und die Steigung \(b\). Die Anwendung ist hier etwas anders als bei der Schätzung eines einzelnen Parameters, aber die Prinzipien dahinter sind identisch.

Chi-Quadrat-Test: Abhängigkeit zwischen zwei nominalen Variablen testen

Was ist ein Chi-Quadrat-Test?

Den Chi-Quadrat-Test gibt es eigentlich nicht. Genauso wie es einige verschiedene t-Tests gibt, so bezeichnet man mit „Chi-Quadrat-Test“ (bzw. \(\chi^2\)-Test, das ist der griechische Buchstabe „Chi“) auch eine Reihe von verschiedenen Tests. Was sie alle gemeinsam haben, ist dass ihre Prüfgröße eine Chi-Quadrat-Verteilung hat.

Ein häufiger Anwendungsfall für den Chi-Quadrat-Test, den wir auch in diesem Artikel behandeln, ist das Testen ob zwei nominale Variablen voneinander abhängig sind, ob sie sich also gegenseitig beeinflussen. Wir fragen z.B. 80 Personen nach ihrem Geschlecht, und nach der von ihr zuletzt gewählten Partei. Wenn wir nun untersuchen möchten ob Frauen und Männer ein unterschiedliches Wahlverhalten haben, geht das mit dem Chi-Quadrat-Test.

Allgemein formuliert testen wir, ob zwei nominalskalierte Variablen abhängig sind. Falls z.B. das Geschlecht einer Person und die zuletzt gewählte Partei voneinander abhängig sind, und wir die gewählte Partei erraten wollen, dann hilft es uns, von einer bestimmten Person das Geschlecht zu kennen. Bei unabhängigen Variablen würde uns die eine Variable nicht helfen, die andere vorherzusagen. Ein Beispiel für zwei unabhängige Variablen wäre das Geschlecht einer Person, und ihre Augenfarbe. Es hilft uns wahrscheinlich nicht dabei, die Augenfarbe von Person X vorherzusagen, wenn wir erfahren, dass es sich dabei um eine Frau handelt.

Eine weitere Analyse die einen Chi-Quadrat-Test verwendet, wäre das Testen ob eine einzelne nominale Variable eine bestimmte Verteilung hat. So könnte z.B. ein Betreiber des öffentlichen Nahverkehrs vermuten, dass bei ihm 30% der Passagiere eine Einzelfahrkarte haben, 65% eine Monatskarte, und 5% Schwarzfahrer sind. Wenn es nun 100 Personen nach ihrer Fahrkarte fragt, kann es mit diesen Daten einen Chi-Quadrat-Test durchführen, um seine Annahme zu überprüfen. Diese Variante wird oft auch Chi-Quadrat-Anpassungstest genannt (Dieser Fall findet sich auch in der Tabelle zur Testwahl wieder, wird aber hier nicht behandelt).

Einführende Artikel

Zum Einstieg sollte man sich zu Beginn die folgenden beiden Artikel durchlesen:

In ihnen beschreibe ich ganz allgemein die Schritte, mit denen man einen Hypothesentest durchführt. Dadurch werden die einzelnen Teile in diesem Artikel verständlicher.

1. Hypothesen aufstellen

Wir betrachten in diesem Artikel das oben erwähnte Beispiel. Wir fragen 80 Personen nach ihrem Geschlecht, und der zuletzt gewählten Partei. Die Hypothesen bei diesem Test lauten immer gleich:

  • \(H_0\): Die beiden Variablen \(X\) und \(Y\) sind unabhängig
  • \(H_1\): Die beiden Variablen \(X\) und \(Y\) sind voneinander abhängig

Welche der Variablen man \(X\) und welche man \(Y\) nennt, ist eigentlich egal. Man kann auch andere Buchstaben verwenden die man sich leichter merken kann, z.B. \(G\) für das Geschlecht, und \(P\) für die Partei.

Welche Hypothese die Null- und welche die Alternativhypothese wird, ist bei dieser Aufgabenformulierung manchmal nicht eindeutig formuliert. Aber man kann sich merken, dass man solche Tests immer nur in eine Richtung rechnen kann: Die Situation „die beiden Variablen sind abhängig“ muss immer in die Alternativhypothese.

2. Test wählen

Wir führen hier einen Chi-Quadrat-Test durch. Die Tabelle zur Testwahl hätte uns das auch vorgeschlagen, da wir eine nominale Zielgröße haben (die Partei) und eine nominale Einflussgröße (das Geschlecht).

Notiz am Rande: Der Fisher-Test, der in dieser Tabelle als Alternative vorgeschlagen wird, hat das gleiche Ziel wie der Chi-Quadrat-Test, aber ist im Ergebnis etwas genauer – dafür aber auch rechenaufwändiger. Als Faustregel hat sich eingebürgert, dass man den Chi-Quadrat-Test immer dann verwenden darf, wenn in jeder einzelnen Zelle der in Schritt 4 erstellten Kreuztabelle eine Zahl größer oder gleich 5 steht.

3. Signifikanzniveau festlegen

Wie in allen anderen besprochenen Tests hier können wir auch beim Chi-Quadrat-Test das Signifikanzniveau wählen. Hier verwenden wir die üblichen 5%, also setzen wir das Signifikanzniveau \(\alpha = 0.05\) fest.

4. Daten sammeln

Die Ausgangslage, die wir für einen Chi-Quadrat-Test benötigen, ist immer eine Kreuztabelle der beiden Variablen.

Die Ergebnisse bekommen wir als Liste, aber wir können sie einfach in eine Kreuztabelle zusammenfassen. Als Ausgangssituation haben wir oft eine Liste der folgenden Form:

Person \(i\) Geschlecht Partei
1 männlich CDU/CSU
2 weiblich Sonstige
3 männlich SPD
\(\vdots\) \(\vdots\) \(\vdots\)

Wir formen diese Daten um in eine Kreuztabelle (Diese Tabelle haben wir im Artikel zu Kreuztabellen schon mal gesehen):

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 26 22 8 12 16 84
Frauen 36 28 14 14 24 116
Summe 62 50 22 26 40 200

5. Prüfgröße berechnen

Die Prüfgröße kennen wir bereits aus der deskriptiven Statistik. Sie ist nämlich exakt dasselbe wie der Chi-Quadrat-Koeffizient \(\chi^2\). Die Berechnung dieses Wertes ist im dortigen Artikel erklärt, auch die Herleitung, warum man ihn so berechnet, wird dort erläutert. Ich gebe hier daher die Herleitung der Prüfgröße relativ knapp erklärt wieder.

Wir gehen in zwei Schritten vor. Zuerst berechnen wir die Unabhängigkeitstabelle, und danach den Chi-Quadrat-Koeffizienten, d.h. die Prüfgröße.

Um die Unabhängigkeitstabelle zu erstellen, beginnen wir mit der (bis auf die Randhäufigkeiten) leeren Kreuztabelle der Umfragewerte:

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 84
Frauen 116
Summe 62 50 22 26 40 200

Dort fügen wir jetzt für jede Zelle die erwartete Häufigkeit ein, d.h. die Anzahl an Personen, die wir erwarten würden wenn die beiden Merkmale „Geschlecht“ und „Partei“ nichts miteinander zu tun hätten. Die Formel dafür (für Zeile \(i\) und Spalte \(j\)) lautet:

\[ e_{ij} = \frac{h_{i\cdot} \cdot h_{\cdot j}}{n} \]

Zum Beispiel ist der erwartete Anteil der männlichen FDP-Wähler \(e_{13} = \frac{84\cdot 22}{200} = 9.24\).

Wie gesagt, im Artikel zum Chi-Quadrat-Koeffizienten ist dieses Vorgehen ein bisschen detaillierter erklärt.

Die erwarteten Häufigkeiten können wir jetzt in die Tabelle eintragen, um den zweiten Schritt, das Berechnen von \(\chi^2\), übersichtlicher machen zu können:

SPD CDU/CSU FDP Grüne Sonstige Summe
Männer 26.04 21 9.24 10.92 16.80 84
Frauen 35.96 29 12.76 15.08 23.20 116
Summe 62 50 22 26 40 200

Mit den übersichtlich gesammelten Werten für \(e_{ij}\) können wir nun die Prüfgröße anhand der folgenden Formel berechnen:

\[ \chi^2 = \sum_{i=1}^I \sum_{j=1}^J \frac{(h_{ij}-e_{ij})^2}{e_{ij}} \]

Was das in Worten bedeutet: Wir müssen für jede der 10 Zellen den Unterschied zwischen tatsächlicher und erwarteter Häufigkeit berechnen, diesen Unterschied dann quadrieren, und ihn nochmal durch die erwartete Häufigkeit teilen. Die so erhaltenen 10 Werte summieren wir einfach auf, und das Ergebnis ist die Prüfgröße.

Für die Zelle „weibliche FDP-Wähler“, also Zeile 2 und Spalte 3, sähe das beispielhaft so aus: \(\frac{(14-12.76)^2}{12.76} = 0.1205\)

Alle 10 Werte, wer es selbst nachrechnen möchte, fasse ich hier kurz zusammen:

SPD CDU/CSU FDP Grüne Sonstige
Männer 0.00006 0.0476 0.1664 0.1068 0.0381
Frauen 0.00004 0.0344 0.1205 0.0773 0.0276

Und die fertige Prüfgröße \(\chi^2\) ist jetzt einfach die Summe dieser 10 Werte:

\[ \chi^2 = 0.6188 \]

6. Verteilung der Prüfgröße bestimmen

Die Prüfgröße heißt \(\chi^2\), und sie hat passenderweise auch eine \(\chi^2\)-Verteilung. Wir müssen zum richtigen Ablesen der kritischen Werte allerdings noch die Anzahl der Freiheitsgrade bestimmen. Was damit gemeint ist, ist für einführende Statistikveranstaltungen nicht so wichtig – man darf nur nicht vergessen, diesen Wert zu berechnen, und dann in der Verteilungstabelle auch am richtigen Ort nachzusehen.

Die Prüfgröße ist also \(\chi^2\)-verteilt, und zwar  mit \((I-1)\cdot (J-1)\) Freiheitsgraden. Dabei ist mit \(I\) die Anzahl der Zeilen in der Kreuztabelle gemeint, und mit \(J\) die Anzahl der Spalten.

Bei unserem Beispiel sind es also \((2-1) \cdot (5-1) = 4\) Freiheitsgrade.

7. Kritischen Bereich (oder p-Wert) berechnen

Beim Chi-Quadrat-Test gibt es glücklicherweise nur eine Testvariante. Beim t-Test hatten wir dagegen drei mögliche Testrichtungen, je nachdem wie die Alternativhypothese formuliert war: kleiner, größer, oder ungleich einem vorher bestimmten Mittelwert.

Das Berechnen des kritischen Bereichs ist beim Chi-Quadrat-Test also im Gegensatz zum t-Test sehr einfach: Wenn unser Signifikanzniveau \(\alpha\) die üblichen 5% sind, also \(\alpha=0.05\), dann suchen wir das 95%-Quantil (also allgemein \(1-\alpha\)) der \(\chi^2\)-Verteilung mit den vorher berechneten Freiheitsgraden – bei uns 4.

In der Verteilungstabelle lesen wir dann ab: Für 4 Freiheitsgrade und dem Quantil 0.95, also 95%, beträgt der Wert 9.488.

Die Schranke zum kritischen Wert ist also 9.488, und beim Chi-Quadrat-Test ist der kritische Bereich immer der Bereich über der kritischen Schranke. Das heißt, dass alle Prüfgrößen über 9.488 in unserem Fall dazu führen dass wir die Nullhypothese ablehnen, und damit die beiden Variablen „Geschlecht“ und „Partei“ voneinander abhängig sind.

8. Testentscheidung treffen

Im 5. Schritt haben wir die Prüfgröße berechnet als 0.6188. Der kritische Bereich, den wir im 7. Schritt berechnet haben, ist der Bereich über 9.488. Da unsere Prüfgröße aber nicht im kritischen Bereich liegt, können wir in dieser Analyse die Nullhypothese nicht ablehnen.

Wir konnten also hier keine ausreichenden Beweise dafür finden, dass das Wahlverhalten von Männern und Frauen unterschiedlich ist.

Klausuraufgabe

Ein KFZ-Versicherer gibt eine Studie in Auftrag, um zu überprüfen ob Fahrer von verschiedenen Autotypen unterschiedlich oft Geschwindigkeitsüberschreitungen begehen. Dazu werden einen Tag lang Daten von einem Blitzer erfasst, und zwar von insgesamt 450 Autos der Typ (Kleinwagen, Limousine, Kombi, sonstige), und ob sie zu schnell waren oder nicht. Das Ergebnis dieser Erhebung ist in der folgenden Tabelle zusammengefasst:

Kleinwagen Limousine Kombi Sonstige
nicht zu schnell 87 82 78 80
zu schnell 21 44 35 23

Führe einen geeigneten Hypothesentest zum Niveau \(\alpha=0.01\) durch, um zu überprüfen ob die beiden Variablen abhängig sind oder nicht.

Lösung (klick)

Wir gehen nach den üblichen 8 Schritten beim Testen vor:

1. Hypothesen aufstellen

Das Versicherungsunternehmen möchte testen ob die beiden Variablen abhängig sind. Die Hypothesen lauten also „Autotyp und Geschwindigkeitsüberschreitung sind unabhängig“, und „Autotyp und Geschwindigkeitsüberschreitung sind abhängig“.

Da die Situation „die Variablen sind Abhängig“ bei dieser Testform immer in die Alternativhypothese muss, lauten die Hypothesen schließlich:

  • \(H_0\): Der Autotyp und die Geschwindigkeitsüberschreitung sind unabhängig
  • \(H_1\): Der Autotyp und die Geschwindigkeitsüberschreitung sind abhängig

2. Test wählen

Da wir eine nominale Zielgröße haben (die Geschwindigkeitsüberschreitung) und eine nominale Einflussgröße (der Autotyp), führen wir hier einen Chi-Quadrat-Test durch. In der Tabelle zur Testwahl kann man diese Situation auch nachschlagen.

3. Signifikanzniveau festlegen

In dieser Aufgabe wurde uns vorgegeben, zum Niveau \(\alpha=0.01\) zu testen.

4. Daten sammeln

Die Daten wurden uns in der Aufgabe schon gegeben. Allerdings fehlen noch die für den Test wichtigen Randhäufigkeiten. Wir summieren also jede Zeile und Spalte und schreiben uns diese Werte noch zusätzlich an die Tabelle:

Kleinwagen Limousine Kombi Sonstige Summe
nicht zu schnell 87 82 78 80 327
zu schnell 21 44 35 23 123
Summe 108 126 113 103 450

5. Prüfgröße berechnen

Um die Prüfgröße zu berechnen, gehen wir am besten in zwei Schritten vor, um nicht durcheinanderzukommen und keine Flüchtigkeitsfehler zu machen.

Wir berechnen also zuerst die Unabhängigkeitstabelle. Dazu beginnen wir mit der Tabelle, in der nur noch die Randhäufigkeiten stehen:

Kleinwagen Limousine Kombi Sonstige Summe
nicht zu schnell 327
zu schnell 123
Summe 108 126 113 103 450

Jetzt füllen wir für jede Zeile \(i\) und jede Spalte \(j\) die erwarteten Häufigkeiten \(e_{ij}\) ein, nach der üblichen Formel:

\[ e_{ij} = \frac{h_{i\cdot} \cdot h_{\cdot j}}{n} \]

Zum Beispiel ist der erwartete Anteil der zu schnellen Autos unter den Kombis \(e_{23} = \frac{123\cdot 113}{450} = 30.89\). Analog dazu füllen wir die restlichen Werte ein:

Kleinwagen Limousine Kombi Sonstige Summe
nicht zu schnell 78.48 91.56 82.11 74.85 327
zu schnell 29.52 34.44 30.89 28.15 123
Summe 108 126 113 103 450

Damit berechnen wir nun die Prüfgröße anhand der Formel

\[ \chi^2 = \sum_{i=1}^I \sum_{j=1}^J \frac{(h_{ij}-e_{ij})^2}{e_{ij}} \]

Wir berechnen also für jede Zelle den Wert \(\frac{(h_{ij}-e_{ij})^2}{e_{ij}}\). In der ersten Zeile und ersten Spalte, d.h. für die „nicht zu schnellen“ Kleinwägen, wäre das \(\frac{(87-78.48)^2}{78.48} = 0.925\). Für die restlichen Zellen rechnen wir die Werte ebenso aus, und können sie der Übersichtlichkeit halber auch in einer Tabelle notieren:

Kleinwagen Limousine Kombi Sonstige
nicht zu schnell 0.925 0.998 0.206 0.354
zu schnell 2.459 2.654 0.547 0.942

Die Prüfgröße \(\chi^2\) ist nun die Summe all dieser Werte, insgesamt also

\[\chi^2 = 9.085 \]

6. Verteilung der Prüfgröße bestimmen

Die Prüfgröße beim Chi-Quadrat-Test ist \(\chi^2\)-verteilt mit \((I-1)\cdot (J-1)\) Freiheitsgraden. wobei \(I\) die Anzahl der Zeilen, und \(J\) die Anzahl der Spalten der Kreuztabelle ist. Bei uns haben wir also \(1\cdot 3 = 3\) Freiheitsgrade. Das heißt also:

\[\chi^2 \sim \chi^2(3)\]

7. Kritischen Bereich (oder p-Wert) berechnen

Da wir bei diesem Test zum Signifikanzniveau 1%, also \(\alpha=0.01\) testen, benötigen wir das äußerste 1% der Chi-Quadrat-Verteilung. Das äußerste 1% ist der Teil der größer ist als das 99%-Quantil dieser Verteilung. In der \(\chi^2\)-Verteilungstabelle sehen wir nach, welchen Wert das 99%-Quantil der \(\chi^2\)-Verteilung mit 3 Freiheitsgraden hat, und bekommen als Ergebnis 11.345.

Der kritische Bereich ist also jeder Wert von \(\chi^2\) der größer als 11.345 ist. Falls also unsere Prüfgröße über 11.345 liegt, dann können wir die Nullhypothese ablehnen, was bedeutet dass wir nachgewiesen haben, dass der Autotyp und die Geschwindigkeitsüberschreitung zusammenhängen, d.h. abhängig voneinander sind.

8. Testentscheidung treffen

Bei uns ist die Prüfgröße in Schritt 5 allerdings 9.085, d.h. sie liegt nicht im kritischen Bereich. Wir können also zum Niveau von \(\alpha=0.01\) nicht nachweisen, dass eine Abhängigkeit zwischen den beiden Variablen besteht.

Anmerkung: Falls als Signifikanzniveau „nur“ ein Wert von \(\alpha=0.05\) vorgegeben worden wäre, dann hätten wir bei diesem Test die Nullhypothese abgelehnt, und hätten eine Abhängigkeit nachgewiesen. Für das „strengere“ Signifikanzniveau von \(\alpha=0.01\) waren die Daten aber noch nicht eindeutig genug, um auf eine Abhängigkeit schließen zu können.