Konfidenzintervall für einen Anteil p

Wenn wir in unserer Stichprobe ein Merkmal mit nur zwei möglichen Ausprägungen haben, zum Beispiel „Student? (ja/nein)“, benötigen wir zum Berechnen des Konfidenzintervalls die folgenden Informationen:

  • Die Anzahl der Daten \(n\) (Stichprobengröße).
  • Den Parameterschätzer für den Anteilswert \(\hat{p}\). Im entsprechenden Artikel haben wir schon gelernt wie man ihn berechnet: \(\hat{p} = \frac{\sum_{i=1}^n x_i}{n}\)
  • Das gewünschte Konfidenzniveau \(1-\alpha\), d.h. die Irrtumswahrscheinlichkeit \(\alpha\). Meistens ist es \(\alpha = 0.05\) oder \(\alpha = 0.01\).

Mit Hilfe der gewünschten Irrtumswahrscheinlichkeit \(\alpha\) müssen wir nun ein Quantil der Normalverteilung bestimmen: Falls wir \(\alpha=0.05\) wählen, also eine Irrtumswahrscheinlichkeit von 5% wünschen, dann müssen wir das 97,5%-Quantil der Normalverteilung bestimmen (das ist 1,96). Falls wir uns noch sicherer sein möchten, und eine nur 1%-ige Irrtumswahrscheinlichkeit möchten, dann müssen wir das 99,5%-Quantil der Normalverteilung bestimmen (das ist 2,58). Allgemein gesagt benötigen wir das \(1-\frac{\alpha}{2}\)-Quantil, also den Wert \(z_{1-\frac{\alpha}{2}}\). Diesen Wert lesen wir in der Klausur aus der Verteilungstabelle der Normalverteilung ab.

Mit diesen Werten können wir nun das Konfidenzintervall berechnen. Die untere Grenze des Intervalls ist:

\[ u = \hat{p} – z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \]

Für die obere Grenze ersetzt man nur das Minus durch ein Plus:

\[ o = \hat{p} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \]

Das Konfidenzintervall ist also nun \([u, o]\). In einer Formelsammlung sieht man diese Schritte meist in eine einzige Formel zusammengefasst, die dann erstmal etwas einschüchternd aussieht. Aber sie verpackt die oberen Formeln nur in eine einzelne Zeile. So sieht das Konfidenzintervall als eine Formel aus:

\[ \left[ \hat{p} – z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}}, \, \, \hat{p} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \right] \]

Wenn man nun möchte, kann man das Intervall noch kürzer schreiben, denn in den zwei Formeln für die untere und obere Grenze ist nur ein Plus bzw. ein Minus unterschiedlich. Wenn wir dieses Symbol durch ein \(\pm\) ersetzen, dann lautet das KI einfach:

\[ \hat{p} \pm z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}}  \]

Anmerkung: Dieses Konfidenzintervall ist kein exaktes, sondern nur ein approximatives Intervall. Um diese Formel anwenden zu dürfen, sollte man mindestens 30 Beobachtungen in der Stichprobe haben, also  \(n \geq 30\)

Beispielaufgabe

Wir berechnen ein KI um diese Formeln zu illustrieren. Angenommen, wir gehen Freitagmittag in die Innenstadt und fragen die ersten 250 Menschen die wir treffen, ob sie bei der letzten Wahl auch wählen gegangen sind. 183 Menschen antworten mit „ja“ (was wir mit einer 1 kodieren). Wir möchten nun ein 99%-Konfidenzintervall für die Wahlbeteiligung in der Gesamtbevölkerung berechnen.


Dazu brauchen wir die folgenden Werte:

  • Die Stichprobengröße \(n\), das ist hier 250.
  • Den Parameterschätzer \(\hat{p}\), das ist bei uns \(\frac{183}{250} = 0.732\)
  • Die Irrtumswahrscheinlichkeit \(\alpha\). Da wir ein 99%-Konfidenzintervall möchten, ist \(\alpha\) bei uns 1-0.99, also 0.01.
  • Das Quantil der Normalverteilung, \(z_{1-\frac{\alpha}{2}}\), ist bei uns also das 99,5%-Quantil, also \(z_{0.995}\). Aus der Tabelle der Normalverteilung lesen wir dafür den Wert 2,58 ab.

Damit können wir nun die Grenzen des KIs berechnen. Die untere Grenze ist

\[ u = \hat{p} – z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} = 0.732 – 2.58 \cdot \sqrt{\frac{0.732 \cdot (1-0.732)}{250}} = 0.660 \]

Die obere Grenze ist dann

\[ u = \hat{p} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} = 0.732 + 2.58 \cdot \sqrt{\frac{0.732 \cdot (1-0.732)}{250}} = 0.804 \]

Unser 99%-Konfidenzintervall ist also gerundet \([0.66, 0.80]\). Wir schätzen also, dass die wahre Wahlbeteiligung ziemlich sicher im Bereich von 66% bis 80% legen wird.

Klausuraufgabe

Der lokale Nahverkehr möchte schätzen, welcher Anteil seiner U-Bahn-Passagiere als Schwarzfahrer unterwegs ist. Dazu kontrollieren sie 175 Personen nach ihrem Ticket, und finden 11 Schwarzfahrer unter ihnen.

  • a) Schätze den Anteil der Schwarzfahrer in der Grundgesamtheit
  • b) Berechne ein 95%-Konfidenzintervall für den wahren Anteil an Schwarzfahrern in der Grundgesamtheit
  • c) Berechne nun ein 99%-Konfidenzintervall. Erkläre wie und warum es anders aussieht als das 95%-Konfidenzintervall.
Lösung (klick)
  • a) Unsere Stichprobe besteht aus einem einzelnen Merkmal mit zwei möglichen Ergebnissen: „Kein Schwarzfahrer“ und „Schwarzfahrer“. Wir kodieren also „Schwarzfahrer“ mit einer 1, und „kein Schwarzfarher“ mit einer 0. Den Anteil an Schwarzfahrern schätzen wir dann mit \(11 / 175 = 0.0629\). Allgemein wäre die Formel \(\hat{p} = \frac{\sum_{i=1}^n x_i}{n}\), und wir setzen im Zähler die Anzahl aller 1er-Beobachteungen ein (also 11), und im Nenner die Anzahl der insgesamt untersuchten Personen (also 175).
    Da nun \(\hat{p} = 0.0629\) ist, schätzen wir also, dass 6,29% aller Passagiere Schwarzfahrer sind.
  • b) Wir müssen die untere und die obere Grenze des KIs berechnen. Die untere Grenze berechnet man durch
    \[ u = \hat{p} – z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \] Die dafür nötigen Werte sind:

    • \(\hat{p}\) ist 0.0629, das haben wir in Teil a) berechnet
    • \(\alpha\) ist die Irrtumswahrscheinlichkeit. Bei einem 95%-Konfidenzintervall ist sie 5%, also \(\alpha = 0.05\)
    • \(z_{1-\frac{\alpha}{2}}\) ist das \(1-\frac{\alpha}{2}\)-Quantil, also das 97,5%-Quantil, der Standardnormalverteilung. In der Tabelle der Normalverteilung lesen wir ab, dass das 1,96 ist.
    • \(\hat{p} (1 – \hat{p}) = 0.0629 \cdot 0.9371 = 0.0589\)
    • \(n\) ist die Stichprobengröße, also 175

    Die untere Grenze ist also \(0.0629 – 1.96 \cdot \sqrt{\frac{0.0589}{175}}\), und im Ergebnis 0.0269.

    Die obere Grenze erhält man, wenn man in der Formel das Minus durch ein Plus ersetzt, also durch
    \[ o = \hat{p} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\hat{p} (1 – \hat{p})}{n}} \] Das Ergebnis dafür ist \(0.0629 + 1.96 \cdot \sqrt{\frac{0.0589}{175}} = 0.0989\)

    Das 95%-Konfidenzintervall ist also im Ergebnis \([0.0269, 0.0989]\). Mit einer Irrtumswahrscheinlichkeit von 5% gibt es also zwischen 2,7% und 9,9% Schwarzfahrer in der Gesamtbevölkerung.

  • c) Um das 99%-Konfidenzintervall zu berechnen, verändert sich gegenüber Teil b) nur der Wert \(\alpha\). Er ist jetzt 0.01. Wir müssen daher auch das \(z\)-Quantil neu berechnen, es ist jetzt das 99.5%-Quantil, denn \(1-\frac{\alpha}{2} = 0.995\). Aus der Tabelle lesen wir dafür ab: \(z_{0.995} = 2.57\).Da alle anderen Werte (die Stichprobengröße, der Schätzer \(\hat{p}\) für den Anteil) gleich bleiben, ersetzen wir gegenüber Teil b) nur die 1.96 mit den 2.57, und erhalten als Grenzen:
    \[ u = 0.0629 – 2.57 \cdot \sqrt{\frac{0.0589}{175}} = 0.01587 \] \[ o = 0.0629 + 2.57 \cdot \sqrt{\frac{0.0589}{175}} = 0.1100 \] Das 99%-KI ist also \([0.0158, 0.1100]\), und ausformuliert heißt das, dass mit einer nur 1%-igen Irrtumswahrscheinlichkeit der Anteil an Schwarzfahrern zwischen 1,6% und 11% liegt.

    Zur Interpretation: Dieses Intervall ist breiter als das 95%-KI. Da wir uns hier nicht mehr „nur“ zu 95%, sondern zu 99% sicher sein wollen, folgt daraus dass wir uns einen Fehler noch ungerner erlauben möchten. Daher müssen wir „auf Nummer sicher“ gehen, und das Konfidenzintervall muss breiter sein als das 95%-KI.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.