Archiv des Autors: Alex

Welchen Test soll ich wählen?

Dieser Artikel basiert auf dem allgemeinen Artikel zum Vorgehen bei Hypothesentests. Ich empfehle, diesen Artikel vorher zu lesen und zu verstehen; das macht den Lesefluss und das Verständnis dieses Artikels hier sehr einfacher.

Es gibt eine ganze Menge an Testverfahren, die auf den ersten Blick gerne mal überwältigend sind. Welchen Test man in einer bestimmten Situation genau wählen muss, hängt von einigen Fragen ab, die in jeder Situation erneut beantwortet werden müssen. Man hangelt sich nun Frage für Frage in seine spezielle Situation herunter, bis man den passenden Test gefunden hat.

Eine Google-Bildersuche für „which statistical test“ bzw. „welcher statistische test“ liefert viele verschiedene Diagramme, die unterschiedlich detailliert sind, und auch unterschiedlich beginnen. Manche sind zielorientiert, d.h. die erste Frage lautet „Was möchte ich erreichen?“, und die möglichen Ziele sind z.B. „Einen Mittelwert mit einem hypothetischen Wert vergleichen“. Andere Diagramme orientieren sich an den Eigenschaften der Daten. Hier beginnt man mit der Frage, wie die Zielgröße aussieht, ob sie z.B. nominal oder stetig ist. Das ist für den Anfang in meinen Augen leichter, weswegen wir uns diese Frage stellen:

Welcher Art ist die Zielgröße?

  1. Nominal? Das heißt, sie ist eine Kategorie mit zwei oder mehr möglichen Ausprägungen. Gehe zu Punkt 1.
  2. Normalverteilt? Eine stetige Zielgröße die (annähernd) durch eine Normalverteilung beschrieben werden kann. Eine normalverteilte Zielgröße macht das Testverfahren ein bisschen einfacher als bei nicht-normalverteilten Daten. Gehe zu Punkt 2.
  3. Stetig und nicht-normalverteilt, oder ordinal, oder Zähldaten? Für diese anderen Zielgrößen gehe zu Punkt 3.

1. Tests für nominale Zielgrößen

Zunächst ist wichtig ob es eine oder mehrere Einflussgrößen gibt:

  1. Keine Einflussgröße? Dann interessiert man sich meist dafür, ob die Häufigkeiten in den verschiedenen Ausprägungen eine bestimmte Verteilung (z.B. 50/50) haben. Gehe zu 1.1.
  2. Es gibt Einflussgrößen? Dann möchte man wissen, ob die Verteilung der Zielgröße von ihnen beeinflusst wird. Gehe zu 1.2.

1.1. Tests für nominale Zielgrößen ohne Einflussgröße

Falls die Zielgröße nur zwei mögliche Ausprägungen (z.B. ja/nein) hat, ist der Binomialtest die richtige Wahl. Mit ihm testet man, ob z.B. 25% in der Gruppe ja liegen. Man kann sowohl die Wahrscheinlichkeit festlegen, als auch die Richtung der Alternativhypothese. Ein mögliches Beispiel wäre:

  • \(H_0\): In meiner Stichprobe sind höchstens 40% der Probanden weiblich
  • \(H_1\): Es sind mehr als 40% weiblich.

1.2. Tests für nominale Zielgrößen mit Einflussgröße(n)

Falls es Einflussgrößen gibt, ist deren Anzahl und Struktur ausschlaggebend. Die einfachste Variante ist, wenn man nur eine Einflussgröße hat

2. Tests für normalverteilte Zielgrößen

asdf

3. Tests für ordinale und stetige Zielgrößen (auch Zähldaten)

asdf

Modellannahmen der linearen Regression

Behaltet im Kopf, was die lineare Regression macht. Sie zeichnet eine Gerade durch ein Streudiagramm. Das funktioniert in vielen Fällen gut, aber in anderen Fällen leiten die Ergebnisse zu Fehlschlüssen.

Hier ist ein Beispiel: Es wurde auf einer Teststrecke für 100 Autos deren Geschwindigkeit gemessen, und dann der Bremsweg bei einer Vollbremsung. Wer sich noch an die Fahrschule erinnert, weiß, dass der Bremsweg annähernd so berechnet werden kann:

\[ x = \frac{v}{10} \cdot \frac{v}{10} \cdot \frac{1}{2} \]

Das ist eine quadratische Formel. Sie lässt sich kürzen zu \(x = v^2 / 200\). Misst man jetzt auf der Teststrecke 100 Autos, könnte das Ergebnis so aussehen:

 

Die Regressionsgerade im rechten Bild ist in dieser Situation keine gute Wahl. Der Grund ist, dass eine der Annahmen des linearen Modells verletzt wurden.

Es gibt verschiedene Möglichkeiten, die Annahmen zu formulieren, und die genaue Anzahl der Annahmen ist dann auch abhängig von der Formulierung. In meiner Darstellungsweise gibt es die folgenden vier wichtigen Annahmen:

1. Linearer Zusammenhang

Die erste Annahme wurde in unserem obigen Beispiel gleich verletzt: Für ein lineares Modell muss der Zusammenhang natürlich auch linear sein. Das erste Bild ist ein Beispiel dafür, das zweite und dritte ein Gegenbeispiel:

Mathematisch sieht die Annahme für einen linearen Zusammenhang einfach so aus:

\[ \mathbb{E}(y_i) = a + b \cdot x \]

Das ist die Formulierung für das lineare Modell. Ein mögliches Gegenbeispiel, im zweiten Bild, sähe z.B. so aus: \(\mathbb{E}(y_i) = a + \sin(x) / 10\)

2. Normalverteilung der Residuen

Die Residuen sind die Abstände zwischen einer Beobachtung und deren Vorhersage auf der Regressionsgeraden. Möchte man nun nicht nur eine „gute“ Gerade durch die Daten ziehen, sondern auch Eigenschaften dieser Geraden testen, dann müssen als Voraussetzung dafür die Fehlerterme einer Normalverteilung folgen. Das hat den Grund, dass dann ein einfacher Hypothesentest für die Parameter (also z.B. Steigung der Geraden = 0) durchgeführt werden kann.

Das linke Bild zeigt eine Regressionsgerade, um die die Fehlerterme mit einer „schönen“ Normalverteilung streuen. Das ist die Idealsituation.

Das zweite Bild, in der Mitte, sieht anders aus. Hier gibt es sehr große Ausreißer, die die Schätzung stark beeinflussen würden, und zu ungenauen Konfidenzintervallen und Testaussagen führen würden. (Wer es genau wissen möchte: Ich habe die Residuen in diesem Diagramm als \(t\)-Verteilung mit einem Freiheitsgrad simuliert)

Das dritte Bild ist ein weiteres Beispiel für eine „falsche“ Verteilung: Hier sind die Residuen in etwa in ganzzahligen Abständen zur Regressionsgerade. Das ist ein sehr realitätsfernes Beispiel, es wird wohl nie vorkommen, aber es veranschaulicht sehr schön, welche Situationen durch die Modellannahme der normalverteilten Residuen „nicht erlaubt“ sind.

In eine Formel verpackt sieht diese Annahme nun so aus:

\[ \begin{align*} y_i &= a + b\cdot x_i + \epsilon_i \\ \epsilon_i &\sim \mathcal{N}(0, \sigma^2) \end{align*} \]

Die zweite Zeile verlangt, dass die Residuen \(\epsilon\) normalverteilt sind. In dieser Formel steckt eigentlich auch schon die nächste Annahme mit drin:

3. Gleichbleibende Varianz der Residuen

Diese Annahme besagt, dass die Varianz der Residuen sich über die \(x\)-Achse nicht verändern soll. Das linke Bild zeigt wieder ein positives Beispiel, und das rechte Bild zeigt, wie es nicht aussehen soll:

Die gleichbleibende Varianz (man sagt auch Homoskedastizität dazu – mein absolutes Lieblingswort) steckt auch schon in der oberen Formel drin. Man verlangt nämlich, dass für jede Beobachtung \(i\) die Varianz gleich ist. Es ist also \(\epsilon_i \sim \mathcal{N}(0, \sigma^2)\), und nicht \(\epsilon_i \sim \mathcal{N}(0, \sigma_i^2)\). Der Unterschied ist sehr klein: Statt \(\sigma^2\) steht in der zweiten Formel \(\sigma_i^2\). Das tiefgestellte \(i\) bedeutet, dass die Varianz hier für jede Beobachtung \(i\) unterschiedlich ist. Im rechten Bild wäre also z.B. für die erste Beobachtung \(\sigma_1^2 = 0.6\), und für die letzte Beobachtung \(\sigma_{100}^2 = 12.4\). Das bedeutet: unterschiedliche Varianzen, und genau das ist im linearen Modell nicht erlaubt. Die Streuung muss für jede Beobachtung gleich groß sein.

4. Unabhängigkeit der Residuen

Mit Unabhängigkeit ist das Folgende gemeint: Wenn ich den Fehlerterm für eine bestimmte Beobachtung kenne, dann darf mir das keine Information über den Fehlerterm für die nächste Beobachtung liefern. Das ist zum Beispiel im folgenden Bild der Fall:

Hier ist natürlich gleichzeitig die Annahme des linearen Einflusses verletzt (Verletzungen von Modellannahmen kommen selten alleine). Aber zusätzlich sind die Residuen abhängig voneinander: am linken Ende der \(x\)-Achse sind alle Residuen negativ, d.h. alle Punkte liegen unter der Regressionsgeraden. Die Abhängigkeit in diesem Bild heißt dann etwa: Wenn ich weiß, dass für Beobachtung \(i=10\) ein positives Residuum gibt, dann kann ich dadurch Schlüsse über das Residuum für die nächste Beobachtung \(i=11\) ziehen – es ist nämlich wahrscheinlich auch positiv.

Multiple lineare Regression

In den bisherigen Artikeln zur Regression ging es nur um die einfache lineare Regression. Hier schauen wir uns nun die multiple lineare Regression an.

Das Wort „multipel“ bedeutet, dass wir nun nicht mehr eine, sondern mehrere Einflussgrößen haben. Wichtig: es gibt mehrere Einflussgrößen. Die Anzahl der Zielgrößen verändert sich nicht, es ist immer noch nur eine Zielgröße.

Beispiel

Wir können uns das Beispiel aus den Artikeln zur einfachen linearen Regression ansehen, und es etwas weiterführen. Dort haben wir versucht, mit Hilfe der Regression die Ringgröße \(y\) einer Freundin zu schätzen, gegeben man kennt ihre Körpergröße \(x\).

Wenn dir jetzt allerdings sehr viel daran liegt, eine möglicht exakte Schätzung zu erhalten, um nicht mit einem unpassenden Ring vor ihr zu stehen, kannst du noch mehr Daten sammeln. Beispielsweise zusätzlich zur Körpergröße noch das Gewicht und das Alter von den 10 Frauen, die du befragst.

Die Daten würden nun also um zwei Variablen größer werden, und zum Beispiel so aussehen:

Person \(i\) 1 2 3 4 5 6 7 8 9 10
Körpergröße \(x_1\) 156.3 158.9 160.8 179.6 156.6 165.1 165.9 156.7 167.8 160.8
Körpergewicht \(x_2\) 62 52 83 69 74 52 77 65 79 51
Alter \(x_3\) 24 34 26 51 43 33 22 21 19 34
Ringgröße \(y\) 47.1 46.8 49.3 53.2 47.7 49.0 50.6 47.1 51.7 47.8

Wir haben jetzt nicht mehr eine Einflussgröße \(x\), sondern drei Stück: \(x_1\), \(x_2\), und \(x_3\). Und jede dieser Einflussgrößen hat eine Ausprägung pro Person \(i\). Das heißt, dass nun zwei Zahlen unter dem \(x\) stehen: Eine für die Einflussgröße und eine für die Person. Zum Beispiel ist das Körpergewicht der vierten Person \(x_{2,4} = 69kg\).

Dadurch, dass man jetzt mehr Daten verfügbar hat, kann man eine genauere Schätzung bekommen. Die Regressionsgleichung würde jetzt lauten:

\[ y = a + b_1 x_1 + b_2 x_2 + b_3 x_3 \]

Mit der multiplen Regression kann ich nun Werte für die Parameter \(a\), \(b_1\), \(b_2\), und \(b_3\) erhalten, und mit Hilfe derer kann ich nun wieder eine Vorhersage treffen.

Anmerkung: Genauso wie in der einfachen linearen Regression können die Parameter in anderen Büchern/Skripten anders benannt sein (z.B. \(\beta_0\), \(\beta_1\) usw.). Sie bedeuten aber genau dasselbe.

Schätzung der Parameter

Die Parameterschätzung ist etwas aufwändiger, und von Hand praktisch nicht mehr durchführbar. Grob gesagt werden die drei Einflussgrößen \(x_1\), \(x_2\) und \(x_3\), die man ja als Vektoren ansehen kann, spaltenweise in eine Matrix \(X\) zusammengefasst. Mit Hilfe dieser Matrix und dem Vektor aller Zielgrößen \(y\) kann man dann den Vektor der Parameter (nennen wir ihn mal \(b\)) schätzen:

\[ b = (X^\top X)^{-1} X^\top y \]

Das wird, wie gesagt, etwas komplizierter, und ist auch mit dem Taschenrechner nicht mehr zu lösen. In einer Klausur wird das Berechnen der Parameter in einer multiplen Regression nicht abgefragt werden, weshalb ich die Details hier überspringe. Die Standardliteratur hilft hier aber weiter (ich empfehle die Springer-Bücher zur Regression oder Statistik).

Was aber durchaus Klausurstoff sein kann, ist die Interpretation der Parameter und die Vorhersage mit bereits gegebenen Parametern. Das schauen wir uns jetzt noch genauer an.

Interpretation der Parameter

Wie gesagt, die Berechnung bei der multiplen Regression ist zu kompliziert für Papier und Taschenrechner, daher lasse ich die Herleitung hier weg. Aber mit den Daten aus der obigen Tabelle erhalten wir per Computer gerundet die folgenden Parameter:

\(a=0.6\), \(b_1=0.28\), \(b_2=0.06\), und \(b_3=-0.02\).

Die Regressionsgerade sieht also so aus:

\[ y = 0.66 + 0.28 \cdot x_1 + 0.06 \cdot x_2 – 0.02 \cdot x_3 \]

Was bedeuten diese Parameter nun?

Der Wert \(b_1\), also 0.28, sagt aus, dass bei einer Person, die einen Zentimeter größer ist als eine andere, die Ringgröße im Durchschnitt um 0.28 größer ist. Da der Wert 0.28 größer als Null ist, sprechen wir hier von einem positiven Effekt: Eine größere Körpergröße führt zu einer größeren Ringgröße.

Andersherum ist es beim Alter. Der Wert von -0.02 sagt aus, dass eine Person, die ein Jahr älter ist, im Durchschnitt eine um 0.02 kleinere Ringgröße hat. Das ist ein negativer Effekt, denn der Wert \(b_3\) ist kleiner als Null.

Da wir bei einer Stichprobe aber immer mit zufälligen Daten arbeiten, ist der Parameter für quasi jede Einflussgröße nie exakt Null. Der Parameter für das Alter, die -0.02, sind z.B. so klein, dass sie eventuell schon zufällig auftreten. Die Vermutung liegt nahe, dass das Alter gar keinen Einfluss auf die Ringgröße hat (aber das Gewicht und die Körpergröße durchaus).

Um zu prüfen, ob eine Einflussgröße tatsächlich einen Einfluss hat, gibt statistische Software normalerweise einen \(p\)-Wert zusätzlich zu dem Parameterschätzer aus. Dieser \(p\)-Wert gehört zu der Hypothese, dass der jeweilige Effekt (z.B. vom Alter) gleich Null ist. Wenn der \(p\)-Wert klein genug ist (meist: kleiner als 0.05), dann geht man davon aus, dass die zugehörige Einflussgröße tatsächlich einen Effekt auf die Zielgröße hat, und man spricht von einem signifikanten Effekt.

In unserem Beispiel sind die \(p\)-Werte:
– Für \(b_1\) (Körpergröße): \(p=0.0000026\)
– Für \(b_2\) (Gewicht): \(p=0.00099\)
– Für \(b_3\) (Alter): \(p=0.112\)

Da nur die ersten beiden \(p\)-Werte kleiner als 0.05 sind, können wir hier schlußfolgern, dass sowohl die Körpergröße, als auch das Gewicht einen signifikanten Einfluss auf die Ringgröße haben, aber das Alter nicht.

(Das Berechnen der \(p\)-Werte ist wieder etwas komplizierter, und in einer Klausur wohl nicht gefragt werden, und wird daher hier übersprungen. Falls das jemand genauer wissen will, verweise ich wieder auf die Standardliteratur zur Regression.)

Vorhersage bei der multiplen linearen Regression

Bei der multiplen linearen Regression läuft die Vorhersage genauso ab wie bei der einfachen Regression, nur eben mit mehreren Einflussgrößen. Unsere Regressionsgleichung lautet:

\[ y = 0.66 + 0.28 \cdot x_1 + 0.06 \cdot x_2 – 0.02 \cdot x_3 \]

Das heißt, wenn unsere Freundin nun wie bisher 170cm groß ist, aber wir zusätzlich wissen, dass sie 68kg wiegt und 29 Jahre alt ist, dann können wir eine genauere Schätzung für die Ringgröße abgeben:

\[y = 0.66 + 0.28 \cdot 170 + 0.06 \cdot 68 – 0.02 \cdot 29 = 51.76 \]

Wir erwarten also in etwa eine Ringgröße von 51.76, und sollten daher einen Ring mit einer Größe kaufen, der so nah wie möglich daran liegt (also wahrscheinlich einen der Größe 52).

Einfache lineare Regression

In diesem Artikel wird nun – aufbauend auf das einführende Beispiel – beschrieben, wie man die Regressionsgerade für unsere Beispieldaten berechnet und einzeichnet. Zur Wiederholung:

Wir möchten die Ringgröße (\(y\)) unserer Freundin schätzen, um sie mit einem Ring zu überraschen. Wir wissen aber nur ihre Körpergröße (\(x\)). Um nun die Ringgröße zu schätzen, sammeln wir 20 Datenpunkte von Freunden und Bekannten, und notieren ihre Körpergröße und Ringgröße:

Person \(i\) 1 2 3 4 5 6 7 8 9 10
Körpergröße \(x\) 156.3 158.9 160.8 179.6 156.6 165.1 165.9 156.7 167.8 160.8
Ringgröße \(y\) 47.1 46.8 49.3 53.2 47.7 49.0 50.6 47.1 51.7 47.8

Wir nennen hier \(y\) die Zielgröße, da ihre Vorhersage unser Ziel ist. Die Körpergröße \(x\) wird allgemein auch Einflussgröße genannt. Es gibt aber noch unzählige andere Namen für die beiden Typen von Variablen. In anderen Quellen wird \(y\) auch häufig Zielvariable, Regressand, Outcome, erklärte Variable oder abhängige Variable (weil sie von \(x\) abhängig ist) genannt. Andere Namen für \(x\) sind Kovariable, Input, Regressor, erklärende Variable oder unabhängige Variable.

Diese Daten können wir nun in ein Streudiagramm einzeichnen, und erkennen sofort, dass größere Frauen tendenziell auch größere Ringe brauchen:

regression-motivation1

Die Regression ist nun eine statistische Methode, um die bestmögliche Gerade zu finden, die man durch diese Daten legen kann. Eine Gerade wird ja definiert durch zwei Parameter \(a\) und \(b\); man kann sie dann darstellen als

\[ y = a + b \cdot x \]

Manchmal sieht man übrigens statt \(a + b \cdot x\) auch \(\alpha + \beta \cdot x\) oder \(\beta_0 + \beta_1 \cdot x\), aber das sind nur andere Namen für dieselben Zahlen.

Berechnung der Parameter \(a\) und \(b\)

Wenn wir also die bestmögliche Gerade finden wollen, die wir durch diese Punktwolke an Daten legen können, ist das gleichbedeutend damit, dass wir die bestmöglichen Werte für \(a\) und \(b\) finden wollen. Und dafür wurden die folgenden beiden Formeln entdeckt:

\[ b = \frac{\sum_{i=1}^n (x_i – \bar{x}) \cdot (y_i – \bar{y})}{\sum_{i=1}^n (x_i – \bar{x})^2} \]

Die Formel für \(a\) ist einfacher, aber wir müssen vorher das Ergebnis für \(b\) berechnen und dort einsetzen:

\[ a = \bar{y} – b\cdot \bar{x} \]

Die Werte \(\bar{x}\) und \(\bar{y}\) sind jeweils die Mittelwerte der gemessenen Daten \(x\) und \(y\).

Eine kürzere Formel für die Berechnung von \(b\)

Die Formel für \(b\) ist recht chaotisch, aber es gibt eine Möglichkeit, sie kürzer darzustellen, während sie immernoch dasselbe Ergebnis liefert:

\[ b = r_{xy} \cdot \frac{s_y}{s_x} \]

Dabei ist \(r_{xy}\) die Pearson-Korrelation zwischen \(x\) und \(y\), und \(s_x\) und \(s_y\) jeweils die Standardabweichung von \(x\) bzw. \(y\). Diese Werte muss man natürlich auch erstmal ausrechnen, so dass diese kürzere Formel insgesamt wahrscheinlich mehr Rechenaufwand bedeutet – außer man hat diese Zwischenergebnisse schon z.B. in einer vorherigen Teilaufgabe der Klausur erhalten und kann sie einfach einsetzen.

Beispielaufgabe

Wir berechnen hier die Werte \(a\) und \(b\) für die obenstehende Tabelle von 10 Personen. Dazu brauchen wir die Mittelwerte von \(x\) und \(y\) als Zwischenergebnisse:

\[ \begin{align*} \bar{x} &= \frac{1}{10} \cdot (156.3+158.9+160.8+179.6+156.6+165.1+165.9+156.7+167.8+160.8) \\ &= \frac{1}{10} \cdot 1628.5 \\ &= 162.85 \end{align*} \]

Genauso erhält man dann auch

\[ \bar{y} = 49.03 \]

Zum Berechnen von \(b\) könnte man nun sofort loslegen, alles in den Taschenrechner einzutippen. Das ist aber anfällig für Leichtsinnsfehler, und oft reicht auch der Platz im Taschenrechner nicht für diese große Formel aus. Ich schlage also vor, in mehreren Schritten vorzugehen:

Bestimmen der Werte \((x_i-\bar{x})\) und \((y_i-\bar{y})\)

Zuerst brauchen wir Zwischenergebnisse, wo wir von jedem Wert den zugehörigen Mittelwert abziehen. Aus der Tabelle

Person \(i\) 1 2 3 4 5 6 7 8 9 10
Körpergröße \(x\) 156.3 158.9 160.8 179.6 156.6 165.1 165.9 156.7 167.8 160.8
Ringgröße \(y\) 47.1 46.8 49.3 53.2 47.7 49.0 50.6 47.1 51.7 47.8

werden also die folgenden Werte berechnet:

Person \(i\) 1 2 3 4 5 6 7 8 9 10
\((x_i-\bar{x})\) -6.55 -3.95 -2.05 16.75 -6.25 2.25 3.05 -6.15 4.95 -2.05
\((y_i-\bar{y})\) -1.93 -2.23 0.27 4.17 -1.33 -0.03 1.57 -1.93 2.67 -1.23

Als Beispiel: Der erste Wert für \((x_i-\bar{x})\) ist einfach \(156.3 – 162.85 = – 6.55\).

Berechnen von \(b\)

Jetzt sind wir nicht weit vom Ergebnis entfernt. Wir brauchen im Zähler der Formel für \(b\) nun für jede Person \(i\) das Produkt der beiden Werte \((x_i-\bar{x})\) und \((y_i-\bar{y})\), für die erste Person also z.B. \((-6.55 \cdot -1.93) = 12.6415\).

Im Nenner der Formel für \(b\) brauchen wir das Quadrat der zweiten Zeile, also wir müssen \((x_i-\bar{x})^2\) berechnen.

Diese Werte berechnen wir nun für alle 10 Personen und können sie (ich runde auf zwei Nachkommastellen) in zwei neue Zeilen der Tabelle einfügen:

Person \(i\) 1 2 3 4 5 6 7 8 9 10
\((x_i-\bar{x})\) -6.55 -3.95 -2.05 16.75 -6.25 2.25 3.05 -6.15 4.95 -2.05
\((y_i-\bar{y})\) -1.93 -2.23 0.27 4.17 -1.33 -0.03 1.57 -1.93 2.67 -1.23
\((x_i-\bar{x}) \cdot (y_i-\bar{y})\) 12.64 8.81 -0.55 69.85 8.31 -0.07 4.79 11.87 13.22 2.52
\((x_i-\bar{x})^2\) 42.90 15.60 4.20 280.56 39.06 5.06 9.30 37.82 24.50 4.20

Und wenn man sich jetzt nochmal die Formel für \(b\) anschaut, sieht man dass wir soweit sind: der Zähler ist die Summe der Werte in der dritten Zeile, und der Nenner die Summe der Werte in der vierten Zeile. Die ergeben sich zu

\[ \sum_{i=1}^n (x_i-\bar{x}) \cdot (y_i-\bar{y}) = 131.39 \]

und

\[ \sum_{i=1}^n (x_i-\bar{x})^2 = 463.2 \]

Somit können wir also \(b\) berechnen:

\[ b =\frac{\sum_{i=1}^n (x_i – \bar{x}) \cdot (y_i – \bar{y})}{\sum_{i=1}^n (x_i – \bar{x})^2} = \frac{131.39}{463.2} = 0.2836 \]

Berechnen von \(a\)

Der Wert \(a\) ist nun mit diesem Ergebnis ganz einfach zu erhalten:

\[ a = \bar{y} – b\cdot \bar{x} = 49.03 – 0.2836 \cdot 162.85 = 2.8457 \]

Vorhersage bei der einfachen linearen Regression

Bisher haben wir gelernt, wie man die beiden Koeffizienten \(a\) und \(b\) berechnet. Jetzt möchten wir mit Hilfe der Parameter auch für neue Daten \(x\) vorhersagen, welchen Wert für \(y\) wir erwarten.

Das Ziel, das wir mit der Regression erreichen wollen, ist nämlich folgendes: Angenommen es kommt eine neue Person, von der wir nur die Körpergröße \(x=170\) wissen. Was ist dann der Erwartungswert der Ringgröße \(y\)? Wir suchen also \(\mathbb{E}(y|x)\), den bedingten Erwartungswert von \(y\), gegeben man kennt \(x\).

Bei der einfachen linearen Regression gibt es ja nur eine Einflussgröße \(x\). Die Regressionsgerade lautet also

\[ y = a + b\cdot x \]

Um eine Vorhersage für die Zielgröße \(y\) zu erhalten, müssen wir also einfach den zugehörigen Wert für \(x\) in die Gleichung einsetzen. Die Werte für \(a\) und \(b\) haben wir vorher schon berechnet.

Als Beispiel: Im Beispiel aus dem vorherigen Artikel haben wir die Werte \(a=2.8457\) und \(b=0.2836\) bestimmt. Welche Ringgröße ist nun bei deiner Freundin zu erwarten, wenn sie eine Körpergröße von \(x=\)170cm hat? Dafür berechnen wir:

\[ y = a + b\cdot x = 2.8457 + 0.2836 \cdot 170 = 51.06 \]

Ein Ring mit der Größe 51 sollte also gut bei ihr passen.

Es ist hier noch wichtig zu erwähnen, dass wir nur den Erwartungswert von \(y\) vorhersagen. Die Ringgröße wird also nicht exakt 51.06 sein, sondern es gibt immer einen kleinen Fehler, den man im linearen Modell \(\epsilon\) (sprich: Epsilon) nennt. In Wirklichkeit lautet die Regressionsgleichung also

\[ y = a + b \cdot x + \epsilon \]

wobei \(\epsilon\) einen zufälligen und unbekannten Fehler bezeichnet.

Dieser Fehler heißt meistens Residuum, aber man trifft ihn auch manchmal unter den Namen Fehlerterm oder Epsilon an.

Einzeichnen der Regressionsgerade

Wir haben also nun die letztendliche Regressionsgerade berechnen können:

\[ y = 2.8457 + 0.2836 \cdot x \]

Um die Gerade dann einzuzeichnen, reicht es, zwei Punkte zu bestimmen, indem wir irgendwelche \(x\)-Werte aussuchen, und die zugehörigen \(y\)-Werte bestimmen. Die \(x\)-Werte sollten sich im Rahmen der „normalen“ Werte der Daten bewegen. Mit Hilfe der Grafik können wir z.B. \(x=160\) und \(x=170\) aussuchen. Dann berechnen wir mit der Formel der Regressionsgeraden die zugehörigen \(y\)-Werte:

\[ 2.8457 + 0.2836 \cdot 160 = 48.22 \]

\[ 2.8457 + 0.2836 \cdot 170 = 51.06 \]

Die Punkte \((160, 48.22)\) und \((170, 51.06)\) können wir nun in das Streudiagramm einzeichnen, und eine Gerade durch die beiden Punkte ziehen:

regression-gerade

Und fertig! Puh.

Regression: Ein einführendes Beispiel

Idee der Regression

Das Ziel der Regression ist es, den Wert einer bestimmten Variablen anhand einer oder mehrerer bekannten Werte vorherzusagen.

Beispiel

Du möchtest deiner Freundin einen Verlobungsring kaufen, kennst aber ihre Ringgröße nicht. Es ist aber zu verdächtig, sie direkt zu fragen. Du weißt aber, dass kleinere Frauen tendenziell auch kleinere Ringgrößen haben, und nach ihrer Körpergröße kannst du sie ohne Bedenken fragen. Sie ist 172cm groß. Was nun?

Du befrägst deinen gesamten weiblichen Bekanntenkreis (10 Personen) nach Körpergröße und Ringgröße, und erhältst die folgenden Daten:

regression-motivation1

Deine Tante Emma ist zum Beispiel \(x=\)165cm groß und trägt Ringgröße \(y=\)49. Sie wird durch den Punkt ca. in der Mitte links repräsentiert.

Das sieht hilfreich aus. Da deine Freundin 170cm groß ist (\(x\)-Achse), hat sie wohl in etwa eine Ringgröße von 52 (\(y\)-Achse). Du kaufst ihr einen Ring in dieser Größe, er passt, sie sagt Ja, und ihr seid glücklich bis an euer Lebensende.

Was hier passiert ist, ist dass du in deinem Kopf eine Regression durchgeführt hast, um mit Hilfe einer bekannten Variablen – ihrer Körpergröße – eine unbekannte Variable, nämlich ihre Ringgröße vorherzusagen.

Die Regression in der Statistik ist nun ein mathematisches Werkzeug, um eine exakte Regel zu bauen, mit der man für jede Körpergröße eine „beste“ Vorhersage für die Ringgröße erhält. In diesem Beispiel würde man also die „beste“ Gerade bestimmen, die durch den oberen Graphen geht:

regression-motivation2

Wie man diese Gerade berechnet, interpretiert, und mit ihr Vorhersagen macht, sehen wir dann in den nächsten Abschnitten.

Übersicht Inferenzstatistik / Induktive Statistik

Bisher haben wir uns mit der deskriptiven (oder beschreibenden) Statistik, sowie mit der Wahrscheinlichkeitsrechnung beschäftigt:

  • In der deskriptiven Statistik haben wir eine Stichprobe, und beschreiben ihre Eigenschaften (z.B. Mittelwerte, Varianzen, oder Quantile in einem Boxplot). Wichtig hier: Wir beschreiben nur die Stichprobe. Es werden keine Aussagen über die Grundgesamtheit, aus der die Stichprobe kommt, getroffen.
  • In der Wahrscheinlichkeitsrechnung haben wir eine gegebene Verteilung inklusive aller ihrer Parameter, und möchten die Wahrscheinlichkeit bestimmen, mit der zukünftige Daten bestimmte Werte annehmen.

In der Inferenzstatistik (oft auch induktive Statistik genannt) gehen wir nun genau andersrum wie in der Wahrscheinlichkeitsrechnung vor: Wir haben eine Stichprobe gegeben, und möchten mit ihrer Hilfe auf die Parameter der darunterliegenden Verteilung in der Grundgesamtheit schließen.

Die Inferenzstatistik verbindet also die vorhergehenden beiden Teile. Wir berechnen Kennzahlen der Stichprobe (deskriptiv), und schließen dann mit Hilfe der Wahrscheinlichkeitsrechnung auf Eigenschaften in der Grundgesamtheit.

a

In der Wahrscheinlichkeitsrechnung haben wir eine Verteilung gegeben und wollen die Wahrscheinlichkeit für gewisse Daten ausrechnen. In der Inferenzstatistik haben wir Daten gegeben und wollen deren Verteilung (hier: Eine Poissonverteilung mit Parameter \(\lambda=2\)) bestimmen.

Sowohl Hypothesentests als auch Regressionsmodelle kommen aus der Inferenzstatistik. Um in diesem Rahmen Inferenz zu betreiben, muss man zuerst eine den Daten unterliegende Verteilung annehmen. Dazu bedienen sich beide Verfahren statistischer Modelle.

Ein statistisches Modell ist eine (idealisierte) Annahme über das System (meistens: eine bestmmte Verteilung), das einen bestimmten Datensatz generiert hat. Unter der Annahme, dass die Stichprobe zufällig aus der Grundgesamtheit entnommen wurde, gilt dasselbe Modell dann für
Stichprobe sowie Grundgesamtheit. Dadurch lässt sich Inferenzstatistik betreiben, und es lassen sich aus der Stichprobe Schlussfolgerungen über die Grundgesamtheit ziehen.

Wie gesagt: zwei große Teilgebiete der Inferenzstatistik sind in den einführenden Statistikveranstaltungen besonders wichtig:

  • Zum einen das Schätzen der genauen Parameter (wie z.B. den Wert \(\lambda=2\) in der oberen Grafik) bzw. Bereiche, in denen der Parameter höchstwahrscheinlich liegt (sogenannter Konfidenzintervalle)
  • Zum anderen das Testen, ob gewisse Parameter einen bestimmten, hypothetischen Wert annehmen.

Beim Schätzen haben wir also keine vorherige Meinung, was der Parameter sein könnte, und berechnen einfach einen höchstwahrscheinlichen Wert aus den Daten, und beim Testen haben wir vorher eine Idee über den Parameter (z.B. behaupten wir, dass \(\lambda=3\) ist), und überprüfen die Plausibilität dieser Behauptung (oder Hypothese) in einem Test.

Chi-Quadrat-Verteilung

Idee

Die \(\chi^2\)-Verteilung wird eigentlich nur für einige Hypothesentests verwendet, insbesondere für den Unabhängigkeitstest für Kontingenztabellen. In der „freien Wildbahn“, also zum Modellieren irgendwelcher erhobenen Daten, trifft man sie quasi nie an. Aus diesem Grund sind viele Details dieser Verteilung (Erwartungswert, Dichte, und Varianz) eher unwichtig – nur die Verteilungsfunktion ist interessant, da mit ihr das 95%-Quantil (die wichtige kritische Schranke für Hypothesentests) bestimmt werden kann.

Klausuraufgaben
wahrscheinlichkeitsrechnung_3dcoverIm eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Parameter

Die \(\chi^2\)-Verteilung hat einen Parameter, nämlich die Anzahl der Freiheitsgrade, \(df\). Man notiert eine \(\chi^2\)-verteilte Zufallsvariable \(X\) mit \(df\) Freiheitsgraden als

\[ X \sim \chi^2 (df) \]

t

Dichte- und Verteilungsfunktion der \(\chi^2\)-Verteilung für verschiedene beispielhafte Freiheitsgrade.

Träger

Der Träger der \(\chi^2\)-Verteilung ist \(\mathbb{R}^+\), die positiven reellen Zahlen.

Erwartungswert, Varianz und Dichte

Da mit der \(\chi^2\)-Verteilung eigentlich nie Daten modelliert werden, braucht man eigentlich weder die Dichte, noch den Erwartungswert oder die Varianz kennen. Der Vollständigkeit halber: Der Erwartungswert für eine \(\chi^2\)-verteilte Zufallsvariable \(X\) mit \(df\) Freiheitsgraden ist \(\mathbb{E}(X) = df\), und ihre Varianz ist \(\mathbb{V}(X)= 2\cdot df\).

Verteilungsfunktion

Wie oben schon erwähnt, ist für die \(\chi^2\)-Verteilung eigentlich nur die Verteilungsfunktion, und dort auch nur das 95%-Quantil als Spezialfall, interessant.

Die Formel für die Verteilungsfunktion ist sehr aufwändig zu notieren und auszurechnen, weshalb es auch hier eine Verteilungstabelle gibt, an der man die wichtigsten Werte einfach ablesen kann.

Tabelle Chi-Quadrat-Verteilung

Für die \(\chi^2\)-Verteilung gibt es theoretisch, genauso wie bei der \(t\)-Verteilung, auch eine riesige Tabelle für jede mögliche Anzahl an Freiheitsgraden. Daher sind in den Verteilungstabellen nur die wichtigsten paar Quantile aufgeführt. Am häufigsten verwendet wird dabei das 95%-Quantil, da das die kritische Schranke für einen \(\chi^2\)-Test mit Signifikanzniveau \(\alpha=0.05\) ist. In der Tabelle unten ist die Spalte mit dem 95%-Quantil farbig unterlegt.

Klausuraufgaben
wahrscheinlichkeitsrechnung_3dcoverIm eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Haben wir also einen \(\chi^2\)-Test mit 5 Freiheitsgraden, und möchten die kritische Schranke für ein Signifikanzniveau von \(\alpha=0.05\) finden, sehen wir in der Zeile für 5 und der Spalte für 0.95 (das ist 1-0.05) nach. Die folgende Grafik veranschaulicht den Wert, den wir suchen:

a

Ablesebeispiel der \(\chi^2\)-Verteilung mit \(df=5\) Freiheitsgraden. Die Dichte (obere Grafik) hat ab der Stelle \(x=11.07\) noch eine Fläche von 5%. Die Verteilungsfunktion (untere Grafik) an der Stelle \(x=11.07\) hat genau den Wert 0.95.

Quantil (\(1-\alpha\))
\(\downarrow\) Anzahl Freiheitsgrade (\(df\)) 0.05 0.10 0.20 0.30 0.50 0.70 0.80 0.90 0.95 0.99 0.999
1 0.004 0.016 0.064 0.148 0.455 1.074 1.642 2.706 3.841 6.635 10.828
2 0.103 0.211 0.446 0.713 1.386 2.408 3.219 4.605 5.991 9.210 13.816
3 0.352 0.584 1.005 1.424 2.366 3.665 4.642 6.251 7.815 11.345 16.266
4 0.711 1.064 1.649 2.195 3.357 4.878 5.989 7.779 9.488 13.277 18.467
5 1.145 1.610 2.343 3.000 4.351 6.064 7.289 9.236 11.070 15.086 20.515
6 1.635 2.204 3.070 3.828 5.348 7.231 8.558 10.645 12.592 16.812 22.458
7 2.167 2.833 3.822 4.671 6.346 8.383 9.803 12.017 14.067 18.475 24.322
8 2.733 3.490 4.594 5.527 7.344 9.524 11.030 13.362 15.507 20.090 26.124
9 3.325 4.168 5.380 6.393 8.343 10.656 12.242 14.684 16.919 21.666 27.877
10 3.940 4.865 6.179 7.267 9.342 11.781 13.442 15.987 18.307 23.209 29.588
11 4.575 5.578 6.989 8.148 10.341 12.899 14.631 17.275 19.675 24.725 31.264
12 5.226 6.304 7.807 9.034 11.340 14.011 15.812 18.549 21.026 26.217 32.909
13 5.892 7.042 8.634 9.926 12.340 15.119 16.985 19.812 22.362 27.688 34.528
14 6.571 7.790 9.467 10.821 13.339 16.222 18.151 21.064 23.685 29.141 36.123
15 7.261 8.547 10.307 11.721 14.339 17.322 19.311 22.307 24.996 30.578 37.697
16 7.962 9.312 11.152 12.624 15.338 18.418 20.465 23.542 26.296 32.000 39.252
17 8.672 10.085 12.002 13.531 16.338 19.511 21.615 24.769 27.587 33.409 40.790
18 9.390 10.865 12.857 14.440 17.338 20.601 22.760 25.989 28.869 34.805 42.312
19 10.117 11.651 13.716 15.352 18.338 21.689 23.900 27.204 30.144 36.191 43.820
20 10.851 12.443 14.578 16.266 19.337 22.775 25.038 28.412 31.410 37.566 45.315
21 11.591 13.240 15.445 17.182 20.337 23.858 26.171 29.615 32.671 38.932 46.797
22 12.338 14.041 16.314 18.101 21.337 24.939 27.301 30.813 33.924 40.289 48.268
23 13.091 14.848 17.187 19.021 22.337 26.018 28.429 32.007 35.172 41.638 49.728
24 13.848 15.659 18.062 19.943 23.337 27.096 29.553 33.196 36.415 42.980 51.179
25 14.611 16.473 18.940 20.867 24.337 28.172 30.675 34.382 37.652 44.314 52.620
26 15.379 17.292 19.820 21.792 25.336 29.246 31.795 35.563 38.885 45.642 54.052
27 16.151 18.114 20.703 22.719 26.336 30.319 32.912 36.741 40.113 46.963 55.476
28 16.928 18.939 21.588 23.647 27.336 31.391 34.027 37.916 41.337 48.278 56.892
29 17.708 19.768 22.475 24.577 28.336 32.461 35.139 39.087 42.557 49.588 58.301
30 18.493 20.599 23.364 25.508 29.336 33.530 36.250 40.256 43.773 50.892 59.703

t-Verteilung: Stichprobenmittelwerte

Idee

Die \(t\)-Verteilung wird insbesondere für Hypothesentests und Konfidenzintervalle benötigt. In beiden Situationen interessiert uns nämlich die Verteilung des Stichprobenmittelwerts.

Und falls die wahre Varianz \(\sigma^2\) der Daten nicht bekannt ist, d.h. man stattdessen die Stichprobenvarianz \(s^2\) berechnen muss (und das ist in der Realität quasi immer so), ist der Mittelwert der Stichprobe nämlich nicht normalverteilt, sondern \(t\)-verteilt mit \(n-1\) Freiheitsgraden.

Klausuraufgaben
wahrscheinlichkeitsrechnung_3dcoverIm eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Wenn ich also aus einer großen Grundgesamtheit (mit Mittelwert 0) für 365 Tage lang jeden Tag eine Stichprobe der Größe \(n=30\) ziehe, und dann den Mittelwert daraus bilde, folgen die so bestimmten 365 Mittelwerte einer \(t\)-Verteilung mit \(n-1=29\) Freiheitsgraden. Das Histogramm dieser 365 Datenpunkte läge also sehr nah an dieser theoretischen \(t\)-Verteilung der Daten.

Es gilt dann:

\[ \begin{align*} T &= \frac{\bar{X} – \mu_0}{s} \sqrt{n} \\ T & \sim t(n-1) \end{align*} \]

Die Standardisierung, d.h. das Subtrahieren von \(\mu_0\) und das Teilen durch \(s\), geschieht aus dem Grund, dass die danach erhaltenen Zahlen auf einer einheitlichen Skala leben (man kann sagen: von etwa -3 bis +3), und man dann nur eine einzige Tabelle drucken muss. Wenn man zum Beispiel mit einem Hypothesentest überprüfen möchte, ob die durchschnittliche Körpergrösse bei Männern 175cm ist, dann setzt man \(\mu_0 = 175\). Vom tatsächlichen durchschnittlichen Wert der Stichprobe (z.B. 176.3cm) zieht man nun die postulierten 175cm (also \(\mu_0\)) ab, und teilt durch die berechnete Standardabweichung \(s\) aus der Stichprobe.

Als kurze Anmerkung sei erwähnt, dass für größere Stichproben (Faustregeln sprechen oft von \(n>50\) oder \(df>50\)) statt der \(t\)-Verteilung als Approximation auch die Normalverteilung verwendet werden kann. Die Kurven der Dichte und Verteilungsfunktion der Normalverteilung und \(t\)-Verteilung mit sehr vielen Freiheitsgraden sind nämlich ähnlich genug, dass es fast keinen Unterschied macht, welche man verwendet.

Parameter

Je größer die Stichprobe wird, desto größer wird die Anzahl der Freiheitsgrade, und desto mehr ähnelt die zugehörige \(t\)-Verteilung dann der Normalverteilung. Die folgende Grafik veranschaulicht den Einfluss des Parameters \(df\):

a

Die \(t\)-Verteilung hat eine breitere Streuung als die Standardnormalverteilung \(N(0,1)\). Mit steigender Anzahl der Freiheitsgrade \(df\) nähert sich die \(t\)-Verteilung aber der Normalverteilungskurve an. Ab etwa \(df=50\) ist sie nah genug an der Normalverteilung, dass man die \(t\)-Verteilung mit ihr approximieren kann.

Je höher also die Anzahl der Freiheitsgrade \(df\), desto ähnlicher ist die \(t\)-Verteilung der Standardnormalverteilung \(N(0,1)\). Ab etwa 50 Freiheitsgraden, also \(df>50\), kann man mit dem Auge fast keinen Unterschied mehr zwischen den beiden Kurven erkennen.

Für eine \(t\)-verteilte Zufallsvariable \(X\) mit \(df\) Freiheitsgraden schreibt man

\[ X \sim t(df) \]

Träger

Die \(t\)-Verteilung geht genauso wie die Normalverteilung über die gesamten reellen Zahlen. Ihr Träger ist also

\[ \mathcal{T} = \mathbb{R} \]

Erwartungswert, Varianz und Dichte

Man benötigt in der Praxis eigentlich nur die Verteilungsfunktion der \(t\)-Verteilung, wie vorher schon erwähnt, um Hypothesentests und Konfidenzintervalle rechnen zu können. Es wird also in der Statistik (und in Klausuren) in den allermeisten Fällen weder die Dichtefunktion, noch Erwartungswert und Varianz vorkommen.

Der Vollständigkeit halber sei aber erwähnt, dass für eine \(t\)-verteilte Zufallsvariable der Erwartungswert \(\mathbb{E}(X) = 0\), und die Varianz \(\mathbb{V}(X) = \frac{df}{df-2}\) ist.

Verteilungsfunktion

Die Verteilungsfunktion (genauso wie die Dichtefunktion) lässt sich nur sehr eklig als Formel notieren. Das Ausrechnen dieser Funktion ist wohl niemandem zuzumuten, weshalb es für die \(t\)-Verteilung auch eine Verteilungstabelle gibt, in der man die wichtigsten Werte nachschlagen kann.

f

Verteilungsfunktionen für drei ausgewählte \(t\)-Verteilungen. Auch die Verteilungsfunktion ähnelt sich mit steigenden Freiheitsgraden immer mehr der Standardnormalverteilung an.

 

Tabelle t-Verteilung

Der Unterschied der \(t\)-Verteilung zur Standardnormalverteilung ist, dass es viele verschiedene \(t\)-Verteilungen gibt – eine für jeden Freiheitsgrad \(df\).

Daher findet man in Büchern und Klausuren nie eine seitenlange Auflistung von je einer vollständigen Verteilungstabelle für jeden Freiheitsgrad, sondern nur die wichtigsten Quantile in einer Spalte.

Klausuraufgaben
wahrscheinlichkeitsrechnung_3dcoverIm eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Dabei bedeuten die folgenden Aussagen alle genau das selbe:

  • 2,5% der Fläche der Dichte der \(t\)-Verteilung mit 4 Freiheitsgraden (ab jetzt \(t(4)\)-Verteilung genannt) liegen rechts von 2,776.
  • 2,5% der Fläche der Dichte der \(t(4)\)-Verteilung liegen links von -2,776.
  • 95% der Fläche der Dichte der \(t(4)\)-Verteilung liegen im Intervall [-2,776; 2,776].
  • Eine \(t(4)\)-verteilte Zufallsvariable wird mit 95% Wahrscheinlichkeit im Intervall [-2,776; 2,776] liegen.
  • Das 97,5%-Quantil der \(t(4)\)-Verteilung ist 2,776.

Die folgende Grafik visualisiert diese 2,776. Versuche, den Wert in der unten stehenden Verteilungstabelle wiederzufinden!

a

So interpretiert man die aus der Verteilungstabelle abgelesenen Quantile.

Wenn man versteht, dass all diese Sätze äquivalent sind, dann kann man gut mit der Verteilungstabelle umgehen. Die Zeit dafür zu investieren, zahlt sich in der Klausur mit Sicherheit aus.

Anzahl Freiheitsgrade (\(df\)) Entsprechende Irrtumswahrscheinlichkeit \(\alpha\) bei zweiseitigem Test
0,5 0,25 0,2 0,1 0,05 0,02 0,01 0,002
Quantil der \(t\)-Verteilung
0,75 0,875 0,90 0,95 0,975 0,99 0,995 0,999
1 1,000 2,414 3,078 6,314 12,706 31,821 63,657 318,309
2 0,816 1,604 1,886 2,920 4,303 6,965 9,925 22,327
3 0,765 1,423 1,638 2,353 3,182 4,541 5,841 10,215
4 0,741 1,344 1,533 2,132 2,776 3,747 4,604 7,173
5 0,727 1,301 1,476 2,015 2,571 3,365 4,032 5,893
6 0,718 1,273 1,440 1,943 2,447 3,143 3,707 5,208
7 0,711 1,254 1,415 1,895 2,365 2,998 3,499 4,785
8 0,706 1,240 1,397 1,860 2,306 2,896 3,355 4,501
9 0,703 1,230 1,383 1,833 2,262 2,821 3,250 4,297
10 0,700 1,221 1,372 1,812 2,228 2,764 3,169 4,144
11 0,697 1,214 1,363 1,796 2,201 2,718 3,106 4,025
12 0,695 1,209 1,356 1,782 2,179 2,681 3,055 3,930
13 0,694 1,204 1,350 1,771 2,160 2,650 3,012 3,852
14 0,692 1,200 1,345 1,761 2,145 2,624 2,977 3,787
15 0,691 1,197 1,341 1,753 2,131 2,602 2,947 3,733
16 0,690 1,194 1,337 1,746 2,120 2,583 2,921 3,686
17 0,689 1,191 1,333 1,740 2,110 2,567 2,898 3,646
18 0,688 1,189 1,330 1,734 2,101 2,552 2,878 3,610
19 0,688 1,187 1,328 1,729 2,093 2,539 2,861 3,579
20 0,687 1,185 1,325 1,725 2,086 2,528 2,845 3,552
21 0,686 1,183 1,323 1,721 2,080 2,518 2,831 3,527
22 0,686 1,182 1,321 1,717 2,074 2,508 2,819 3,505
23 0,685 1,180 1,319 1,714 2,069 2,500 2,807 3,485
24 0,685 1,179 1,318 1,711 2,064 2,492 2,797 3,467
25 0,684 1,178 1,316 1,708 2,060 2,485 2,787 3,450
26 0,684 1,177 1,315 1,706 2,056 2,479 2,779 3,435
27 0,684 1,176 1,314 1,703 2,052 2,473 2,771 3,421
28 0,683 1,175 1,313 1,701 2,048 2,467 2,763 3,408
29 0,683 1,174 1,311 1,699 2,045 2,462 2,756 3,396
30 0,683 1,173 1,310 1,697 2,042 2,457 2,750 3,385
40 0,681 1,167 1,303 1,684 2,021 2,423 2,704 3,307
50 0,679 1,164 1,299 1,676 2,009 2,403 2,678 3,261
\(\infty\) 0,674 1,150 1,282 1,645 1,960 2,326 2,576 3,090