Archiv der Kategorie: Regression

Testen von Regressionsparametern

Testen von Einflüssen

In den bisherigen Artikeln haben wir uns nur mit dem Schätzen von den Parametern der Regression beschäftigt.

Manchmal ist das schon genug, und wir sind mit dem Ergebnis zufrieden. Wenn wir z.B. das Modell einfach nur verwenden möchten, um eine Vorhersage zu erstellen, dann brauchen wir nur die Parameter, und können dann, wenn wir neue Einflussgrößen bekommen, eine Vorhersage für die Zielgröße machen.

In der Praxis ist das Schätzen von Parametern aber oft nur der erste Schritt, und der zweite Schritt ist dann das Testen dieser Parameter. Denn oft interessiert uns als zweiter Schritt, ob eine bestimmte Einflussgröße „wichtig“ für die Vorhersage der Zielgröße ist.

„Wichtig“ definieren wir hier als: Nicht 0. Denn wenn ein Parameter in Wirklichkeit 0 oder nahe an 0 ist, dann hat eine Einflussgröße keinen Effekt auf die Zielgröße, und wir könnten sie einfach wieder entfernen.

Dazu ein Beispiel: Wir möchten das Gewicht einer Person vorhersagen, mit Hilfe seiner Körpergröße (in Metern) und der Hausnummer seiner Adresse.

Die Grafiken zeigen, dass größere Menschen tendenziell schwerer sind, d.h. der Regressionsparameter \(b\) für die Körpergröße wird wahrscheinlich größer als Null sein. Allerdings gibt es zwischen der Hausnummer und dem Gewicht einer Person (wie erwartet) keinen wirklichen Zusammenhang. Der Vorteil ist nun, dass wir diese Variable rauswerfen können, und in zukünftigen Befragungen die Leute nicht mehr nach ihrer Adresse fragen müssen. Dadurch sparen wir Zeit und evtl. auch Geld, und der kürzere Fragebogen führt vielleicht auch zu mehr Bereitschaft zur Teilnahme, und damit einer größeren Stichprobe am Ende.

Hypothesen

Wir möchten also, wie oben beschrieben, wissen welche Einflussgrößen bzw. Parameter „wichtig“ für unser Regressionsmodell sind.

Die Hypothesen bei einer linearen Regression sind immer gleich. Für jeden berechneten Parameter, z.B. \(a\) und \(b\) bei der einfachen linearen Regression, führen wir einen Test durch, mit zwei Hypothesen. Am Beispiel für den Steigungsparameter \(b\) der Regressionsgeraden lauten sie: \(H_0\): Der Parameter \(b\) ist Null. \(H_1\): Der Parameter \(b\) ist ungleich Null.

Wenn wir diesen Test durchführen, und als Resultat die Nullhypothese ablehnen, dann können wir sagen, dass der Parameter \(b\) „signifikant ist“. Wir meinen damit ausführlich: Der Parameter \(b\) ist signifikant von Null verschieden.

Signifikanz

Das Signifikanzniveau, das wir festlegen müssen, gibt an wie sicher wir uns sein möchten, bevor wir die Nullhypothese bei einem Test ablehnen. Es ist genau dasselbe Prinzip wie bei den Hypothesentests in der Parameterschätzung. Punkt 3 in diesem Artikel erklärt dieses Prinzip bereits gut, aber es sei hier nochmal kurz zusammengefasst:

Wir nennen einen Parameter signifikant ungleich 0, wenn es „sehr unwahrscheinlich“ ist, dass der wahre Parameter 0 ist.

Wann etwas „sehr unwahrscheinlich“ ist, muss man vohrer definieren, indem man ein Signifikanzniveau \(\alpha\) festlegt. Meist ist, wie bei anderen Hypothesentests auch, \(\alpha=0.05\) ein gerne genutzter Wert. Das bedeutet sinngemäß, dass wir nur in 5% der Fälle die Nullhypothese ablehnen, obwohl sie in Wirklichkeit wahr ist. Wenn man allerdings noch sicherer sein möchte, keinen Fehler zu machen, kann man z.B. auch \(\alpha=0.01\) setzen.

Hier rechnen wir mit p-Werten

Wir erinnern uns, dass es zwei mögliche Arten gibt, die Entscheidung eines Tests zu berechnen: Entweder durch das Bestimmen eines kritischen Bereichs, oder durch das Berechnen eines p-Werts.

Detailliert wurde der Unterschied dieser beiden Wege in diesem Artikel bereits erklärt. Aber zusammenfassend sei nochmal gesagt:

  • Bei der Berechnung via kritischen Bereich bestimmt man eine Prüfgröße \(T\) und einen kritischen Bereich (meist ein oder zwei Intervalle). Der kritische Bereich hängt auch vom Signifikanzniveau \(\alpha\) ab. Wenn die Prüfgröße im kritischen Bereich liegt, wird die Nullhypothese abgelehnt, anderenfalls nicht.
  • Bei der Berechnung via p-Wert bestimmt man nur eine Zahl, den p-Wert. Wenn dieser kleiner ist als das vorgegebene Signifikanzniveau \(\alpha\), dann wird die Nullhypothese abgelehnt, anderenfalls nicht.

Hier sieht man auch einen weiteren Vorteil an der Variante via p-Wert: Man sieht sofort, zu welchem Signifikanzniveau dieser Test die Nullhypothese ablehen würde. Wenn der p-Wert also zum Beispiel p=0.0832 ist, dann würden wir direkt sehen, dass man zum Niveau  \(\alpha=0.05\) die Nullhypothese nicht ablehnen würde, aber zum Niveau \(\alpha=0.1\) schon – denn 0.0832 ist kleiner als 0.1. Würde man stattdessen mit dem kritischen Bereich rechnen, bekäme man am Anfang nur die Information: „Zum Niveau \(\alpha=0.05\) ist der Test nicht signifikant“. Man müsste ihn dann zum Niveau \(\alpha=0.1\) nocheinmal von vorne rechnen.

Im Kapitel zu Hypothesentests bei Vereteilungsparametern haben wir noch viel mit kritischen Bereichen gerechnet, da diese Variante gut mit der Hand zu berechnen ist, und sie daher in Klausuren immer noch abgefragt wird. In der Realität, und besonders bei komplexeren Hypothesentests, wird die Testentscheidung allerdings fast ausschließlich mit p-Werten berechnet. Das Ergebnis (der p-Wert) ist einfacher zu interpretieren, und gibt etwas detailliertere Informationen zurück als die sture „ja“/“nein“-Entscheidung, wenn man den Weg über den kritischen Bereich geht.

Ein p-Wert ist ein bisschen schwerer von Hand zu berechnen, aber wir gehen hier davon aus, dass wir in einer Klausur oder Übungsaufgabe nie einen p-Wert von Hand berechnen müssen. Oftmals ist in einer Klausur zum Beispiel eine „fertige“ Regression abgedruckt, und man muss die Ergebnisse in eigenen Worten interpretieren können.

Hier ist nochmal das Bild mit den Daten von oben, aber diesmal mit Regressionsgeraden eingezeichnet.

Für den Zusammenhang zwischen Körpergröße und Gewicht sieht man eine klare positive Steigung. Für die Hausnummer sieht man zwar eine ganz leicht steigende Gerade, die allerdings nicht signifikant ist – das sehen wir an der Ausgabe der Regression:

Schätzer Standardfehler t-Statistik p-Wert
Intercept \(a\) -48.012 30.144 -1.593 0.130
Größe \(b_1\) 0.730 0.175 4.181 0.001
Hausnummer \(b_2\) 0.068 0.069 0.985 0.339

Jedes Statistikprogramm gibt das Ergebnis etwas anders aus, aber die wichtigsten Zeilen sind die für den Schätzer, und die für den p-Wert. An dieser Ausgabe kann man die folgenden Dinge ablesen:

  • In der Spalte Schätzer sieht man: die Regressionsgerade lautet: \(y = -48.012 + 0.730\cdot x_1 + 0.068\cdot x_2\), wobei \(x_1\) die Körpergröße in cm ist, und \(x_2\) die Hausnummer einer Person.
    • Der Parameter \(b_1\) ist 0.730. Das heißt also, dass eine Person die 1cm größer ist, im Durchschnitt geschätzt 0.730kg, also 730 Gramm mehr wiegt.
    • Der Parameter \(b_2\) ist 0.068. Das heißt also, dass eine Person deren Hausnummer um 1 höher ist, etwa 0.068kg, also 68 Gramm mehr wiegt. Ob dieser Zusammenhang aber auch tatsächlich da ist, also statistisch signifikant ist, werden wir gleich sehen.
  • Die Spalten Standardfehler sowie t-Statistik sind Zwischenergebnisse, die man zum Berechnen des p-Werts in der letzten Spalte benötigt. Manche Statistikprogramme geben diese Werte auch gar nicht aus. Meist kann man die ignorieren, da man nur am p-Wert interessiert ist.
  • Der p-Wert für jeden Parameter liefert uns nun die Information, ob ein Parameter „wichtig“ oder nicht ist, d.h. ob er signifikant ist.
    • Der p-Wert für den Intercept wird normalerweise auch ignoriert, da er keine Aussage über einen Parameter trifft. Meistens beachtet man ihn nicht.
    • Der p-Wert für die Körpergröße, also für den Parameter \(b_1\), ist hier 0.001. Das ist weit kleiner als das Signifikanzniveau \(\alpha=0.05\), daher ist dieser Parameter signifikant. Wir können also sagen, dass die Körpergröße einen signifikanten Einfluss auf das Gewicht einer Person hat.
    • Der p-Wert für die Hausnummer einer Person, also für den Parameter \(b_2\), ist 0.339. Das ist recht groß, insbesondere größer als das Signifikanzniveau von 0.05. Die Hausnummer einer Person hat also keinen signifikanten Einfluss auf ihr Gewicht.

Obwohl der Parameter für die Hausnummer einer Person nicht signifikant ist, wird er natürlich durch den Zufall bedingt niemals als genau 0 geschätzt. Es kommt immer eine gewisse Zahl dabei heraus, und die Interpretation klingt in diesem Fall tatsächlich etwas komisch: eine Person, deren Hausnummer um 1 höher ist, wiegt etwa 68 Gramm mehr.

Einseitige vs. zweiseitige Tests

Wie bei Hypothesentests für Verteilungsparameter, können wir uns auch hier für einseitige oder zweiseitige Tests entscheiden. Der Unterschied ist in diesem Artikel gut erklärt, aber nochmal kurz die Zusammenfassung:

Ein einseitiger Test hat den Vorteil dass er bei geringer Stichprobengröße mit wenig Beweiskraft einen Effekt auch dann erkennt, wenn ein zweiseitiger Test ihn noch nicht erkennen würde. Ein zweiseitiger Test braucht immer etwas mehr Daten bzw. einen etwas eindeutigeren Zusammenhang, um diesen dann auch als signifikant zu erkennen.

Trotzdem verwendet man eigentlich immer zweiseitige Tests. Denn dann ist man unvoreingenommen und ganz neutral bezüglich irgendwelcher Vorurteile gegen mögliche Zusammenhänge in den Daten. Auch in den gängigen Statistikprogrammen werden standardmäßig zweiseitige Tests verwendet.

Natürlich kann man trotzdem einen einseitigen Test verwenden – in Klausuren wird das auch gerne mal verlangt – aber in der Praxis muss man die Wahl dann schon gut begründen können.

Der absolute Wert des Parameters sagt wenig aus

Es ist noch wichtig zu erwähnen, dass man die „Wichtigkeit“ eines Parameters nicht an seinem absoluten Wert ablesen kann. Wenn man also einen Koeffizienten von \(b = 0.5158\) hat, weiß man noch lange nicht ob er wichtig, d.h. signifikant oder nicht ist.

Es kommt nämlich darauf an, auf welcher Skala die Einflussgröße lebt. Dazu ein kurzes Beispiel: Wir messen die Größe einer Person, und ihr Gewicht. Auf der linken Grafik zeigen wir das Ergebnis, wenn wir die Größe in Zentimetern messen: \(y = -7.26 + 0.5158 \cdot x\). Der Steigungsparameter ist hier also \(b=0.5158\). Auf der rechten Grafik zeigen wir genau dieselben Daten, aber das ist das Ergebnis, falls wir die Körpergröße in Metern gemessen hätten. Das Ergebnis wäre dann \(y = -7.26 + 51.58 \cdot x\).

Das ist im Prinzip dasselbe Regressionsmodell, nur mit unterschiedlich skalierten Einflussgrößen. Du kannst gerne vergewissern, dass für deine persönliche Größe auch in beiden Modellen dasselbe Gewicht vorhergesagt wird. Bei einer Größe von 170cm wäre es z.B. für das Ergebnis \(y\) egal, ob man (im linken Modell) \(0.5158 \cdot 170\), oder (im rechten Modell) \(51.58 \cdot 1.70\) rechnet.

Das bedeutet, dass man für eine Aussage zur Wichtigkeit eines Parameters immer den Parameterschätzer zusammen mit dem p-Wert betrachten muss.

Beispielaufgabe

Die folgende Aufgabe soll dabei helfen, ein Gespür dafür zu bekommen, wie ein plausibles Regressionsmodell aussieht.

Ein Marktforschungsunternehmen möchte mit einem Regressionsmodell die Verkaufszahlen für Zahnpasta in einer Ladenkette vorhersagen. Als Einflussgrößen hat es dafür den Preis einer Tube Zahnpasta, und die Außentemperatur in °C zur Verfügung.

Das Unternehmen sammelt also über einen Monat hinweg Daten, und rechnet dann eine Regression.

Die Regressionsgerade für diese Studie lautet: \(y = a + b_1 * x_1 + b_2 * x_2\), wobei \(x_1\) der Preis einer Tube in Euro ist, und \(x_2\) die Außentemperatur in °C.

Wir haben schon eine Vorahnung, wie der Einfluss auf die Verkaufszahlen aussehen wird:

  1. Wir erwarten, dass der Preis einer Tube \(x_1\) einen negativen Einfluss auf die Verkaufszahlen hat, d.h. wenn der Preis größer wird, dann müssten weniger Tuben verkauft werden, d.h. die Zielgröße \(y\) wird kleiner.
  2. Für die Außentemperatur \(x_2\) vermuten wir keinen Einfluss. Bei einer Eisdiele wäre das anders, denn bei mehr Sonne wird normalerweise auch mehr Eis verkauft. Hier gehen wir aber mal davon aus, dass Zahnpasta zu jedem Wetter gleich gut verkauft wird.

Welches der folgenden Ergebnisse ist auf diese zwei Vermutungen hin das plausibelste?

a)
Parameter Schätzer p-Wert
\(a\) 1543.22 0.013
\(b_1\) 0.012 0.042
\(b_2\) 2.042 0.013
b)
Parameter Schätzer p-Wert
\(a\) 1543.22 0.013
\(b_1\) -934.02 0.017
\(b_2\) 37.02 0.006
c)
Parameter Schätzer p-Wert
\(a\) 1543.22 0.013
\(b_1\) -952.21 0.003
\(b_2\) -13.23 0.493
d)
Parameter Schätzer p-Wert
\(a\) 1543.22 0.013
\(b_1\) 12.23 0.342
\(b_2\) 63.42 0.255
Lösung (klick)

Das plausibelste Ergebnis finden wir indem wir unsere „Vorahnungen“ in Zahlen umformulieren:

  1. Der Preis einer Tube \(x_1\) soll einen negativen Einfluss auf die Verkaufszahlen haben. Das heißt dass \(b_1\) kleiner als 0 sein soll, und dazu auch noch signifikant (d.h. mit einem kleinen p-Wert, idealerweise unter 0.05)
  2. Die Außentemperatur soll keinen Einfluss haben. Das heißt dass der p-Wert für \(b_2\) groß sein soll, insbesondere größer als 0.05.

Nur in der Variante c) treffen beide dieser Erwartungen zu. Das ist also ein Ergebnis das sich mit unseren Erwartungen deckt. Die Regressionsgerade lautet hier:

\(y =1543.22 – 952.21 \cdot x_1 – 13.23 \cdot x_2 \)

Klausuraufgabe

In einem Mietspiegel wird jährlich festgehalten, wie hoch die Nettomiete (d.h. ohne Nebenkosten wie Heizung) in einer bestimmten Region ist. Es werden Wohnungen erhoben, und als Merkmale unter Anderem ihre Nettomiete, ihre Größe (in Quadratmetern, qm), und die Information, ob die Wohnung einen Balkon hat (als kategoriale Variable, „ja“/“nein“).

Es wurde ein Regressionsmodell erstellt, um die Nettomiete für eine Wohnung vorherzusagen. Die Regressionsgerade lautet:

\[y = 62.5 + 8.75\cdot x_1 + 189.29\cdot x_2\]

wobei \(x_1\) die Größe in qm ist, und \(x_2\) die Variable für „Balkon vorhanden“ – sie ist 1, wenn die Wohnung einen Balkon hat, und 0 wenn sie keinen hat.

Der gesamte Output des Regressionsmodells, inkl. p-Werte, lautet:

Parameter Schätzer p-Wert
\(a\) 62.5 0.031
\(b_1\) 8.75 0.002
\(b_2\) 31 0.238

a) Interpretiere \(b_1\), den Parameter für die Wohnfläche, einzeln. Ist er kleiner oder größer als Null? Ist er zum Niveau \(\alpha = 0.05\) signifikant oder nicht? Was bedeutet das dann für die Vorhersage der Nettomiete?

b) Interpretiere nun genauso \(b_2\), den Parameter für den Balkon.

c) Berechne die Vorhersage für die Nettomiete Zielgröße für eine Wohnung, die 66qm groß ist und einen Balkon besitzt.

d) Wie würde sich die Vorhersage aus c) verändern, wenn die Wohnung keinen Balkon hätte?

Lösung (klick)

a) Der Parameter \(b_1\) ist 8.75. Das bedeutet, dass eine Wohnung für jeden qm den sie größer wird, 8.75€ mehr kostet. Bei einer Wohnung die 10qm größer ist als eine andere, erwarten wir dass sie um 87.50€ teurer ist – unter der Annahme dass alle anderen Einflussgrößen gleich sind, d.h. beide Wohnungen müssen einen Balkon haben, oder beide Wohnungen müssen keinen Balkon haben.

Der Parameter \(b_1\) ist signifikant, da der p-Wert 0.002, und somit kleiner als \(\alpha=0.05\) ist. Das heißt dass die Wohnfläche (wie zu erwarten war) einen signifikanten Einfluss auf die Nettomiete hat.

b) Der Parameter \(b_2\) liegt bei 31. Das heißt dass wir erwarten, dass eine Wohnung mit Balkon um 31€ teurer ist als eine Wohnung ohne Balkon – vorausgesetzt die Wohnfläche bleibt gleich. Der p-Wert ist  hier 0.238, und damit ist der Parameter nicht signifikant. Wir konnten also nicht nachweisen, dass die 31€ Unterschied auch wirklich statistisch signifikant sind. Es ist gut möglich, dass ein Balkon „in Wirklichkeit“ keinen Einfluss auf die Nettomiete hat.

c) Obwohl der Parameter \(b_2\) für den Balkon nicht signifikant ist, muss er hier natürlich trotzdem verwendet werden. Man darf ihn nicht einfach entfernen – ansonsten wäre das restliche Modell nicht mehr gültig. Wenn man ihn wirklich herausnehmen möchte, dann müsste man das Modell noch einmal neu rechnen – denn dann würde sich auch der Wert \(b_1\) für die Wohnfläche ändern.

Um die Vorhersage zu erhalten, setzen wir in die Regressionsgerade einfach \(x_1=66\) und \(x_2=1\) ein, und erhalten:

\[y = 62.5 + 8.75\cdot 66 + 189.29\cdot 1 = 829.29\]

Wir erwarten also, dass diese Wohnung 829.29€ Miete kosten wird.

d) Wenn die Wohnung keinen Balkon hätte, dann würde sich die Einflussgröße \(x_2\) von 1 auf 0 ändern. Wir könnten also eine Abkürzung nehmen, und von den eben berechneten 829.29€ einfach 31€ abziehen, und hätten dann die Lösung: 798.29€.

Natürlich könnten wir alternativ auch auf Nummer Sicher gehen und die gesamte Formel nochmal ausrechnen:

\[y = 62.5 + 8.75\cdot 66 + 189.29\cdot 0 = 798.29\]

Konfidenzintervalle für die geschätzten Parameter

Stell dir vor, du möchtest den Zusammenhang zwischen den beiden Variablen \(x = \) Körpergröße und \(y = \) Körpergewicht erforschen, und du befrägst \(n=6\) Personen nach diesen beiden Werten. Du erhältst ein Regressionsmodell mit der geschätzten Geraden \(y = 17.2 + 0.48 \cdot x\). Für eine 180cm große Person schätzt dieses Modell also ein Körpergewicht von \(17.2 + 0.48 \cdot 180 = 103.6kg\).

Fünf deiner Freunde sind aber an derselben Frage interessiert, und fragen selbst jeder \(n=6\) Personen nach diesen Daten. Bei ihnen ergeben sich natürlich andere Regressionsgeraden. Das Ergebnis der 6 Stichproben könnte z.B. so aussehen:

Wir haben also eine gewisse Unsicherheit in der Schätzung.  Die Regressionsgerade (d.h., die beiden Parameter \(a\) und \(b\), durch die die Gerade beschrieben wird) kann nie exakt berechnet werden, sondern immer nur geschätzt werden, und ist daher mit Unsicherheit behaftet.

Ein Konfidenzintervall kann diese Unsicherheit nun in Zahlen ausdrücken.

Was sind Konfidenzintervalle?

Für eine allgemeine Einführung, was ein Konfidenzintervall (abgekürzt: ein KI) ist, empfehle ich, erstmal den entsprechenden Artikel zu lesen und zu verstehen. Um KIs bei der Regression zu verstehen, hilft es enorm, erstmal die einfachere Variante der KIs für Schätzer zu verstehen. Denn die Regression ist im Grunde genommen einfach nur eine Art der Parameterschätzung: In der einfachen linearen Regression suchen wir die Parameter \(a\) und \(b\), und sie werden genauso geschätzt wie ein einfacher Verteilungsparameter: Durch eine Schätzfunktion, die die Daten aus einer erhobenen Stichprobe auf eine passende Art zusammenfasst. Das Ergebnis ist dann ein Punktschätzer, und die kennen wir ja auch schon aus dem Bereich der Parameterschätzer.

Wenn man nun versteht, dass die Parameter \(a\) und \(b\) bei der Regression auf denselben Prinzipien aufbauen wie ein Parameter z.B. beim Schätzen des Mittelwerts einer Normalverteilung, hat man einen großen Vorteil, denn man muss diese Prinzipien nur einmal lernen und verstehen. Und durch die Verknüpfung der beiden Anwendungsmöglichkeiten festigt sich die Information dann viel besser im Gehirn.

Ein Parameter einer Regression ist also ein Punktschätzer. Und für ihn gibt es – wieder ganz analog zu allen anderen Punktschätzern – entsprechende Konfidenzintervalle. Diese sagen aus, wie sicher wir uns mit dieser Schätzung sind. Wenn wir also nur sehr wenige Daten haben, ist das Intervall relativ groß, da wir nicht sehr sicher sind, ob der wahre Parameter nicht doch wo ganz anders liegt. Wenn wir aber eine sehr große Stichprobe haben, dann können wir uns ziemlich sicher sein, recht nah am wahren Parameter dran zu sein – das Konfidenzintervall wird also kleiner sein.

Wenn wir eine Regression berechnen, dann gehen wir davon aus, dass es ein wahres Modell gibt, also z.B. die Parameter \(a = 3.2\) und \(b = 1.6\). Wir nehmen an dass es diese wahren Parameter gibt, aber in der Praxis kennen wir sie dann nicht – wir möchten sie daher schätzen.

Wir haben als Daten nicht die komplette Grundgesamtheit verfügbar, sondern nur eine kleine Stichprobe. Daher werden die Parameter, die wir schätzen, quasi niemals die wahren Parameter sein, sondern nur irgendwo in der Nähe liegen – vielleicht schätzen wir z.B. \(\hat{a} = 3.0\) und \(\hat{b} = 1.63\). Das ist die beste Schätzung die wir mit der Stichprobe machen können, denn die wahren Werte kennen wir ja nicht. Wir werden immer eine gewisse Unsicherheit bei der Schätzung dabei haben. Aber: je mehr Daten uns zur Verfügung stehen, also je größer unsere Stichprobe ist, desto sicherer sind wir uns mit dem Ergebnis, d.h. desto kleiner ist unsere Unsicherheit bei der Schätzung. Das zeigt sich dann in einem engeren Konfidenzintervall.

Wie werden Konfidenzintervalle interpretiert?

Ein KI für einen Regressionsparameter, nehmen wir zum Beispiel einfach die Steigung \(b\), wird genauso interpretiert wie ein KI für z.B. den Mittelwert von normalverteilten Daten. Wie das geht, kann man in diesem Artikel nachlesen.

Das Konfidenzintervall für einen Regressionsparameter, z.B. \(a\) oder \(b\), sagt aus, in welchem Bereich der wahre Parameter „ziemlich sicher“ liegen könnte. Wenn wir uns zu 95% sicher sein möchten, heißt dass das wir eine Irrtumswahrscheinlichkeit von 5% tolerieren – dann setzen wir das Konfidenzniveau \(\alpha\) auf 5%, also ist dann \(\alpha = 0.05\). Genauso wie bei Parameterschätzern einer Verteilung gibt man hier also an, wie sicher man sich mit dem Konfidenzintervall sein möchte. Ein 95%-Konfidenzintervall (d.h. mit \(\alpha = 0.05\)) für den Parameter \(b\) könnte z.B. bei \([1.57, \, 1.69]\) liegen. Dann könnten wir sagen, dass wir den wahren Regressionsparameter \(b\) als 1.63 geschätzt haben, aber der wahre (und uns unbekannte) Wert auch irgendwo zwischen 1.57 und 1.69 liegen könnte – das wäre durch unsere Stichprobe auch noch plausibel.

Man schreibt das KI dann entweder als Intervall, in der Schreibweise \([1.57, \, 1.69]\), oder in der Schreibweise „Schätzer plus/minus Abstand“, also z.B. \(1.63 \pm 0.06\). Die beiden Schreibweisen beschreiben aber dasselbe Intervall.

Wie werden Konfidenzintervalle berechnet?

Auch beim Berechnen von KIs hilft es, sich noch einmal das Vorgehen für KIs bei Verteilungsparametern durchzulesen. Denn ein KI für einen Regressionsparameter berechnet man genau auf die selbe Weise. Wir brauchen dazu:

  • den Punktschätzer für den Parameter, z.B. \(\hat{a}\)
  • die Varianz dieses Parameters, z.B. \(\sigma^2_{\hat{a}}\)
    • Diese Varianz ist etwas komplizierter von Hand zu berechnen. Bei der einfachen linearen Regression geht das noch, aber bei der multiplen Regression, also mit mehreren Einflussgrößen, sollte man das unbedingt per Computer lösen. Sollte man in einer Klausur wirklich mal ein KI von Hand berechnen müssen, dann ist die Varianz hoffentlich schon gegeben.
  • das Konfidenzniveau \(\alpha\)
  • die Verteilungstabelle der t-Verteilung, um dort die Quantile abzulesen. Wir brauchen das \(1-\frac{\alpha}{2}\)-Quantil der t-Verteilung mit \(n-p-1\) Freiheitsgraden. Das notieren wir insgesamt mit dem Term \(t_{1-\frac{\alpha}{2}}(n-p-1)\). Er sieht auf den ersten Blick etwas kompliziert aus, aber das sind nur zwei Zahlen, die sich da drin verstecken: Das Quantil, und die Anzahl der Freiheitsgrade.
    Dabei ist \(n\) die Stichprobengröße, und \(p\) die Anzahl der Einflussgrößen. Bei der einfachen linearen Regression, also mit nur einer Einflussgröße, brauchen wir also z.B. das Quantil mit \(n-2\) Freiheitsgraden.
    Das Quantil ist bei einem Konfidenzniveau von 0.05 dann z.B. das 0.975-Quantil, oder das 97.5%-Quantil.

Das Konfidenzintervall für den ersten Parameter der Regression, also \(a\), lautet dann

\[ \hat{a} \pm \hat{\sigma}_\hat{a} \cdot t_{1-\alpha/2}(n-p-1) \]

Wir berechnen also als erstes den Term \(\hat{\sigma}_\hat{a} \cdot t_{1-\alpha/2}(n-p-1)\). Angenommen es kommt 1,43 heraus. Das Konfidenzintervall geht dann einfach von der unteren Grenze \(\hat{a} – 1.43\) bis zur oberen Grenze \(\hat{a} + 1.43\). Es ist symmetrisch um den Schätzwert \(\hat{a}\) herum.

Das KI für den zweiten Parameter \(b\) berechnet man genauso, nur dass man in der oberen Formel \(\hat{a}\) durch \(\hat{b}\) ersetzt.

Kategorien als Einflussgrößen

Die bisherigen Artikel zur linearen Regression haben sich mit einem Beispiel beschäftigt, in dem wir die Ringgröße für eine Freundin möglichst genau schätzen wollen, um ihr unbemerkt einen (passenden!) Ring zu kaufen.

Zuerst haben wir die Ringgröße anhand ihrer Körpergröße geschätzt (eine einfache lineare Regression). Danach haben wir zusätzlich ihr Gewicht und ihr Alter verwendet, um mit drei Einflussgrößen eine genauere, sicherere Schätzung zu bekommen (die multiple lineare Regression).

Alle diese Variablen waren verhältnisskaliert, also Zahlen, die in diesem Fall von 0 bis unendlich gehen können. Es gibt aber nun noch andere Variablentypen, z.B. nominalskalierte Variablen, wie etwa der Beruf einer Person. Was wäre zum Beispiel, wenn unsere Freundin Handwerkerin ist, und wir wissen, dass Handwerker tendenziell kräftigere, größere Finger haben als Büroarbeiter?

Diese Information ist sicher hilfreich für uns, und wir möchten sie in unserer Regression berücksichtigen.

Wie behandelt man eine ja/nein-Kovariable?

Denken wir nochmal kurz zürück an das Beispiel aus dem Artikel zur einfachen linearen Regression: Wir haben eine EInflussgröße \(x\), die Körpergröße, die stetig und intervallskaliert ist. Die Zielgröße \(y\), die Ringgröße, sagen wir nun vorher durch eine Gerade:

Diese Gerade wird durch zwei Parameter, \(a\) und \(b\) beschrieben:

\[ y = a + b \cdot x \]

In unserem Beispiel haben wir die Parameter bestimmt als \(a = 2.8457\) und \(b = 0.2836\), die „fertige“ Regressionsgerade, die man auch in dem Bild oben sieht, lautet also

\[y = 2.8457 + 0.2836 \cdot x\]

Wie würde aber nun ein Regressionsmodell aussehen, das nur aus einer ja/nein-Kovariable besteht – z.B. die Kovariable „Handwerker“? Für dieses kurze Gedankenexperiment ignorieren wir die Körpergröße also.

Wir verwenden dieselbe Gleichung für das Modell, \( y = a + b \cdot x \), aber die Kovariable \(x\) kann nur die Werte „ja“ und „nein“ annehmen. Wir müssen die zwei Werte natürlich in zwei Zahlen kodieren. Die Wahl die das spätere Rechnen am einfachsten macht, ist die 0 für „nein“, und die 1 für „ja“. Für eine Person wäre also \(x=1\) wenn sie einen Handwerkerberuf hat, und \(x=0\), wenn nicht.

Diese Wahl hat einen schönen Vorteil: Die Gleichung wird sehr einfach. Wenn nämlich \(x=0\) ist, dann wird aus der Regressionsgleichung nur noch \(y = a\), weil ja der zweite Teil \(b\cdot x = 0\) (da \(x=0\) ist). Schauen wir uns mal eine „fertige“ Regression mit fiktiven Werten als Beispiel an:

\[y = 48.5 + 1.5 \cdot x \]

Was bedeutet das nun, wenn die Kovariable \(x\) für die Frage „Handwerker?“ steht? Die Variable kann nur zwei Werte annehmen, entweder 0 oder 1. Das heißt auch, dass die Vorhersage für \(y\) nur zwei Werte annehmen kann: Für Nichthandwerker, also z.B. Büroangestellte, ist ja \(x=0\), also wird die Vorhersage für die Ringgröße \(y = 48.5 + 0 \cdot 1.5 = 48.5\) sein. Und für Handwerker prognostizieren wir \(y = 48.5 + 1 \cdot 1.5 = 50\), also einen Ring der Größe 50.

Dieses Modell ist auch sehr einfach zu interpretieren: Die Vorhersage für Nichthandwerker liest man direkt aus dem Intercept, also \(a\), ab: 48.5cm. Und der Parameter \(b\) sagt uns, wieviel größer (oder evtl. kleiner) die Vorhersage für Handwerker wird: 1.5cm.

Das ist dann auch schon fast das ganze Geheimnis hinter kategorialen Kovariablen.

Stetige und kategoriale Einflussgrößen gemischt

Wir haben ja schon ein Regressionsmodell mit mehreren Einflussgrößen gesehen, die multiple Regression. Wir können die eben betrachtete kategoriale Einflussgröße nun genauso wie eine stetige Einflussgröße zusätzlich in das Modell aufnehmen.

Nennen wir die Einflussgröße für die Frage „Handwerker?“ \(x_1\), und die bereits bekannte EInflussgröße für die Körpergröße \(x_2\). Dann haben wir das folgende Regressionsmodell:

\[y = a + b_1 x_1 + b_2 x_2\]

Hierbei kann \(x_1\) nur die Werte 0 oder 1 annehmen, aber \(x_2\) als stetige Kovariable alle möglichen Körpergrößen.

Wenn wir nun Daten sammeln, und daraus die Parameter \(a, b_1, b_2\) schätzen wollen, kommt vielleicht das folgende fertige Modell dabei raus:

\[y = 0.16 + 0.28\cdot x_1 + 0.94\cdot x_2\]

Für eine Person mit \(x_1=168\text{cm}\) Körpergröße und einem Job als Handwerker (\(x_2=1\)) prognostizieren wir also eine Ringgröße von \(y=0.16+0.28\cdot 168 + 0.94\cdot 1 = 48.14\) – also sollte ein Ring der Größe 48 hoffentlich passen.

Einflussgrößen mit mehr als zwei Kategorien

Ein Problem gibt es noch: Wie gehen wir mit einer Einflussgröße vor, die nicht nur zwei mögliche Ausprägungen „ja/nein“, hat, sondern mehrere?

Ein Beispiel: Eine neue Einflussgröße „Sport“. Für die Ringgröße ist wohl wichtig, ob die Person Gewichte stemmt oder Marathon läuft. Wir haben also z.B. die Auswahlmöglichkeiten „kein Sport“, „Joggen“ „Klettern“, „Gewichtheben“.

Es wäre falsch, nun einfach eine Variable \(x_1\) anzulegen, die für diese Sportarten die Werte „kein Sport = 0“, „Joggen = 1“, „Klettern = 2“, und „Gewichtheben = 3“ annehmen kann. Das Problem ist, dass wir dann nur einen Parameter \(b_1\) erhalten, und z.B. der Unterschied zwischen „kein Sport“ und „joggen“ genauso groß sein muss wie der zwischen „Joggen“ und „Klettern“. Das kann man nachprüfen, indem man für Nichtsportler \(0\cdot b_1\) vergleicht mit \(1\cdot b_1\) für Jogger und \(2\cdot b_1\) für Kletterer. Falls sich aber die Ringgröße z.B. zwischen Joggern und Kletterern gar nicht unterscheidet, könnte unser Modell das gar nicht abbilden. Fachlich heißt das: Wir unterstellen einen linearen Zusammenhang, wo es gar keinen gibt.

WIe lösen wir dieses Problem nun am besten?

Wir müssen einen kleinen Umweg gehen, indem wir die eine Einflussgröße mit vier Kategorien aufteilen in drei separate Einflussgrößen mit jeweils zwei Kategorien „ja/nein“:

  • \(x_1\): Joggen, ja/nein?
  • \(x_2\): Klettern, ja/nein?
  • \(x_3\): Gewichtheben, ja/nein?

Für eine bestimmte Person ist dann höchstens eine dieser drei Einflussgrößen 1, alle anderen sind 0. Ein Gewichtheber hätte also \(x_1=0\), \(x_2 = 0\), und \(x_3=1\). Für den Fall „kein Sport“ brauchen wir keine extra Einflussgröße, denn diese Möglichkeit ergibt sich automatisch, wenn wir \(x_1=0\), \(x_2=0\), und \(x_3=0\) setzen – dann bleibt ja keine andere Möglichkeit übrig. (Es hat auch einen mathematischen Grund, warum wir das so lösen müssen – die Regression wäre nämlich sonst nicht eindeutig lösbar – aber darauf möchte ich hier nicht eingehen.)

Ein einfaches lineares Modell mit nur der Einflussgröße „Sport?“ sähe also so aus:

\[y = a + b_1 \cdot x_1 + b_2 \cdot x_2 + b_3\cdot x3\]

Es hätte vier Parameter. Man kann sich ausrechnen, dass in diesem Modell die vorhergesagte Ringgröße für jemanden der keinen Sport macht, genau \(a\) ist – denn alle anderen \(x_i\) sind ja Null.

Die Kontrolle, ob du diesen Teil verstanden hast, ist, dass du erklären kannst, warum unsere Vorhersage für einen Gewichtheber nun genau \(a+b_3\) ist. Ich hoffe, ich konnte das hier gut genug erklären – falls nicht, kannst du in den Kommentaren unten gerne nochmal nachfragen, ich passe den Artikel dann nochmal an.

Beispielaufgabe

Ein Forschungslabor untersucht die Auswirkung eines neuen Medikaments auf die Reaktionszeit (in Millisekunden) von Patienten. Es möchte erstens herausfinden, ob die Höhe der Dosis einen Einfluss hat, und zweitens, ob die Schwere der Krankheit einen Einfluss hat. Die Einflussgröße \(x_1\), die Dosis, wird in Milligramm (mg) als stetige Variable gemessen, und die Schwere der Krankheit als kategoriale Variable mit den Ausprägungen „gesund“, „leicht krank“, und „schwer krank“. Die kategoriale Variable wird durch eine Dummykodierung in das Modell eingefügt: Dabei wird „gesund“ als Referenzkategorie verwendet, und „leicht krank“ wird durch \(x_\text{leicht}\) dargestellt (d.h. \(x_\text{leicht}=1\) wenn der Patient „leicht krank“ ist, und \(x_\text{leicht}=0\) falls er gesund oder schwer krank ist). Die Einflussgröße \(x_\text{schwer}\) ist 1 wenn der Patient „schwer krank“ ist, und 0 falls er gesund oder leicht krank ist. Für eine gesunde Person ist also \(x_\text{leicht}=0\) und \(x_\text{schwer}=0\).

Es wurden 20 Patienten untersucht, und die Ergebnisse der Regression in der folgenden Tabelle zusammengefasst:

Parameter Schätzer p-Wert
\(a\) 328.22 0.000
\(b_1\) 0.95 0.003
\(b_\text{leicht}\) 47.67 0.406
\(b_\text{schwer}\) 141.21 0.019

Die Regressionsgerade für die Zielgröße \(y\), die Reaktionszeit in Sekunden, lautet also:

\[ y = 328.22 + 0.95 \cdot x_1 + 47.67 \cdot x_\text{leicht} + 141.21 \cdot x_\text{schwer} \]

  • a) Interpretiere die drei Parameter \(b_1, b_\text{leicht}, b_\text{schwer}\). Was bedeuten sie für die Reaktionszeit von Patienten?
  • b) Interpretiere die drei p-Werte für die drei \(b\)-Parameter. Wir geben ein Signifikanzniveau von \(\alpha=0.05\) vor.
  • c) Prognostiziere die erwartete Reaktionszeit für einen gesunden Patienten, der eine Dosis von 100mg bekommt.
  • d) Prognostiziere die erwartete Reaktionszeit für einen leicht kranken Patienten, der eine Dosis von 10mg bekommt.
Lösung (klick)

a)

\(b_1\) ist der Einfluss für die metrische Variable „Dosis“. Das bedeutet hier: Wenn die Dosis für einen Patienten um 1mg erhöht wird, erwarten wir, dass seine Reaktionszeit um 0.95 Millisekunden steigt (Vorsicht: nicht „um 0.95 Sekunden“! Denn in der Datenerhebung wurde sie in Millisekunden gemessen). Der Einfluss ist positiv, d.h. eine höhere Dosis führt zu einer höheren Reaktionszeit

Der Parameter \(b_\text{leicht}\) beschreibt, wie sehr sich die Reaktionszeit eines leicht kranken Patienten gegenüber eines gesunden Patienten unterscheidet. Der gesunde Patient hat in diesem Modell keinen Parameter, er ist die Referenzkategorie (siehe auch Aufgabe c)). Die Parameter für eine kategoriale Variable bschreiben hier immer die Abweichung zur Referenzkategorie. Ein leicht kranker Patient hat also eine um \(b_\text{leicht}\) = 47.67 Millisekunden langsamere (d.h. höhere) Reaktionszeit als ein gesunder Patient.

Analog dazu hat ein schwer kranker Patient eine um \(b_\text{schwer}\) = 141.21 Millisekunden höhere Reaktionszeit als ein gesunder Patient.

Man kann sich nun auch ausrechnen, dass der Unterschied eines schwer kranken zu einem leicht kranken Patienten genau die Differenz \(b_\text{schwer} – b_\text{leicht}\) ist: \(141.21 – 47.67 = 93.54\). Ein schwer kranker Patient hat also im Mittel eine um 93.54 Millisekunden höhere Reaktionszeit als ein leicht kranker.

b)

\(b_1\) ist mit einem p-Wert von 0.003 signifikant, denn der p-Wert ist kleiner als das vorgegebene Signifikanzniveau von \(\alpha=0.05\). Damit hat dieses Regressionsmodell gezeigt, dass die Dosis einen signifikanten Einfluss auf die Reaktionszeit hat.

\(b_\text{leicht}\) ist mit einem p-Wert von 0.406 nicht signifikant. Wir konnten nicht nachweisen, dass ein leicht kranker Patient langsamer reagiert als ein gesunder.

\(b_\text{schwer}\) ist mit einem p-Wert von 0.019 allerdings wieder signifikant. Wir konnten also hier nachweisen, dass ein schwer kranker Patient langsamer reagiert als ein gesunder.

c)

Wir setzen einfach in die Regressionsgleichung ein:

– \(x_1 = 100\)
– \(x_\text{leicht} = 0\)
– \(x_\text{schwer} = 0\)

Damit erhalten wir als Prognose:

\[ y = 328.22 + 0.95 \cdot 100 + 47.67 \cdot 0 + 141.21 \cdot 0 = 423.22 \]

Wir erwarten also eine Reaktionszeit von 423.22 Millisekunden.

d)

Analog zu Aufgabe c), allerdings ist der Patient jetzt leicht krank:

– \(x_1 = 10\)
– \(x_\text{leicht} = 1\)
– \(x_\text{schwer} = 0\)

Damit erhalten wir als Prognose:

\[ y = 328.22 + 0.95 \cdot 10 + 47.67 \cdot 1 + 141.21 \cdot 0 = 385.39 \]

Wir erwarten also eine Reaktionszeit von 385.39 Millisekunden.

Klausuraufgabe

In einer Großstadt wird die Abgasbelastung durch Autos zu einem Problem. Mit einem Regressionsmodell möchte man nun ausrechnen, wovon die Belastung abhängig ist. Man vermutet einen Zusammenhang mit der Außentemperatur. Außerdem vermutet man, dass an Arbeitstagen die Belastung wegen der Berufspendler höher ist.

Als Zielgröße verwendet man \(y\), den Anteil an Kohlenmonoxid (kurz: CO) in der Luft. Er wird in Milligramm pro Kubikmeter (\(\frac{\text{mg}}{m^3}\)) gemessen, und im Bereich von 0 bis 5 ist alles im grünen Bereich. Eine hohe Belastung ist ab ca. 8 \(\frac{\text{mg}}{m^3}\) gegeben.

Die Einflussgrößen sind \(x_1\), die Außentemperatur in °C, sowie eine kategoriale Variable für den Arbeitstag, mit den Ausprägungen „Arbeitstag“, „Wochenende“, und „Feiertag“. Die kategoriale Variable wird durch eine Dummykodierung in das Modell eingefügt: Dabei wird „Arbeitstag“ als Referenzkategorie verwendet, und „Wochenende“ wird durch \(x_\text{WE}\) dargestellt (d.h. \(x_\text{WE}=1\) wenn an diesem Tag Wochenende ist, und \(x_\text{WE}=0\) falls nicht). Die Einflussgröße \(x_\text{F}\) ist 1 wenn es Feiertag ist, und 0 falls es Arbeitstag oder Wochenende ist. An einem Arbeitstag ist also \(x_\text{WE}=0\) und \(x_\text{F}=0\).

Über das letzte Jahr wurde an 365 Tagen die CO-Belastung gemessen und ein Regressionsmodell gerechnet. Die Ergebnisse sind in der folgenden Tabelle zusammengefasst:

Parameter Schätzer p-Wert
\(a\) 1.94 0.000
\(b_1\) 0.03 0.019
\(b_\text{WE}\) -2.01 0.006
\(b_\text{F}\) -1.98 0.623

Die Regressionsgerade für die Zielgröße \(y\), die Reaktionszeit in Sekunden, lautet also:

\[ y = 1.94 + 0.03 \cdot x_1 – 2.01 \cdot x_\text{WE} – 1.98 \cdot x_\text{F} \]

a) Interpretiere die drei Parameter \(b_1, b_\text{WE}, b_\text{F}\). Was bedeuten sie für die CO-Belastung in der Luft?

b) Interpretiere die drei p-Werte für die drei \(b\)-Parameter. Wir geben ein Signifikanzniveau von \(\alpha=0.05\) vor.

c) Prognostiziere die erwartete CO-Belastung an einem Arbeitstag mit -8°C Temperatur.

d) Prognostiziere die erwartete Reaktionszeit an einem Feiertag mit 24°C Temperatur.

Lösung (klick)

a)

Der Parameter \(b_1\) sagt uns, um wieviel sich \(y\), also die CO-Konzentration, verändert, wenn die Außentemperatur um 1°C steigt. Da \(b_1\) hier 0.03 ist, haben wir einen positiven Zusammenhang: Die CO-Konzentration steigt mit höherer Außentemperatur, und zwar um 0.03 \(\frac{\text{mg}}{m^3}\) pro zusätzlichem °C.

Da \(b_\text{WE}\) negativ ist, hat das Wochenende einen negativen Einfluss auf die CO-Konzentration. An Wochenenden erwarten wir 2.01 \(\frac{\text{mg}}{m^3}\) weniger CO in der Luft.

An Feiertagen erwarten wir ebenso weniger CO in der Luft, nämlich 1.98 \(\frac{\text{mg}}{m^3}\) weniger.

Da \(b_\text{WE}\) ungefähr gleich groß ist wie \(b_\text{F}\), können wir schon mal vermuten, dass es keinen Unterschied macht ob heute Wochenende oder Feiertag ist: Beide Situationen haben einen ähnlichen (negativen) Einfluss auf die Schadstoffkonzentration.

b)

\(b_1\) ist signifikant, da sein p-Wert mit 0.019 kleiner ist als \(\alpha=0.05\). Wir konnten also mit dieser Regression nachweisen, dass die Außentemperatur einen signifikanten Einfluss auf die CO-Konzentration in der Luft hat.

Ebenso ist \(b_\text{WE}\) signifikant. Am Wochenende ist die Luftqualität also nachweislich besser als an Arbeitstagen.

Aber \(b_\text{F}\) ist nicht signifikant – der p-Wert beträgt 0.623. Wir konnten hier nicht nachweisen dass an Feiertagen eine unterschiedliche CO-Konzentration herrscht wie an Arbeitstagen. Das kann allerdings daran liegen, dass unsere Stichprobe zu klein war: Wir hatten als Stichprobe nur ein Jahr, also \(n=365\), und es gibt nicht so viele Feiertage in 365 Tagen. Mit einer größeren Stichprobe könnte es sein, dass dieser Parameter auch noch signifikant wird.

c)

Unsere Regressionsgerade lautet:

\[ y = 1.94 + 0.03 \cdot x_1 – 2.01 \cdot x_\text{WE} – 1.98 \cdot x_\text{F} \]

Wir setzen also ein: \(x_1 = -8\) (Vorsicht mit dem Minus!), und \(x_\text{WE} = 0\), und \(x_\text{F}=0\). Damit erhalten wir:

\[ y = 1.94 + 0.03 \cdot (-8) – 2.01 \cdot 0 – 1.98 \cdot 0 = 1.7 \]

Wir erwarten also eine CO-Konzentration von \(1.7 \frac{\text{mg}}{m^3}\).

d)

Analog zu Aufgabe c) setzen wir hier ein: \(x_1 = 24\), und \(x_\text{WE} = 0\), und \(x_\text{F}=1\). Damit erhalten wir:

\[ y = 1.94 + 0.03 \cdot 24 – 2.01 \cdot 0 – 1.98 \cdot 1 = 0.68 \]

Wir erwarten also eine CO-Konzentration von \(0.68 \frac{\text{mg}}{m^3}\).

Modellannahmen der linearen Regression

Behaltet im Kopf, was die lineare Regression macht. Sie zeichnet eine Gerade durch ein Streudiagramm. Das funktioniert in vielen Fällen gut, aber in anderen Fällen leiten die Ergebnisse zu Fehlschlüssen.

Hier ist ein Beispiel: Es wurde auf einer Teststrecke für 100 Autos deren Geschwindigkeit gemessen, und dann der Bremsweg bei einer Vollbremsung. Wer sich noch an die Fahrschule erinnert, weiß, dass der Bremsweg annähernd so berechnet werden kann:

\[ x = \frac{v}{10} \cdot \frac{v}{10} \cdot \frac{1}{2} \]

Das ist eine quadratische Formel. Sie lässt sich kürzen zu \(x = v^2 / 200\). Misst man jetzt auf der Teststrecke 100 Autos, könnte das Ergebnis so aussehen:

 

Die Regressionsgerade im rechten Bild ist in dieser Situation keine gute Wahl. Der Grund ist, dass eine der Annahmen des linearen Modells verletzt wurden.

Es gibt verschiedene Möglichkeiten, die Annahmen zu formulieren, und die genaue Anzahl der Annahmen ist dann auch abhängig von der Formulierung. In meiner Darstellungsweise gibt es die folgenden vier wichtigen Annahmen:

1. Linearer Zusammenhang

Die erste Annahme wurde in unserem obigen Beispiel gleich verletzt: Für ein lineares Modell muss der Zusammenhang natürlich auch linear sein. Das erste Bild ist ein Beispiel dafür, das zweite und dritte ein Gegenbeispiel:

Mathematisch sieht die Annahme für einen linearen Zusammenhang einfach so aus:

\[ \mathbb{E}(y_i) = a + b \cdot x \]

Das ist die Formulierung für das lineare Modell. Ein mögliches Gegenbeispiel, im zweiten Bild, sähe z.B. so aus: \(\mathbb{E}(y_i) = a + \sin(x) / 10\)

2. Normalverteilung der Residuen

Die Residuen sind die Abstände zwischen einer Beobachtung und deren Vorhersage auf der Regressionsgeraden. Möchte man nun nicht nur eine „gute“ Gerade durch die Daten ziehen, sondern auch Eigenschaften dieser Geraden testen, dann müssen als Voraussetzung dafür die Fehlerterme einer Normalverteilung folgen. Das hat den Grund, dass dann ein einfacher Hypothesentest für die Parameter (also z.B. Steigung der Geraden = 0) durchgeführt werden kann.

Das linke Bild zeigt eine Regressionsgerade, um die die Fehlerterme mit einer „schönen“ Normalverteilung streuen. Das ist die Idealsituation.

Das zweite Bild, in der Mitte, sieht anders aus. Hier gibt es sehr große Ausreißer, die die Schätzung stark beeinflussen würden, und zu ungenauen Konfidenzintervallen und Testaussagen führen würden. (Wer es genau wissen möchte: Ich habe die Residuen in diesem Diagramm als \(t\)-Verteilung mit einem Freiheitsgrad simuliert)

Das dritte Bild ist ein weiteres Beispiel für eine „falsche“ Verteilung: Hier sind die Residuen in etwa in ganzzahligen Abständen zur Regressionsgerade. Das ist ein sehr realitätsfernes Beispiel, es wird wohl nie vorkommen, aber es veranschaulicht sehr schön, welche Situationen durch die Modellannahme der normalverteilten Residuen „nicht erlaubt“ sind.

In eine Formel verpackt sieht diese Annahme nun so aus:

\[ \begin{align*} y_i &= a + b\cdot x_i + \epsilon_i \\ \epsilon_i &\sim \mathcal{N}(0, \sigma^2) \end{align*} \]

Die zweite Zeile verlangt, dass die Residuen \(\epsilon\) normalverteilt sind. In dieser Formel steckt eigentlich auch schon die nächste Annahme mit drin:

3. Gleichbleibende Varianz der Residuen

Diese Annahme besagt, dass die Varianz der Residuen sich über die \(x\)-Achse nicht verändern soll. Das linke Bild zeigt wieder ein positives Beispiel, und das rechte Bild zeigt, wie es nicht aussehen soll:

Die gleichbleibende Varianz (man sagt auch Homoskedastizität dazu – mein absolutes Lieblingswort) steckt auch schon in der oberen Formel drin. Man verlangt nämlich, dass für jede Beobachtung \(i\) die Varianz gleich ist. Es ist also \(\epsilon_i \sim \mathcal{N}(0, \sigma^2)\), und nicht \(\epsilon_i \sim \mathcal{N}(0, \sigma_i^2)\). Der Unterschied ist sehr klein: Statt \(\sigma^2\) steht in der zweiten Formel \(\sigma_i^2\). Das tiefgestellte \(i\) bedeutet, dass die Varianz hier für jede Beobachtung \(i\) unterschiedlich ist. Im rechten Bild wäre also z.B. für die erste Beobachtung \(\sigma_1^2 = 0.6\), und für die letzte Beobachtung \(\sigma_{100}^2 = 12.4\). Das bedeutet: unterschiedliche Varianzen, und genau das ist im linearen Modell nicht erlaubt. Die Streuung muss für jede Beobachtung gleich groß sein.

4. Unabhängigkeit der Residuen

Mit Unabhängigkeit ist das Folgende gemeint: Wenn ich den Fehlerterm für eine bestimmte Beobachtung kenne, dann darf mir das keine Information über den Fehlerterm für die nächste Beobachtung liefern. Das ist zum Beispiel im folgenden Bild der Fall:

Hier ist natürlich gleichzeitig die Annahme des linearen Einflusses verletzt (Verletzungen von Modellannahmen kommen selten alleine). Aber zusätzlich sind die Residuen abhängig voneinander: am linken Ende der \(x\)-Achse sind alle Residuen negativ, d.h. alle Punkte liegen unter der Regressionsgeraden. Die Abhängigkeit in diesem Bild heißt dann etwa: Wenn ich weiß, dass für Beobachtung \(i=10\) ein positives Residuum gibt, dann kann ich dadurch Schlüsse über das Residuum für die nächste Beobachtung \(i=11\) ziehen – es ist nämlich wahrscheinlich auch positiv.

Multiple lineare Regression

In den bisherigen Artikeln zur Regression ging es nur um die einfache lineare Regression. Hier schauen wir uns nun die multiple lineare Regression an.

Das Wort „multipel“ bedeutet, dass wir nun nicht mehr eine, sondern mehrere Einflussgrößen haben. Wichtig: es gibt mehrere Einflussgrößen. Die Anzahl der Zielgrößen verändert sich nicht, es ist immer noch nur eine Zielgröße.

Beispiel

Wir können uns das Beispiel aus den Artikeln zur einfachen linearen Regression ansehen, und es etwas weiterführen. Dort haben wir versucht, mit Hilfe der Regression die Ringgröße \(y\) einer Freundin zu schätzen, gegeben man kennt ihre Körpergröße \(x\).

Wenn dir jetzt allerdings sehr viel daran liegt, eine möglicht exakte Schätzung zu erhalten, um nicht mit einem unpassenden Ring vor ihr zu stehen, kannst du noch mehr Daten sammeln. Beispielsweise zusätzlich zur Körpergröße noch das Gewicht und das Alter von den 10 Frauen, die du befragst.

Die Daten würden nun also um zwei Variablen größer werden, und zum Beispiel so aussehen:

Person \(i\) 1 2 3 4 5 6 7 8 9 10
Körpergröße \(x_1\) 156.3 158.9 160.8 179.6 156.6 165.1 165.9 156.7 167.8 160.8
Körpergewicht \(x_2\) 62 52 83 69 74 52 77 65 79 51
Alter \(x_3\) 24 34 26 51 43 33 22 21 19 34
Ringgröße \(y\) 47.1 46.8 49.3 53.2 47.7 49.0 50.6 47.1 51.7 47.8

Wir haben jetzt nicht mehr eine Einflussgröße \(x\), sondern drei Stück: \(x_1\), \(x_2\), und \(x_3\). Und jede dieser Einflussgrößen hat eine Ausprägung pro Person \(i\). Das heißt, dass nun zwei Zahlen unter dem \(x\) stehen: Eine für die Einflussgröße und eine für die Person. Zum Beispiel ist das Körpergewicht der vierten Person \(x_{2,4} = 69kg\).

Dadurch, dass man jetzt mehr Daten verfügbar hat, kann man eine genauere Schätzung bekommen. Die Regressionsgleichung würde jetzt lauten:

\[ y = a + b_1 x_1 + b_2 x_2 + b_3 x_3 \]

Mit der multiplen Regression kann ich nun Werte für die Parameter \(a\), \(b_1\), \(b_2\), und \(b_3\) erhalten, und mit Hilfe derer kann ich nun wieder eine Vorhersage treffen.

Anmerkung: Genauso wie in der einfachen linearen Regression können die Parameter in anderen Büchern/Skripten anders benannt sein (z.B. \(\beta_0\), \(\beta_1\) usw.). Sie bedeuten aber genau dasselbe.

Schätzung der Parameter

Die Parameterschätzung ist etwas aufwändiger, und von Hand praktisch nicht mehr durchführbar. Grob gesagt werden die drei Einflussgrößen \(x_1\), \(x_2\) und \(x_3\), die man ja als Vektoren ansehen kann, spaltenweise in eine Matrix \(X\) zusammengefasst. Mit Hilfe dieser Matrix und dem Vektor aller Zielgrößen \(y\) kann man dann den Vektor der Parameter (nennen wir ihn mal \(b\)) schätzen:

\[ b = (X^\top X)^{-1} X^\top y \]

Das wird, wie gesagt, etwas komplizierter, und ist auch mit dem Taschenrechner nicht mehr zu lösen. In einer Klausur wird das Berechnen der Parameter in einer multiplen Regression nicht abgefragt werden, weshalb ich die Details hier überspringe. Die Standardliteratur hilft hier aber weiter (ich empfehle die Springer-Bücher zur Regression oder Statistik).

Was aber durchaus Klausurstoff sein kann, ist die Interpretation der Parameter und die Vorhersage mit bereits gegebenen Parametern. Das schauen wir uns jetzt noch genauer an.

Interpretation der Parameter

Wie gesagt, die Berechnung bei der multiplen Regression ist zu kompliziert für Papier und Taschenrechner, daher lasse ich die Herleitung hier weg. Aber mit den Daten aus der obigen Tabelle erhalten wir per Computer gerundet die folgenden Parameter:

\(a=0.6\), \(b_1=0.28\), \(b_2=0.06\), und \(b_3=-0.02\).

Die Regressionsgerade sieht also so aus:

\[ y = 0.66 + 0.28 \cdot x_1 + 0.06 \cdot x_2 – 0.02 \cdot x_3 \]

Was bedeuten diese Parameter nun?

Der Wert \(b_1\), also 0.28, sagt aus, dass bei einer Person, die einen Zentimeter größer ist als eine andere, die Ringgröße im Durchschnitt um 0.28 größer ist. Da der Wert 0.28 größer als Null ist, sprechen wir hier von einem positiven Effekt: Eine größere Körpergröße führt zu einer größeren Ringgröße.

Andersherum ist es beim Alter. Der Wert von -0.02 sagt aus, dass eine Person, die ein Jahr älter ist, im Durchschnitt eine um 0.02 kleinere Ringgröße hat. Das ist ein negativer Effekt, denn der Wert \(b_3\) ist kleiner als Null.

Da wir bei einer Stichprobe aber immer mit zufälligen Daten arbeiten, ist der Parameter für quasi jede Einflussgröße nie exakt Null. Der Parameter für das Alter, die -0.02, sind z.B. so klein, dass sie eventuell schon zufällig auftreten. Die Vermutung liegt nahe, dass das Alter gar keinen Einfluss auf die Ringgröße hat (aber das Gewicht und die Körpergröße durchaus).

Um zu prüfen, ob eine Einflussgröße tatsächlich einen Einfluss hat, gibt statistische Software normalerweise einen \(p\)-Wert zusätzlich zu dem Parameterschätzer aus. Dieser \(p\)-Wert gehört zu der Hypothese, dass der jeweilige Effekt (z.B. vom Alter) gleich Null ist. Wenn der \(p\)-Wert klein genug ist (meist: kleiner als 0.05), dann geht man davon aus, dass die zugehörige Einflussgröße tatsächlich einen Effekt auf die Zielgröße hat, und man spricht von einem signifikanten Effekt.

In unserem Beispiel sind die \(p\)-Werte:
– Für \(b_1\) (Körpergröße): \(p=0.0000026\)
– Für \(b_2\) (Gewicht): \(p=0.00099\)
– Für \(b_3\) (Alter): \(p=0.112\)

Da nur die ersten beiden \(p\)-Werte kleiner als 0.05 sind, können wir hier schlußfolgern, dass sowohl die Körpergröße, als auch das Gewicht einen signifikanten Einfluss auf die Ringgröße haben, aber das Alter nicht.

(Das Berechnen der \(p\)-Werte ist wieder etwas komplizierter, und in einer Klausur wohl nicht gefragt werden, und wird daher hier übersprungen. Falls das jemand genauer wissen will, verweise ich wieder auf die Standardliteratur zur Regression.)

Vorhersage bei der multiplen linearen Regression

Bei der multiplen linearen Regression läuft die Vorhersage genauso ab wie bei der einfachen Regression, nur eben mit mehreren Einflussgrößen. Unsere Regressionsgleichung lautet:

\[ y = 0.66 + 0.28 \cdot x_1 + 0.06 \cdot x_2 – 0.02 \cdot x_3 \]

Das heißt, wenn unsere Freundin nun wie bisher 170cm groß ist, aber wir zusätzlich wissen, dass sie 68kg wiegt und 29 Jahre alt ist, dann können wir eine genauere Schätzung für die Ringgröße abgeben:

\[y = 0.66 + 0.28 \cdot 170 + 0.06 \cdot 68 – 0.02 \cdot 29 = 51.76 \]

Wir erwarten also in etwa eine Ringgröße von 51.76, und sollten daher einen Ring mit einer Größe kaufen, der so nah wie möglich daran liegt (also wahrscheinlich einen der Größe 52).

Einfache lineare Regression

In diesem Artikel wird nun – aufbauend auf das einführende Beispiel – beschrieben, wie man die Regressionsgerade für unsere Beispieldaten berechnet und einzeichnet. Zur Wiederholung:

Wir möchten die Ringgröße (\(y\)) unserer Freundin schätzen, um sie mit einem Ring zu überraschen. Wir wissen aber nur ihre Körpergröße (\(x\)). Um nun die Ringgröße zu schätzen, sammeln wir 20 Datenpunkte von Freunden und Bekannten, und notieren ihre Körpergröße und Ringgröße:

Person \(i\) 1 2 3 4 5 6 7 8 9 10
Körpergröße \(x\) 156.3 158.9 160.8 179.6 156.6 165.1 165.9 156.7 167.8 160.8
Ringgröße \(y\) 47.1 46.8 49.3 53.2 47.7 49.0 50.6 47.1 51.7 47.8

Wir nennen hier \(y\) die Zielgröße, da ihre Vorhersage unser Ziel ist. Die Körpergröße \(x\) wird allgemein auch Einflussgröße genannt. Es gibt aber noch unzählige andere Namen für die beiden Typen von Variablen. In anderen Quellen wird \(y\) auch häufig Zielvariable, Regressand, Outcome, erklärte Variable oder abhängige Variable (weil sie von \(x\) abhängig ist) genannt. Andere Namen für \(x\) sind Kovariable, Input, Regressor, erklärende Variable oder unabhängige Variable.

Diese Daten können wir nun in ein Streudiagramm einzeichnen, und erkennen sofort, dass größere Frauen tendenziell auch größere Ringe brauchen:

regression-motivation1

Die Regression ist nun eine statistische Methode, um die bestmögliche Gerade zu finden, die man durch diese Daten legen kann. Eine Gerade wird ja definiert durch zwei Parameter \(a\) und \(b\); man kann sie dann darstellen als

\[ y = a + b \cdot x \]

Manchmal sieht man übrigens statt \(a + b \cdot x\) auch \(\alpha + \beta \cdot x\) oder \(\beta_0 + \beta_1 \cdot x\), aber das sind nur andere Namen für dieselben Zahlen.

Berechnung der Parameter \(a\) und \(b\)

Wenn wir also die bestmögliche Gerade finden wollen, die wir durch diese Punktwolke an Daten legen können, ist das gleichbedeutend damit, dass wir die bestmöglichen Werte für \(a\) und \(b\) finden wollen. Und dafür wurden die folgenden beiden Formeln entdeckt:

\[ b = \frac{\sum_{i=1}^n (x_i – \bar{x}) \cdot (y_i – \bar{y})}{\sum_{i=1}^n (x_i – \bar{x})^2} \]

Die Formel für \(a\) ist einfacher, aber wir müssen vorher das Ergebnis für \(b\) berechnen und dort einsetzen:

\[ a = \bar{y} – b\cdot \bar{x} \]

Die Werte \(\bar{x}\) und \(\bar{y}\) sind jeweils die Mittelwerte der gemessenen Daten \(x\) und \(y\).

Eine kürzere Formel für die Berechnung von \(b\)

Die Formel für \(b\) ist recht chaotisch, aber es gibt eine Möglichkeit, sie kürzer darzustellen, während sie immernoch dasselbe Ergebnis liefert:

\[ b = r_{xy} \cdot \frac{s_y}{s_x} \]

Dabei ist \(r_{xy}\) die Pearson-Korrelation zwischen \(x\) und \(y\), und \(s_x\) und \(s_y\) jeweils die Standardabweichung von \(x\) bzw. \(y\). Diese Werte muss man natürlich auch erstmal ausrechnen, so dass diese kürzere Formel insgesamt wahrscheinlich mehr Rechenaufwand bedeutet – außer man hat diese Zwischenergebnisse schon z.B. in einer vorherigen Teilaufgabe der Klausur erhalten und kann sie einfach einsetzen.

Beispielaufgabe

Wir berechnen hier die Werte \(a\) und \(b\) für die obenstehende Tabelle von 10 Personen. Dazu brauchen wir die Mittelwerte von \(x\) und \(y\) als Zwischenergebnisse:

\[ \begin{align*} \bar{x} &= \frac{1}{10} \cdot (156.3+158.9+160.8+179.6+156.6+165.1+165.9+156.7+167.8+160.8) \\ &= \frac{1}{10} \cdot 1628.5 \\ &= 162.85 \end{align*} \]

Genauso erhält man dann auch

\[ \bar{y} = 49.03 \]

Zum Berechnen von \(b\) könnte man nun sofort loslegen, alles in den Taschenrechner einzutippen. Das ist aber anfällig für Leichtsinnsfehler, und oft reicht auch der Platz im Taschenrechner nicht für diese große Formel aus. Ich schlage also vor, in mehreren Schritten vorzugehen:

Bestimmen der Werte \((x_i-\bar{x})\) und \((y_i-\bar{y})\)

Zuerst brauchen wir Zwischenergebnisse, wo wir von jedem Wert den zugehörigen Mittelwert abziehen. Aus der Tabelle

Person \(i\) 1 2 3 4 5 6 7 8 9 10
Körpergröße \(x\) 156.3 158.9 160.8 179.6 156.6 165.1 165.9 156.7 167.8 160.8
Ringgröße \(y\) 47.1 46.8 49.3 53.2 47.7 49.0 50.6 47.1 51.7 47.8

werden also die folgenden Werte berechnet:

Person \(i\) 1 2 3 4 5 6 7 8 9 10
\((x_i-\bar{x})\) -6.55 -3.95 -2.05 16.75 -6.25 2.25 3.05 -6.15 4.95 -2.05
\((y_i-\bar{y})\) -1.93 -2.23 0.27 4.17 -1.33 -0.03 1.57 -1.93 2.67 -1.23

Als Beispiel: Der erste Wert für \((x_i-\bar{x})\) ist einfach \(156.3 – 162.85 = – 6.55\).

Berechnen von \(b\)

Jetzt sind wir nicht weit vom Ergebnis entfernt. Wir brauchen im Zähler der Formel für \(b\) nun für jede Person \(i\) das Produkt der beiden Werte \((x_i-\bar{x})\) und \((y_i-\bar{y})\), für die erste Person also z.B. \((-6.55 \cdot -1.93) = 12.6415\).

Im Nenner der Formel für \(b\) brauchen wir das Quadrat der zweiten Zeile, also wir müssen \((x_i-\bar{x})^2\) berechnen.

Diese Werte berechnen wir nun für alle 10 Personen und können sie (ich runde auf zwei Nachkommastellen) in zwei neue Zeilen der Tabelle einfügen:

Person \(i\) 1 2 3 4 5 6 7 8 9 10
\((x_i-\bar{x})\) -6.55 -3.95 -2.05 16.75 -6.25 2.25 3.05 -6.15 4.95 -2.05
\((y_i-\bar{y})\) -1.93 -2.23 0.27 4.17 -1.33 -0.03 1.57 -1.93 2.67 -1.23
\((x_i-\bar{x}) \cdot (y_i-\bar{y})\) 12.64 8.81 -0.55 69.85 8.31 -0.07 4.79 11.87 13.22 2.52
\((x_i-\bar{x})^2\) 42.90 15.60 4.20 280.56 39.06 5.06 9.30 37.82 24.50 4.20

Und wenn man sich jetzt nochmal die Formel für \(b\) anschaut, sieht man dass wir soweit sind: der Zähler ist die Summe der Werte in der dritten Zeile, und der Nenner die Summe der Werte in der vierten Zeile. Die ergeben sich zu

\[ \sum_{i=1}^n (x_i-\bar{x}) \cdot (y_i-\bar{y}) = 131.39 \]

und

\[ \sum_{i=1}^n (x_i-\bar{x})^2 = 463.2 \]

Somit können wir also \(b\) berechnen:

\[ b =\frac{\sum_{i=1}^n (x_i – \bar{x}) \cdot (y_i – \bar{y})}{\sum_{i=1}^n (x_i – \bar{x})^2} = \frac{131.39}{463.2} = 0.2836 \]

Berechnen von \(a\)

Der Wert \(a\) ist nun mit diesem Ergebnis ganz einfach zu erhalten:

\[ a = \bar{y} – b\cdot \bar{x} = 49.03 – 0.2836 \cdot 162.85 = 2.8457 \]

Einzeichnen der Regressionsgerade

Wir haben also nun die letztendliche Regressionsgerade berechnen können:

\[ y = 2.8457 + 0.2836 \cdot x \]

Um die Gerade dann einzuzeichnen, reicht es, zwei Punkte zu bestimmen, indem wir irgendwelche \(x\)-Werte aussuchen, und die zugehörigen \(y\)-Werte bestimmen. Die \(x\)-Werte sollten sich im Rahmen der „normalen“ Werte der Daten bewegen. Mit Hilfe der Grafik können wir z.B. \(x=160\) und \(x=170\) aussuchen. Dann berechnen wir mit der Formel der Regressionsgeraden die zugehörigen \(y\)-Werte:

\[ 2.8457 + 0.2836 \cdot 160 = 48.22 \]

\[ 2.8457 + 0.2836 \cdot 170 = 51.06 \]

Die Punkte \((160, 48.22)\) und \((170, 51.06)\) können wir nun in das Streudiagramm einzeichnen, und eine Gerade durch die beiden Punkte ziehen:

regression-gerade

Vorhersage bei der einfachen linearen Regression

Bisher haben wir gelernt, wie man die beiden Koeffizienten \(a\) und \(b\) berechnet. Jetzt möchten wir mit Hilfe der Parameter auch für neue Daten \(x\) vorhersagen, welchen Wert für \(y\) wir erwarten.

Das Ziel, das wir mit der Regression erreichen wollen, ist nämlich folgendes: Angenommen es kommt eine neue Person, von der wir nur die Körpergröße \(x=170\) wissen. Was ist dann der Erwartungswert der Ringgröße \(y\)? Wir suchen also \(\mathbb{E}(y|x)\), den bedingten Erwartungswert von \(y\), gegeben man kennt \(x\).

Bei der einfachen linearen Regression gibt es ja nur eine Einflussgröße \(x\). Die Regressionsgerade lautet also

\[ y = a + b\cdot x \]

Um eine Vorhersage für die Zielgröße \(y\) zu erhalten, müssen wir also einfach den zugehörigen Wert für \(x\) in die Gleichung einsetzen. Die Werte für \(a\) und \(b\) haben wir vorher schon berechnet.

Als Beispiel: Im Beispiel aus dem vorherigen Artikel haben wir die Werte \(a=2.8457\) und \(b=0.2836\) bestimmt. Welche Ringgröße ist nun bei deiner Freundin zu erwarten, wenn sie eine Körpergröße von \(x=\)170cm hat? Dafür berechnen wir:

\[ y = a + b\cdot x = 2.8457 + 0.2836 \cdot 170 = 51.06 \]

Ein Ring mit der Größe 51 sollte also gut bei ihr passen.

Es ist hier noch wichtig zu erwähnen, dass wir nur den Erwartungswert von \(y\) vorhersagen. Die Ringgröße wird also nicht exakt 51.06 sein, sondern es gibt immer einen kleinen Fehler, den man im linearen Modell \(\epsilon\) (sprich: Epsilon) nennt. In Wirklichkeit lautet die Regressionsgleichung also

\[ y = a + b \cdot x + \epsilon \]

wobei \(\epsilon\) einen zufälligen und unbekannten Fehler bezeichnet.

Dieser Fehler heißt meistens Residuum, aber man trifft ihn auch manchmal unter den Namen Fehlerterm oder Epsilon an.

Klausuraufgabe

Für die folgenden 6 Autos wurden die Einflussgröße \(x\), die Leistung (in PS) und die Zielgröße \(y\), der Neupreis des Autos notiert:

Auto \(i\) 1 2 3 4 5 6
Leistung (PS) \(x\) 69 199 183 81 192 149
Neupreis \(y\) 21700 54400 47800 31000 48400 36700

a) Berechne die Parameter \(a\) und \(b\) einer linearen Regression. Die Zielgröße ist \(y\), der Neupreis, und wir möchten ihn mit Hilfe der Einflussgröße \(x\), der Leistung in PS, vorhersagen.
b) Verwende nun die berechneten Parameter, um den Neupreis für ein Auto mit 120PS zu prognostizieren.
c) Zeichne ein Streudiagramm der beiden Variablen, und zeichne die Regressionsgerade ein. (Diese Aufgabe ist auch eine nette Probe, ob die berechneten Werte für \(a\) und \(b\) plausibel sind)

Lösung (klick)

a)

Wir müssen zuerst den Steigungsparameter \(b\) berechnen, denn wir brauchen ihn zum Berechnen von \(a\). Die Formel für \(b\) lautet:

\[ b = \frac{\sum_{i=1}^n (x_i – \bar{x}) \cdot (y_i – \bar{y})}{\sum_{i=1}^n (x_i – \bar{x})^2} \]

Als allererstes brauchen wir also die zwei Mittelwerte, \(\bar{x}\) sowie \(\bar{y}\). Diese Werte ergeben sich zu \(\bar{x} = 145.5\) und \(\bar{y} = 40000\).

Wir berechnen jetzt für jede Beobachtung \(i\) diese Zwischenwerte in einer Hilfstabelle, damit wir nicht durcheinanderkommen. Zuerst berechnen und notieren wir die Werte \((x_i-\bar{x})\) sowie \((y_i-\bar{y})\), und mit diesen Ergebnissen berechnen wir dann die Werte die wir tatsächlich brauchen: \((x_i-\bar{x})^2\) sowie \((x_i-\bar{x}) \cdot (y_i-\bar{y})\).

Person \(i\) 1 2 3 4 5 6
\((x_i-\bar{x})\) -76.5 53.5 37.5 -64.5 46.5 3.5
\((y_i-\bar{y})\) -18300 14400 7800 -9000 8400 -3300
\((x_i-\bar{x}) \cdot (y_i-\bar{y})\) 1399950 770400 292500 580500 390600 -11550
\((x_i-\bar{x})^2\) 5852.25 2862.25 1406.25 4160.25 2162.25 12.25

Wenn man sich die Formel für \(b\) nochmal ansieht, merkt man dass der Parameter \(b\) nun einfach die Summe der dritten Zeile, geteilt durch die Summe der vierten Zeile ist:

\[b = \frac{3422400}{16455.5} = 207.9791 \]

Der Parameter \(a\) ist nun einfacher:

\[ a = \bar{y} – b\cdot \bar{x} = 40000 – 207.9791 \cdot 145.5 = 9739.042 \]

Und fertig! Die Regressionsgerade lautet also gerundet:

\[ y = 9739.04 + 207.98 \cdot x \]

b)

Für eine Vorhersage setzen wir einfach den gewünschten Wert der Leistung (in PS) in die Einflussgröße \(x\) der Regressionsgleichung ein:

\[ y = 9739.04 + 207.98 \cdot 120 = 34696.64 \]

Wir prognostizieren also für ein Auto mit 120 PS einen Neupreis von 34696.64 Euro.

c)

Das Streudiagramm lässt sich einfach zeichnen.

Um die Regressionsgerade einzeichnen zu können, brauchen wir zwei beliebige Vorhersagen Punkte, die wir mit einem Lineal verbinden. Einen Punkt haben wir schon aus Aufgabe b): \(x=120\) und \(y=34696.64\).

Um einen zweiten Punkt zu bekommen, suchen wir uns einfach einen realistischen Wert für \(x\) aus, z.B. \(x=100\). Dann prognostizieren wir \(y\) wie in Aufgabe b), nur mit 100 statt 120 PS, und erhalten \(y=30537.04\). Diese beiden Punkte können wir z.B. mit einem „X“ ins Diagramm einzeichnen, und mit einem Lineal verbinden:

Regression: Ein einführendes Beispiel

Idee der Regression

Das Ziel der Regression ist es, den Wert einer bestimmten Variablen anhand einer oder mehrerer bekannter Werte vorherzusagen.

Beispiel

Du möchtest deiner Freundin einen Verlobungsring kaufen, kennst aber ihre Ringgröße nicht. Es ist aber zu verdächtig, sie direkt zu fragen. Du weißt aber, dass kleinere Frauen tendenziell auch kleinere Ringgrößen haben, und nach ihrer Körpergröße kannst du sie ohne Bedenken fragen. Sie ist 170cm groß. Was nun?

Du befrägst deinen gesamten weiblichen Bekanntenkreis (10 Personen) nach Körpergröße und Ringgröße, und erhältst die folgenden Daten:

regression-motivation1

Deine Tante Emma ist zum Beispiel \(x=\)165cm groß und trägt Ringgröße \(y=\)49. Sie wird durch den Punkt ca. in der Mitte links repräsentiert.

Das sieht hilfreich aus. Da deine Freundin 170cm groß ist (\(x\)-Achse), hat sie wohl in etwa eine Ringgröße von 52 (\(y\)-Achse). Du kaufst ihr einen Ring in dieser Größe, er passt, sie sagt Ja, und ihr seid glücklich bis an euer Lebensende.

Was hier passiert ist, ist dass du in deinem Kopf eine Regression durchgeführt hast, um mit Hilfe einer bekannten Variablen – ihrer Körpergröße – eine unbekannte Variable, nämlich ihre Ringgröße vorherzusagen.

Die Regression in der Statistik ist nun ein mathematisches Werkzeug, um eine exakte Regel zu bauen, mit der man für jede Körpergröße eine „beste“ Vorhersage für die Ringgröße erhält. In diesem Beispiel würde man also die „beste“ Gerade bestimmen, die durch den oberen Graphen geht:

regression-motivation2

Wie man diese Gerade berechnet, interpretiert, und mit ihr Vorhersagen macht, sehen wir dann in den nächsten Abschnitten.