In den bisherigen Artikeln zur Regression ging es nur um die einfache lineare Regression. Hier schauen wir uns nun die multiple lineare Regression an.
Das Wort „multipel“ bedeutet, dass wir nun nicht mehr eine, sondern mehrere Einflussgrößen haben. Wichtig: es gibt mehrere Einflussgrößen. Die Anzahl der Zielgrößen verändert sich nicht, es ist immer noch nur eine Zielgröße.
Beispiel
Wir können uns das Beispiel aus den Artikeln zur einfachen linearen Regression ansehen, und es etwas weiterführen. Dort haben wir versucht, mit Hilfe der Regression die Ringgröße \(y\) einer Freundin zu schätzen, gegeben man kennt ihre Körpergröße \(x\).
Wenn dir jetzt allerdings sehr viel daran liegt, eine möglicht exakte Schätzung zu erhalten, um nicht mit einem unpassenden Ring vor ihr zu stehen, kannst du noch mehr Daten sammeln. Beispielsweise zusätzlich zur Körpergröße noch das Gewicht und das Alter von den 10 Frauen, die du befragst.
Die Daten würden nun also um zwei Variablen größer werden, und zum Beispiel so aussehen:
Person \(i\) | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
Körpergröße \(x_1\) | 156.3 | 158.9 | 160.8 | 179.6 | 156.6 | 165.1 | 165.9 | 156.7 | 167.8 | 160.8 |
Körpergewicht \(x_2\) | 62 | 52 | 83 | 69 | 74 | 52 | 77 | 65 | 79 | 51 |
Alter \(x_3\) | 24 | 34 | 26 | 51 | 43 | 33 | 22 | 21 | 19 | 34 |
Ringgröße \(y\) | 47.1 | 46.8 | 49.3 | 53.2 | 47.7 | 49.0 | 50.6 | 47.1 | 51.7 | 47.8 |
Wir haben jetzt nicht mehr eine Einflussgröße \(x\), sondern drei Stück: \(x_1\), \(x_2\), und \(x_3\). Und jede dieser Einflussgrößen hat eine Ausprägung pro Person \(i\). Das heißt, dass nun zwei Zahlen unter dem \(x\) stehen: Eine für die Einflussgröße und eine für die Person. Zum Beispiel ist das Körpergewicht der vierten Person \(x_{2,4} = 69kg\).
Dadurch, dass man jetzt mehr Daten verfügbar hat, kann man eine genauere Schätzung bekommen. Die Regressionsgleichung würde jetzt lauten:
\[ y = a + b_1 x_1 + b_2 x_2 + b_3 x_3 \]
Mit der multiplen Regression kann ich nun Werte für die Parameter \(a\), \(b_1\), \(b_2\), und \(b_3\) erhalten, und mit Hilfe derer kann ich nun wieder eine Vorhersage treffen.
Anmerkung: Genauso wie in der einfachen linearen Regression können die Parameter in anderen Büchern/Skripten anders benannt sein (z.B. \(\beta_0\), \(\beta_1\) usw.). Sie bedeuten aber genau dasselbe.
Schätzung der Parameter
Die Parameterschätzung ist etwas aufwändiger, und von Hand praktisch nicht mehr durchführbar. Grob gesagt werden die drei Einflussgrößen \(x_1\), \(x_2\) und \(x_3\), die man ja als Vektoren ansehen kann, spaltenweise in eine Matrix \(X\) zusammengefasst. Mit Hilfe dieser Matrix und dem Vektor aller Zielgrößen \(y\) kann man dann den Vektor der Parameter (nennen wir ihn mal \(b\)) schätzen:
\[ b = (X^\top X)^{-1} X^\top y \]
Das wird, wie gesagt, etwas komplizierter, und ist auch mit dem Taschenrechner nicht mehr zu lösen. In einer Klausur wird das Berechnen der Parameter in einer multiplen Regression nicht abgefragt werden, weshalb ich die Details hier überspringe. Die Standardliteratur hilft hier aber weiter (ich empfehle die Springer-Bücher zur Regression oder Statistik).
Was aber durchaus Klausurstoff sein kann, ist die Interpretation der Parameter und die Vorhersage mit bereits gegebenen Parametern. Das schauen wir uns jetzt noch genauer an.
Interpretation der Parameter
Wie gesagt, die Berechnung bei der multiplen Regression ist zu kompliziert für Papier und Taschenrechner, daher lasse ich die Herleitung hier weg. Aber mit den Daten aus der obigen Tabelle erhalten wir per Computer gerundet die folgenden Parameter:
\(a=0.6\), \(b_1=0.28\), \(b_2=0.06\), und \(b_3=-0.02\).
Die Regressionsgerade sieht also so aus:
\[ y = 0.66 + 0.28 \cdot x_1 + 0.06 \cdot x_2 – 0.02 \cdot x_3 \]
Was bedeuten diese Parameter nun?
Der Wert \(b_1\), also 0.28, sagt aus, dass bei einer Person, die einen Zentimeter größer ist als eine andere, die Ringgröße im Durchschnitt um 0.28 größer ist. Da der Wert 0.28 größer als Null ist, sprechen wir hier von einem positiven Effekt: Eine größere Körpergröße führt zu einer größeren Ringgröße.
Andersherum ist es beim Alter. Der Wert von -0.02 sagt aus, dass eine Person, die ein Jahr älter ist, im Durchschnitt eine um 0.02 kleinere Ringgröße hat. Das ist ein negativer Effekt, denn der Wert \(b_3\) ist kleiner als Null.
Da wir bei einer Stichprobe aber immer mit zufälligen Daten arbeiten, ist der Parameter für quasi jede Einflussgröße nie exakt Null. Der Parameter für das Alter, die -0.02, sind z.B. so klein, dass sie eventuell schon zufällig auftreten. Die Vermutung liegt nahe, dass das Alter gar keinen Einfluss auf die Ringgröße hat (aber das Gewicht und die Körpergröße durchaus).
Um zu prüfen, ob eine Einflussgröße tatsächlich einen Einfluss hat, gibt statistische Software normalerweise einen \(p\)-Wert zusätzlich zu dem Parameterschätzer aus. Dieser \(p\)-Wert gehört zu der Hypothese, dass der jeweilige Effekt (z.B. vom Alter) gleich Null ist. Wenn der \(p\)-Wert klein genug ist (meist: kleiner als 0.05), dann geht man davon aus, dass die zugehörige Einflussgröße tatsächlich einen Effekt auf die Zielgröße hat, und man spricht von einem signifikanten Effekt.
In unserem Beispiel sind die \(p\)-Werte:
– Für \(b_1\) (Körpergröße): \(p=0.0000026\)
– Für \(b_2\) (Gewicht): \(p=0.00099\)
– Für \(b_3\) (Alter): \(p=0.112\)
Da nur die ersten beiden \(p\)-Werte kleiner als 0.05 sind, können wir hier schlußfolgern, dass sowohl die Körpergröße, als auch das Gewicht einen signifikanten Einfluss auf die Ringgröße haben, aber das Alter nicht.
(Das Berechnen der \(p\)-Werte ist wieder etwas komplizierter, und in einer Klausur wohl nicht gefragt werden, und wird daher hier übersprungen. Falls das jemand genauer wissen will, verweise ich wieder auf die Standardliteratur zur Regression.)
Vorhersage bei der multiplen linearen Regression
Bei der multiplen linearen Regression läuft die Vorhersage genauso ab wie bei der einfachen Regression, nur eben mit mehreren Einflussgrößen. Unsere Regressionsgleichung lautet:
\[ y = 0.66 + 0.28 \cdot x_1 + 0.06 \cdot x_2 – 0.02 \cdot x_3 \]
Das heißt, wenn unsere Freundin nun wie bisher 170cm groß ist, aber wir zusätzlich wissen, dass sie 68kg wiegt und 29 Jahre alt ist, dann können wir eine genauere Schätzung für die Ringgröße abgeben:
\[y = 0.66 + 0.28 \cdot 170 + 0.06 \cdot 68 – 0.02 \cdot 29 = 51.76 \]
Wir erwarten also in etwa eine Ringgröße von 51.76, und sollten daher einen Ring mit einer Größe kaufen, der so nah wie möglich daran liegt (also wahrscheinlich einen der Größe 52).
Klasse!
Wenn ich alles richtig verstanden habe, sollte hier „Das heißt, dass nun zwei Zahlen unter dem stehen:“
==> „DREI Zahlen“ stehen?
Danke 🙂
Nein, es sind schon zwei Zahlen. Die erste, i, ist 1, 2, 3, je nachdem ob du Körpergröße, Gewicht oder Alter betrachtest. Die zweite Zahl, j, sagt dir welche Person du gerade betrachtest.
VG
Alex
Pingback: Regresion lineal multiple - Qué es la Regresión Lineal Multiple y cómo analizarla
Hallo,
da das Alter nicht Signifikant ist, müsste die Gleichung doch so aussehen, oder?
y=0.66+0.28⋅x1+0.06⋅x2
Und wie formuliert man das Ergebnis richtig? Würde man sagen, dass dieses Model mit einer Irrtumswahrscheinlichkeit <1% gültig ist, da die p-Werte der Variablen <1 % sind?
Wenn man nun 100 Stichproben machen würde und das Ergebnis rauskommt, dass bei 15 % der Stichproben die Ringgröße nicht nach dem Modell berechenbar ist, würde man die Gleichung dann verwerfen? Bzw. kann man die Stärke des Modells anhand eines Kriteriums ablesen, wie z.B. r²?
Hi Julian
es ist keine Regel, dass man nicht signifikante Variablen rauswerfen muss. In der Praxis wird das oft gemacht, aber man muss nicht. Die Variablen liefern meistens immernoch Information, die die Schätzung besser macht.
Ein „gültiges“ Modell gibt es nicht, bzw. kann man das so nicht sagen. Man sagt, das Modell ist die beste Schätzung aufgrund der Stichprobe. Im Idealfall ist es sehr nah an einem unterstellten „wahren“ Modell dran.
Das Modell verwerfen, kommt drauf an was deine Anforderungen an seine Genauigkeit sind. Die Schätzungen sind nie perfekt, aber immer besser als zu raten. Meistens ist das Modell sinnvoll genug, um es zu behalten. Die Stärke bzw. Güte liest man an Kriterien ab, die man sich auch wieder selbst aussucht, je nachdem was wichtig ist. R^2 kommt vor, oder der MSE (mittlere quadratische Abweichung) ist auch eine häufige Messgröße.
Viele Grüße
Alex
Hallo Alex,
mir helfen die Artikel gerade auch sehr weiter!
Allerdings ist mir noch nicht ganz klar, inwieweit die einzelnen Prädiktoren tatsächlich unabhängig voneinander sind…
Angenommen ich habe als Kriterium die Häufigkeit von Kinobesuchen und nehme als Prädiktor die Häufigkeit von privatem DVD-Konsum. Kann ich dann parallel auch die Einstellung zu privatem DVD-Konsum als Prädiktor verwenden oder wäre das problematisch, weil Häufigkeit und Einstellung zu privatem DVD-Konsum bis zu einem gewissen Grad ja auch zusammen hängen?
Hi Eva,
das ist kein Problem – die Prädiktoren dürfen untereinander zusammenhängen.
Es gibt lediglich ein mathematisches Problem wenn zwei Prädiktoren perfekt zusammenhängen, also mit einer Korrelation von 1,0.
VG
Alex
Hey, erstmal vielen DANK!!!! Sehr gut erklärt, gute Arbeit! Ich habe einfache Regression verstanden und versuche mehrfache Regression auch zuverstehen, ich möchte diese Methode für mein BWL Vortrag nehmen und dort Werte wie Werbung, Umsatz,… anwenden, nun wollte ich nachvollziehen wie du auf a,x1,x2,x3 kommst, soweit ich weiß muss man wie bei einfachen Regression Beispiel einfach x1 mit y machen und a und b zu bekommen, das gleiche mache ich eigentlich auch mit x2 und y sowie mit x3 und y, jedoch kriege ich irgendwie andere werte bei x1: b: 0,28, x2 b: 0,09 x3 b: 0,04 also andere Werte als du und bei a weiß ich nicht was damit gemeint ist, du hast gesagt es ist kompliziert es auszurechnen mit taschenrechner, ich mache das mit Exel, aber wie ist die Formel um diese Werte zu bekommen die du da oben hast?
Mfg Igor
Hallo Alex,
wie funktioniert das denn wenn ich bei einer unabhängigen Variable mehrere Unterkategorien habe? Also beispielsweise habe ich als unabhängige Variable den Bildungsstand und als Unterkategorie niedrig, mittel, hoch – zu den Unterkategorien habe ich dann jeweils eine Prozentzahl verschiedener Länder. Geht das mit der multiplen Regression überhaupt?
Hi Natalie,
du müsstest die Variablen in einzelne Beobachtungen auftrennen, also für jede Person wissen, welchen Bildungsstand und welches Land sie hat. Dann kannst du sie einfach als zwei Variablen aufnehmen.
Falls du nur eine Kreuztabelle hast, ohne eine andere Zielgröße, kannst du mit dieser Tabelle arbeiten, z.B. mit einem Chi-Quadrat-Test.
Hi Alex,
ich habe auch noch eine Frage zur multiplen Regression. In deinem Beispiel hast du kontinuierliche Einflussgrößen verwendet. Ist die multiple Regression auch mit kategorialen Einflussgrößen (sprich mit Kategorien) möglich, oder sogar mit kontinuierlichen und kategorialen gleichzeitig?
Viele Grüße
Natürlich 🙂
Für eine Kategorie, die nur 0 oder 1 sein kann (z.B. das Geschlecht), gibt es einfach einen zusätzlichen Parameter, der z.B: -0.23 ist. Dann wird bei Männern (z.B. x=0) der Parameter nicht addiert, und bei Frauen (x=1) wird -0.23 drauf addiert.
Falls es mehrere Kategorien gibt (z.B. Automarke), muss man einen Parameter pro möglicher Ausprägung hinzufügen. Da kannst du mal nach ‚Dummykodierung‘ suchen, so wird das gemacht.
Hi Alex,
super erklärt. Ich hab dazu allerdings noch zwei Fragen. Ist die multiple lineare regression gegenüber der einfachen genauer? Also wenn ich bspw. das Verhältnis zwischen Ringgröße und Alter in einer einfachen linearen regression ausrechne, bekomme ich nämlich einen anderen P-wert als bei der multiplen linearen regression, bei der ich noch Körpergröße und Gewicht mit einbeziehe.
Und ausserdem würde mich interessieren ob es eine Mindestanzahl an Beobachtungen braucht für eine regression? Also was wäre wenn wir bspw. nur 5 statt 10 Personen hätten?
Viele Grüße
In den meisten Fällen ist sie genauer, ja. Wenn man es mit den Kovariablen übertreibt, tritt aber ein Problem auf, das sich ‚Overfitting‘ nennt. Dazu kannst du vielleicht mal googlen.
Bei weniger Beobachtungen werden die Ergebnisse sehr ungenau. Dann spielt der Zufall nämlich eine sehr große Rolle. Ich habe als Faustregel immer eine Mindestzahl von etwa 30 Beobachtungen im Kopf, aber das ist natürlich keine feste Regel.
Hallo Alex,
wie bist du bei a auf 0,6 gekommen??
irgendwie verstehe ich den Schritt nicht ganz.
Liebe grüße
Linda
Hi Linda,
die Berechnung bei der multiplen Regression geht mit dem Taschenrechner nicht mehr, das muss dann per Computer geschehen. Ich hab die Herleitung hier weggelassen, und bin direkt zur Interpretation des Ergebnis übergegangen.
VG
Alex
Hallo, ich bin absoluter Statistik-Neuling!
Ich wollte ursprünglich die Abhängigkeit der Produktivität vom Alter der Arbeitnehmer, in meinem Unternehmen, statistisch wiedergeben/aufzeigen (wie auch immer). Dafür wollte ich die lineare Regression nutzen. Nun würde ich gerne den Faktor Fehlzeitenquote zusätzlich miteinbeziehen.
Geht das dann mit der multiplen linearen Regression?
Viele Grüße
Marvin
Genau. Der neue Faktor wird die zweite Einflussgröße.
Viele Grüße,
Alex
Hi Alex, vielen Dank für deine Hilfe! Eine Frage habe ich noch, wenn die Einflussgröße Alter keinen signifikanten Einfluss auf die Zielgröße hat müsste/könnte sie nicht in der letzten Regressionsgleichung vernachlässigt werden?
Rauslöschen würde ich sie nicht, da sie ja immer noch Information liefern könnte, die hilfreich zum Vorhersagen der Zielgröße ist. Es kommt auch ein bisschen drauf an was dein Ziel der Analyse ist. Wenn du eine möglichst gute Prognose willst, würde ich möglichst viele Variablen drinlassen. Wenn du ein möglichst sparsames Modell willst, d.h. mit wenigen Einflussgrößen, dann kann man ein paar Einflussgrößen wieder rauslöschen. Das nennt man dann ‚Variablenselektion‘ – zu dem Thema findest du online bestimmt noch einiges mehr.
VG,
Alex
Hallo Alex, könntest du mir bitte erklären wie du auf die folgenden Parameter gekommen bist ?! Also für die Werte 0.66 , 0.28 usw.
Das wäre super lieb von dir :)… Und vielen Dank für deine tollen Darstellungen, du machst mir das Statistik lernen ungemein leichter als jemals ein Dozent davor… Lg
Hallo Julia,
für die multiple Regression ist das zu kompliziert um es hier auszuführen. Das wird auch im Taschenrechner nicht mehr möglich sein.
Für die *einfache* Regression (mit einer Einflussgröße) findest du das Vorgehen hier erklärt:
http://www.crashkurs-statistik.de/einfache-lineare-regression/#berechnen
Viele Grüße,
Alex
Vielen lieben Dank für deine schnelle Antwort…
Ich habe gerade noch eine weitere Seite gefunden, die diesen Rechenweg komplett darstellt.. Es ist wirklich ein großer Aufwand das per Hand auszurechnen..
Ich schreibe am Freitag meine Statistik III Prüfung und meine Dozentin verlangt von uns, das wir die multiple Regression per Hand rechnen sollen… Nun wird mir ein wenig schwindelig, wenn ich sehe welch einen Aufwand man dafür betreiben muss um zu diesen Parametern zu gelangen…
Ich bedanke mich ganz herzlich bei dir, du erklärst das hier wunderbar und viel verständlicher als so manch anderer Dozent…
Mach weiter so,
Lg
Vorab einen riesigen Dank für deine Seite und die einfachen und verständlichen Beispiele! Ich versuche schon seit längerem ein Verständnis für den Bereich Regression zu entwickeln und war bislang gescheitert.
Die multiple Regression habe ich versucht mit deinen Werten nachzuvollziehen und habe die Werte b1-b3 problemlos ermitteln können. Nur das a ist mir unverständlich. Ich erhalte immer den Wert 0,66299. Kann es sein, dass der Wert 0,44 nicht mehr korrekt angegeben ist?
Hallo Meik, ich habe es gerade nochmal nachgerechnet. Ich komme auch bei 0.66299 raus. Keine Ahnung wie sich die 0,44 da eingeschlichen haben… aber ich habe den Artikel korrigiert. Vielen Dank für den Hinweis! 🙂
VG
Alex
X2,4 müsste vermutlich X2,5 heißen = 74 kg
Es wäre schön auch ein Zahlen-Darstellung von b=(X⊤X)−1X⊤y
Das war ein Fehler, stimmt. Ich habe ihn korrigiert – danke! 🙂
Vielen Dank für Deine tollen Erklärungen! Ich bringe mir damit seit ca. einem Monat selbst Statistik bei. Es ist alles sehr gut aufbereitet und hilfreich. Deine Erklärungen verstehe ich wesentlich besser als jene in den Büchern (z.B. Bortz&Schuster, 2010 etc.), die ich ebenfalls beim Üben verwende. Ich freue mich auf Deine weiteren Artikel und e-books.