Multiple lineare Regression

In den bisherigen Artikeln zur Regression ging es nur um die einfache lineare Regression. Hier schauen wir uns nun die multiple lineare Regression an.

Das Wort „multipel“ bedeutet, dass wir nun nicht mehr eine, sondern mehrere Einflussgrößen haben. Wichtig: es gibt mehrere Einflussgrößen. Die Anzahl der Zielgrößen verändert sich nicht, es ist immer noch nur eine Zielgröße.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Beispiel

Wir können uns das Beispiel aus den Artikeln zur einfachen linearen Regression ansehen, und es etwas weiterführen. Dort haben wir versucht, mit Hilfe der Regression die Ringgröße \(y\) einer Freundin zu schätzen, gegeben man kennt ihre Körpergröße \(x\).

Wenn dir jetzt allerdings sehr viel daran liegt, eine möglicht exakte Schätzung zu erhalten, um nicht mit einem unpassenden Ring vor ihr zu stehen, kannst du noch mehr Daten sammeln. Beispielsweise zusätzlich zur Körpergröße noch das Gewicht und das Alter von den 10 Frauen, die du befragst.

Die Daten würden nun also um zwei Variablen größer werden, und zum Beispiel so aussehen:

Person \(i\) 1 2 3 4 5 6 7 8 9 10
Körpergröße \(x_1\) 156.3 158.9 160.8 179.6 156.6 165.1 165.9 156.7 167.8 160.8
Körpergewicht \(x_2\) 62 52 83 69 74 52 77 65 79 51
Alter \(x_3\) 24 34 26 51 43 33 22 21 19 34
Ringgröße \(y\) 47.1 46.8 49.3 53.2 47.7 49.0 50.6 47.1 51.7 47.8

Wir haben jetzt nicht mehr eine Einflussgröße \(x\), sondern drei Stück: \(x_1\), \(x_2\), und \(x_3\). Und jede dieser Einflussgrößen hat eine Ausprägung pro Person \(i\). Das heißt, dass nun zwei Zahlen unter dem \(x\) stehen: Eine für die Einflussgröße und eine für die Person. Zum Beispiel ist das Körpergewicht der vierten Person \(x_{2,4} = 69kg\).

Dadurch, dass man jetzt mehr Daten verfügbar hat, kann man eine genauere Schätzung bekommen. Die Regressionsgleichung würde jetzt lauten:

\[ y = a + b_1 x_1 + b_2 x_2 + b_3 x_3 \]

Mit der multiplen Regression kann ich nun Werte für die Parameter \(a\), \(b_1\), \(b_2\), und \(b_3\) erhalten, und mit Hilfe derer kann ich nun wieder eine Vorhersage treffen.

Anmerkung: Genauso wie in der einfachen linearen Regression können die Parameter in anderen Büchern/Skripten anders benannt sein (z.B. \(\beta_0\), \(\beta_1\) usw.). Sie bedeuten aber genau dasselbe.

Schätzung der Parameter

Die Parameterschätzung ist etwas aufwändiger, und von Hand praktisch nicht mehr durchführbar. Grob gesagt werden die drei Einflussgrößen \(x_1\), \(x_2\) und \(x_3\), die man ja als Vektoren ansehen kann, spaltenweise in eine Matrix \(X\) zusammengefasst. Mit Hilfe dieser Matrix und dem Vektor aller Zielgrößen \(y\) kann man dann den Vektor der Parameter (nennen wir ihn mal \(b\)) schätzen:

\[ b = (X^\top X)^{-1} X^\top y \]

Das wird, wie gesagt, etwas komplizierter, und ist auch mit dem Taschenrechner nicht mehr zu lösen. In einer Klausur wird das Berechnen der Parameter in einer multiplen Regression nicht abgefragt werden, weshalb ich die Details hier überspringe. Die Standardliteratur hilft hier aber weiter (ich empfehle die Springer-Bücher zur Regression oder Statistik).

Was aber durchaus Klausurstoff sein kann, ist die Interpretation der Parameter und die Vorhersage mit bereits gegebenen Parametern. Das schauen wir uns jetzt noch genauer an.

Interpretation der Parameter

Wie gesagt, die Berechnung bei der multiplen Regression ist zu kompliziert für Papier und Taschenrechner, daher lasse ich die Herleitung hier weg. Aber mit den Daten aus der obigen Tabelle erhalten wir per Computer gerundet die folgenden Parameter:

\(a=0.6\), \(b_1=0.28\), \(b_2=0.06\), und \(b_3=-0.02\).

Die Regressionsgerade sieht also so aus:

\[ y = 0.66 + 0.28 \cdot x_1 + 0.06 \cdot x_2 – 0.02 \cdot x_3 \]

Was bedeuten diese Parameter nun?

Der Wert \(b_1\), also 0.28, sagt aus, dass bei einer Person, die einen Zentimeter größer ist als eine andere, die Ringgröße im Durchschnitt um 0.28 größer ist. Da der Wert 0.28 größer als Null ist, sprechen wir hier von einem positiven Effekt: Eine größere Körpergröße führt zu einer größeren Ringgröße.

Andersherum ist es beim Alter. Der Wert von -0.02 sagt aus, dass eine Person, die ein Jahr älter ist, im Durchschnitt eine um 0.02 kleinere Ringgröße hat. Das ist ein negativer Effekt, denn der Wert \(b_3\) ist kleiner als Null.

Da wir bei einer Stichprobe aber immer mit zufälligen Daten arbeiten, ist der Parameter für quasi jede Einflussgröße nie exakt Null. Der Parameter für das Alter, die -0.02, sind z.B. so klein, dass sie eventuell schon zufällig auftreten. Die Vermutung liegt nahe, dass das Alter gar keinen Einfluss auf die Ringgröße hat (aber das Gewicht und die Körpergröße durchaus).

Um zu prüfen, ob eine Einflussgröße tatsächlich einen Einfluss hat, gibt statistische Software normalerweise einen \(p\)-Wert zusätzlich zu dem Parameterschätzer aus. Dieser \(p\)-Wert gehört zu der Hypothese, dass der jeweilige Effekt (z.B. vom Alter) gleich Null ist. Wenn der \(p\)-Wert klein genug ist (meist: kleiner als 0.05), dann geht man davon aus, dass die zugehörige Einflussgröße tatsächlich einen Effekt auf die Zielgröße hat, und man spricht von einem signifikanten Effekt.

In unserem Beispiel sind die \(p\)-Werte:
– Für \(b_1\) (Körpergröße): \(p=0.0000026\)
– Für \(b_2\) (Gewicht): \(p=0.00099\)
– Für \(b_3\) (Alter): \(p=0.112\)

Da nur die ersten beiden \(p\)-Werte kleiner als 0.05 sind, können wir hier schlußfolgern, dass sowohl die Körpergröße, als auch das Gewicht einen signifikanten Einfluss auf die Ringgröße haben, aber das Alter nicht.

(Das Berechnen der \(p\)-Werte ist wieder etwas komplizierter, und in einer Klausur wohl nicht gefragt werden, und wird daher hier übersprungen. Falls das jemand genauer wissen will, verweise ich wieder auf die Standardliteratur zur Regression.)

Vorhersage bei der multiplen linearen Regression

Bei der multiplen linearen Regression läuft die Vorhersage genauso ab wie bei der einfachen Regression, nur eben mit mehreren Einflussgrößen. Unsere Regressionsgleichung lautet:

\[ y = 0.66 + 0.28 \cdot x_1 + 0.06 \cdot x_2 – 0.02 \cdot x_3 \]

Das heißt, wenn unsere Freundin nun wie bisher 170cm groß ist, aber wir zusätzlich wissen, dass sie 68kg wiegt und 29 Jahre alt ist, dann können wir eine genauere Schätzung für die Ringgröße abgeben:

\[y = 0.66 + 0.28 \cdot 170 + 0.06 \cdot 68 – 0.02 \cdot 29 = 51.76 \]

Wir erwarten also in etwa eine Ringgröße von 51.76, und sollten daher einen Ring mit einer Größe kaufen, der so nah wie möglich daran liegt (also wahrscheinlich einen der Größe 52).

28 Gedanken zu „Multiple lineare Regression

  1. Susanne

    Klasse!
    Wenn ich alles richtig verstanden habe, sollte hier „Das heißt, dass nun zwei Zahlen unter dem stehen:“
    ==> „DREI Zahlen“ stehen?

    Antworten
    1. Alex

      Danke 🙂
      Nein, es sind schon zwei Zahlen. Die erste, i, ist 1, 2, 3, je nachdem ob du Körpergröße, Gewicht oder Alter betrachtest. Die zweite Zahl, j, sagt dir welche Person du gerade betrachtest.
      VG
      Alex

      Antworten
  2. Pingback: Regresion lineal multiple - Qué es la Regresión Lineal Multiple y cómo analizarla

  3. Julian

    Hallo,

    da das Alter nicht Signifikant ist, müsste die Gleichung doch so aussehen, oder?
    y=0.66+0.28⋅x1+0.06⋅x2

    Und wie formuliert man das Ergebnis richtig? Würde man sagen, dass dieses Model mit einer Irrtumswahrscheinlichkeit <1% gültig ist, da die p-Werte der Variablen <1 % sind?

    Wenn man nun 100 Stichproben machen würde und das Ergebnis rauskommt, dass bei 15 % der Stichproben die Ringgröße nicht nach dem Modell berechenbar ist, würde man die Gleichung dann verwerfen? Bzw. kann man die Stärke des Modells anhand eines Kriteriums ablesen, wie z.B. r²?

    Antworten
    1. Alex Beitragsautor

      Hi Julian

      es ist keine Regel, dass man nicht signifikante Variablen rauswerfen muss. In der Praxis wird das oft gemacht, aber man muss nicht. Die Variablen liefern meistens immernoch Information, die die Schätzung besser macht.

      Ein „gültiges“ Modell gibt es nicht, bzw. kann man das so nicht sagen. Man sagt, das Modell ist die beste Schätzung aufgrund der Stichprobe. Im Idealfall ist es sehr nah an einem unterstellten „wahren“ Modell dran.

      Das Modell verwerfen, kommt drauf an was deine Anforderungen an seine Genauigkeit sind. Die Schätzungen sind nie perfekt, aber immer besser als zu raten. Meistens ist das Modell sinnvoll genug, um es zu behalten. Die Stärke bzw. Güte liest man an Kriterien ab, die man sich auch wieder selbst aussucht, je nachdem was wichtig ist. R^2 kommt vor, oder der MSE (mittlere quadratische Abweichung) ist auch eine häufige Messgröße.

      Viele Grüße
      Alex

      Antworten
  4. Eva

    Hallo Alex,

    mir helfen die Artikel gerade auch sehr weiter!
    Allerdings ist mir noch nicht ganz klar, inwieweit die einzelnen Prädiktoren tatsächlich unabhängig voneinander sind…
    Angenommen ich habe als Kriterium die Häufigkeit von Kinobesuchen und nehme als Prädiktor die Häufigkeit von privatem DVD-Konsum. Kann ich dann parallel auch die Einstellung zu privatem DVD-Konsum als Prädiktor verwenden oder wäre das problematisch, weil Häufigkeit und Einstellung zu privatem DVD-Konsum bis zu einem gewissen Grad ja auch zusammen hängen?

    Antworten
    1. Alex Beitragsautor

      Hi Eva,
      das ist kein Problem – die Prädiktoren dürfen untereinander zusammenhängen.
      Es gibt lediglich ein mathematisches Problem wenn zwei Prädiktoren perfekt zusammenhängen, also mit einer Korrelation von 1,0.
      VG
      Alex

      Antworten
  5. Igor

    Hey, erstmal vielen DANK!!!! Sehr gut erklärt, gute Arbeit! Ich habe einfache Regression verstanden und versuche mehrfache Regression auch zuverstehen, ich möchte diese Methode für mein BWL Vortrag nehmen und dort Werte wie Werbung, Umsatz,… anwenden, nun wollte ich nachvollziehen wie du auf a,x1,x2,x3 kommst, soweit ich weiß muss man wie bei einfachen Regression Beispiel einfach x1 mit y machen und a und b zu bekommen, das gleiche mache ich eigentlich auch mit x2 und y sowie mit x3 und y, jedoch kriege ich irgendwie andere werte bei x1: b: 0,28, x2 b: 0,09 x3 b: 0,04 also andere Werte als du und bei a weiß ich nicht was damit gemeint ist, du hast gesagt es ist kompliziert es auszurechnen mit taschenrechner, ich mache das mit Exel, aber wie ist die Formel um diese Werte zu bekommen die du da oben hast?

    Mfg Igor

    Antworten
  6. Natalie

    Hallo Alex,

    wie funktioniert das denn wenn ich bei einer unabhängigen Variable mehrere Unterkategorien habe? Also beispielsweise habe ich als unabhängige Variable den Bildungsstand und als Unterkategorie niedrig, mittel, hoch – zu den Unterkategorien habe ich dann jeweils eine Prozentzahl verschiedener Länder. Geht das mit der multiplen Regression überhaupt?

    Antworten
    1. Alex Beitragsautor

      Hi Natalie,

      du müsstest die Variablen in einzelne Beobachtungen auftrennen, also für jede Person wissen, welchen Bildungsstand und welches Land sie hat. Dann kannst du sie einfach als zwei Variablen aufnehmen.

      Falls du nur eine Kreuztabelle hast, ohne eine andere Zielgröße, kannst du mit dieser Tabelle arbeiten, z.B. mit einem Chi-Quadrat-Test.

      Antworten
  7. Caroline

    Hi Alex,
    ich habe auch noch eine Frage zur multiplen Regression. In deinem Beispiel hast du kontinuierliche Einflussgrößen verwendet. Ist die multiple Regression auch mit kategorialen Einflussgrößen (sprich mit Kategorien) möglich, oder sogar mit kontinuierlichen und kategorialen gleichzeitig?
    Viele Grüße

    Antworten
    1. Alex Beitragsautor

      Natürlich 🙂

      Für eine Kategorie, die nur 0 oder 1 sein kann (z.B. das Geschlecht), gibt es einfach einen zusätzlichen Parameter, der z.B: -0.23 ist. Dann wird bei Männern (z.B. x=0) der Parameter nicht addiert, und bei Frauen (x=1) wird -0.23 drauf addiert.

      Falls es mehrere Kategorien gibt (z.B. Automarke), muss man einen Parameter pro möglicher Ausprägung hinzufügen. Da kannst du mal nach ‚Dummykodierung‘ suchen, so wird das gemacht.

      Antworten
  8. Julian

    Hi Alex,

    super erklärt. Ich hab dazu allerdings noch zwei Fragen. Ist die multiple lineare regression gegenüber der einfachen genauer? Also wenn ich bspw. das Verhältnis zwischen Ringgröße und Alter in einer einfachen linearen regression ausrechne, bekomme ich nämlich einen anderen P-wert als bei der multiplen linearen regression, bei der ich noch Körpergröße und Gewicht mit einbeziehe.
    Und ausserdem würde mich interessieren ob es eine Mindestanzahl an Beobachtungen braucht für eine regression? Also was wäre wenn wir bspw. nur 5 statt 10 Personen hätten?
    Viele Grüße

    Antworten
    1. Alex Beitragsautor

      In den meisten Fällen ist sie genauer, ja. Wenn man es mit den Kovariablen übertreibt, tritt aber ein Problem auf, das sich ‚Overfitting‘ nennt. Dazu kannst du vielleicht mal googlen.

      Bei weniger Beobachtungen werden die Ergebnisse sehr ungenau. Dann spielt der Zufall nämlich eine sehr große Rolle. Ich habe als Faustregel immer eine Mindestzahl von etwa 30 Beobachtungen im Kopf, aber das ist natürlich keine feste Regel.

      Antworten
  9. Linda

    Hallo Alex,

    wie bist du bei a auf 0,6 gekommen??
    irgendwie verstehe ich den Schritt nicht ganz.

    Liebe grüße
    Linda

    Antworten
    1. Alex Beitragsautor

      Hi Linda,
      die Berechnung bei der multiplen Regression geht mit dem Taschenrechner nicht mehr, das muss dann per Computer geschehen. Ich hab die Herleitung hier weggelassen, und bin direkt zur Interpretation des Ergebnis übergegangen.
      VG
      Alex

      Antworten
  10. Marvin

    Hallo, ich bin absoluter Statistik-Neuling!

    Ich wollte ursprünglich die Abhängigkeit der Produktivität vom Alter der Arbeitnehmer, in meinem Unternehmen, statistisch wiedergeben/aufzeigen (wie auch immer). Dafür wollte ich die lineare Regression nutzen. Nun würde ich gerne den Faktor Fehlzeitenquote zusätzlich miteinbeziehen.

    Geht das dann mit der multiplen linearen Regression?

    Viele Grüße
    Marvin

    Antworten
  11. ai

    Hi Alex, vielen Dank für deine Hilfe! Eine Frage habe ich noch, wenn die Einflussgröße Alter keinen signifikanten Einfluss auf die Zielgröße hat müsste/könnte sie nicht in der letzten Regressionsgleichung vernachlässigt werden?

    Antworten
    1. Alex Beitragsautor

      Rauslöschen würde ich sie nicht, da sie ja immer noch Information liefern könnte, die hilfreich zum Vorhersagen der Zielgröße ist. Es kommt auch ein bisschen drauf an was dein Ziel der Analyse ist. Wenn du eine möglichst gute Prognose willst, würde ich möglichst viele Variablen drinlassen. Wenn du ein möglichst sparsames Modell willst, d.h. mit wenigen Einflussgrößen, dann kann man ein paar Einflussgrößen wieder rauslöschen. Das nennt man dann ‚Variablenselektion‘ – zu dem Thema findest du online bestimmt noch einiges mehr.

      VG,

      Alex

      Antworten
  12. Julia

    Hallo Alex, könntest du mir bitte erklären wie du auf die folgenden Parameter gekommen bist ?! Also für die Werte 0.66 , 0.28 usw.
    Das wäre super lieb von dir :)… Und vielen Dank für deine tollen Darstellungen, du machst mir das Statistik lernen ungemein leichter als jemals ein Dozent davor… Lg

    Antworten
    1. Julia

      Vielen lieben Dank für deine schnelle Antwort…
      Ich habe gerade noch eine weitere Seite gefunden, die diesen Rechenweg komplett darstellt.. Es ist wirklich ein großer Aufwand das per Hand auszurechnen..
      Ich schreibe am Freitag meine Statistik III Prüfung und meine Dozentin verlangt von uns, das wir die multiple Regression per Hand rechnen sollen… Nun wird mir ein wenig schwindelig, wenn ich sehe welch einen Aufwand man dafür betreiben muss um zu diesen Parametern zu gelangen…
      Ich bedanke mich ganz herzlich bei dir, du erklärst das hier wunderbar und viel verständlicher als so manch anderer Dozent…
      Mach weiter so,
      Lg

      Antworten
  13. Meik

    Vorab einen riesigen Dank für deine Seite und die einfachen und verständlichen Beispiele! Ich versuche schon seit längerem ein Verständnis für den Bereich Regression zu entwickeln und war bislang gescheitert.
    Die multiple Regression habe ich versucht mit deinen Werten nachzuvollziehen und habe die Werte b1-b3 problemlos ermitteln können. Nur das a ist mir unverständlich. Ich erhalte immer den Wert 0,66299. Kann es sein, dass der Wert 0,44 nicht mehr korrekt angegeben ist?

    Antworten
    1. Alex Beitragsautor

      Hallo Meik, ich habe es gerade nochmal nachgerechnet. Ich komme auch bei 0.66299 raus. Keine Ahnung wie sich die 0,44 da eingeschlichen haben… aber ich habe den Artikel korrigiert. Vielen Dank für den Hinweis! 🙂
      VG
      Alex

      Antworten
  14. Bianca

    Vielen Dank für Deine tollen Erklärungen! Ich bringe mir damit seit ca. einem Monat selbst Statistik bei. Es ist alles sehr gut aufbereitet und hilfreich. Deine Erklärungen verstehe ich wesentlich besser als jene in den Büchern (z.B. Bortz&Schuster, 2010 etc.), die ich ebenfalls beim Üben verwende. Ich freue mich auf Deine weiteren Artikel und e-books.

    Antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.