Multiple lineare Regression

In den bisherigen Artikeln zur Regression ging es nur um die einfache lineare Regression. Hier schauen wir uns nun die multiple lineare Regression an.

Das Wort „multipel“ bedeutet, dass wir nun nicht mehr eine, sondern mehrere Einflussgrößen haben. Wichtig: es gibt mehrere Einflussgrößen. Die Anzahl der Zielgrößen verändert sich nicht, es ist immer noch nur eine Zielgröße.

Beispiel

Wir können uns das Beispiel aus den Artikeln zur einfachen linearen Regression ansehen, und es etwas weiterführen. Dort haben wir versucht, mit Hilfe der Regression die Ringgröße \(y\) einer Freundin zu schätzen, gegeben man kennt ihre Körpergröße \(x\).

Wenn dir jetzt allerdings sehr viel daran liegt, eine möglicht exakte Schätzung zu erhalten, um nicht mit einem unpassenden Ring vor ihr zu stehen, kannst du noch mehr Daten sammeln. Beispielsweise zusätzlich zur Körpergröße noch das Gewicht und das Alter von den 10 Frauen, die du befragst.

Die Daten würden nun also um zwei Variablen größer werden, und zum Beispiel so aussehen:

Person \(i\) 1 2 3 4 5 6 7 8 9 10
Körpergröße \(x_1\) 156.3 158.9 160.8 179.6 156.6 165.1 165.9 156.7 167.8 160.8
Körpergewicht \(x_2\) 62 52 83 69 74 52 77 65 79 51
Alter \(x_3\) 24 34 26 51 43 33 22 21 19 34
Ringgröße \(y\) 47.1 46.8 49.3 53.2 47.7 49.0 50.6 47.1 51.7 47.8

Wir haben jetzt nicht mehr eine Einflussgröße \(x\), sondern drei Stück: \(x_1\), \(x_2\), und \(x_3\). Und jede dieser Einflussgrößen hat eine Ausprägung pro Person \(i\). Das heißt, dass nun zwei Zahlen unter dem \(x\) stehen: Eine für die Einflussgröße und eine für die Person. Zum Beispiel ist das Körpergewicht der vierten Person \(x_{2,4} = 69kg\).

Dadurch, dass man jetzt mehr Daten verfügbar hat, kann man eine genauere Schätzung bekommen. Die Regressionsgleichung würde jetzt lauten:

\[ y = a + b_1 x_1 + b_2 x_2 + b_3 x_3 \]

Mit der multiplen Regression kann ich nun Werte für die Parameter \(a\), \(b_1\), \(b_2\), und \(b_3\) erhalten, und mit Hilfe derer kann ich nun wieder eine Vorhersage treffen.

Anmerkung: Genauso wie in der einfachen linearen Regression können die Parameter in anderen Büchern/Skripten anders benannt sein (z.B. \(\beta_0\), \(\beta_1\) usw.). Sie bedeuten aber genau dasselbe.

Schätzung der Parameter

Die Parameterschätzung ist etwas aufwändiger, und von Hand praktisch nicht mehr durchführbar. Grob gesagt werden die drei Einflussgrößen \(x_1\), \(x_2\) und \(x_3\), die man ja als Vektoren ansehen kann, spaltenweise in eine Matrix \(X\) zusammengefasst. Mit Hilfe dieser Matrix und dem Vektor aller Zielgrößen \(y\) kann man dann den Vektor der Parameter (nennen wir ihn mal \(b\)) schätzen:

\[ b = (X^\top X)^{-1} X^\top y \]

Das wird, wie gesagt, etwas komplizierter, und ist auch mit dem Taschenrechner nicht mehr zu lösen. In einer Klausur wird das Berechnen der Parameter in einer multiplen Regression nicht abgefragt werden, weshalb ich die Details hier überspringe. Die Standardliteratur hilft hier aber weiter (ich empfehle die Springer-Bücher zur Regression oder Statistik).

Was aber durchaus Klausurstoff sein kann, ist die Interpretation der Parameter und die Vorhersage mit bereits gegebenen Parametern. Das schauen wir uns jetzt noch genauer an.

Interpretation der Parameter

Wie gesagt, die Berechnung bei der multiplen Regression ist zu kompliziert für Papier und Taschenrechner, daher lasse ich die Herleitung hier weg. Aber mit den Daten aus der obigen Tabelle erhalten wir per Computer gerundet die folgenden Parameter:

\(a=0.6\), \(b_1=0.28\), \(b_2=0.06\), und \(b_3=-0.02\).

Die Regressionsgerade sieht also so aus:

\[ y = 0.66 + 0.28 \cdot x_1 + 0.06 \cdot x_2 – 0.02 \cdot x_3 \]

Was bedeuten diese Parameter nun?

Der Wert \(b_1\), also 0.28, sagt aus, dass bei einer Person, die einen Zentimeter größer ist als eine andere, die Ringgröße im Durchschnitt um 0.28 größer ist. Da der Wert 0.28 größer als Null ist, sprechen wir hier von einem positiven Effekt: Eine größere Körpergröße führt zu einer größeren Ringgröße.

Andersherum ist es beim Alter. Der Wert von -0.02 sagt aus, dass eine Person, die ein Jahr älter ist, im Durchschnitt eine um 0.02 kleinere Ringgröße hat. Das ist ein negativer Effekt, denn der Wert \(b_3\) ist kleiner als Null.

Da wir bei einer Stichprobe aber immer mit zufälligen Daten arbeiten, ist der Parameter für quasi jede Einflussgröße nie exakt Null. Der Parameter für das Alter, die -0.02, sind z.B. so klein, dass sie eventuell schon zufällig auftreten. Die Vermutung liegt nahe, dass das Alter gar keinen Einfluss auf die Ringgröße hat (aber das Gewicht und die Körpergröße durchaus).

Um zu prüfen, ob eine Einflussgröße tatsächlich einen Einfluss hat, gibt statistische Software normalerweise einen \(p\)-Wert zusätzlich zu dem Parameterschätzer aus. Dieser \(p\)-Wert gehört zu der Hypothese, dass der jeweilige Effekt (z.B. vom Alter) gleich Null ist. Wenn der \(p\)-Wert klein genug ist (meist: kleiner als 0.05), dann geht man davon aus, dass die zugehörige Einflussgröße tatsächlich einen Effekt auf die Zielgröße hat, und man spricht von einem signifikanten Effekt.

In unserem Beispiel sind die \(p\)-Werte:
– Für \(b_1\) (Körpergröße): \(p=0.0000026\)
– Für \(b_2\) (Gewicht): \(p=0.00099\)
– Für \(b_3\) (Alter): \(p=0.112\)

Da nur die ersten beiden \(p\)-Werte kleiner als 0.05 sind, können wir hier schlußfolgern, dass sowohl die Körpergröße, als auch das Gewicht einen signifikanten Einfluss auf die Ringgröße haben, aber das Alter nicht.

(Das Berechnen der \(p\)-Werte ist wieder etwas komplizierter, und in einer Klausur wohl nicht gefragt werden, und wird daher hier übersprungen. Falls das jemand genauer wissen will, verweise ich wieder auf die Standardliteratur zur Regression.)

Vorhersage bei der multiplen linearen Regression

Bei der multiplen linearen Regression läuft die Vorhersage genauso ab wie bei der einfachen Regression, nur eben mit mehreren Einflussgrößen. Unsere Regressionsgleichung lautet:

\[ y = 0.66 + 0.28 \cdot x_1 + 0.06 \cdot x_2 – 0.02 \cdot x_3 \]

Das heißt, wenn unsere Freundin nun wie bisher 170cm groß ist, aber wir zusätzlich wissen, dass sie 68kg wiegt und 29 Jahre alt ist, dann können wir eine genauere Schätzung für die Ringgröße abgeben:

\[y = 0.66 + 0.28 \cdot 170 + 0.06 \cdot 68 – 0.02 \cdot 29 = 51.76 \]

Wir erwarten also in etwa eine Ringgröße von 51.76, und sollten daher einen Ring mit einer Größe kaufen, der so nah wie möglich daran liegt (also wahrscheinlich einen der Größe 52).

18 Gedanken zu „Multiple lineare Regression

  1. Caroline

    Hi Alex,
    ich habe auch noch eine Frage zur multiplen Regression. In deinem Beispiel hast du kontinuierliche Einflussgrößen verwendet. Ist die multiple Regression auch mit kategorialen Einflussgrößen (sprich mit Kategorien) möglich, oder sogar mit kontinuierlichen und kategorialen gleichzeitig?
    Viele Grüße

    Antworten
    1. AlexAlex Beitragsautor

      Natürlich 🙂

      Für eine Kategorie, die nur 0 oder 1 sein kann (z.B. das Geschlecht), gibt es einfach einen zusätzlichen Parameter, der z.B: -0.23 ist. Dann wird bei Männern (z.B. x=0) der Parameter nicht addiert, und bei Frauen (x=1) wird -0.23 drauf addiert.

      Falls es mehrere Kategorien gibt (z.B. Automarke), muss man einen Parameter pro möglicher Ausprägung hinzufügen. Da kannst du mal nach ‚Dummykodierung‘ suchen, so wird das gemacht.

      Antworten
  2. Julian

    Hi Alex,

    super erklärt. Ich hab dazu allerdings noch zwei Fragen. Ist die multiple lineare regression gegenüber der einfachen genauer? Also wenn ich bspw. das Verhältnis zwischen Ringgröße und Alter in einer einfachen linearen regression ausrechne, bekomme ich nämlich einen anderen P-wert als bei der multiplen linearen regression, bei der ich noch Körpergröße und Gewicht mit einbeziehe.
    Und ausserdem würde mich interessieren ob es eine Mindestanzahl an Beobachtungen braucht für eine regression? Also was wäre wenn wir bspw. nur 5 statt 10 Personen hätten?
    Viele Grüße

    Antworten
    1. AlexAlex Beitragsautor

      In den meisten Fällen ist sie genauer, ja. Wenn man es mit den Kovariablen übertreibt, tritt aber ein Problem auf, das sich ‚Overfitting‘ nennt. Dazu kannst du vielleicht mal googlen.

      Bei weniger Beobachtungen werden die Ergebnisse sehr ungenau. Dann spielt der Zufall nämlich eine sehr große Rolle. Ich habe als Faustregel immer eine Mindestzahl von etwa 30 Beobachtungen im Kopf, aber das ist natürlich keine feste Regel.

      Antworten
  3. Linda

    Hallo Alex,

    wie bist du bei a auf 0,6 gekommen??
    irgendwie verstehe ich den Schritt nicht ganz.

    Liebe grüße
    Linda

    Antworten
    1. AlexAlex Beitragsautor

      Hi Linda,
      die Berechnung bei der multiplen Regression geht mit dem Taschenrechner nicht mehr, das muss dann per Computer geschehen. Ich hab die Herleitung hier weggelassen, und bin direkt zur Interpretation des Ergebnis übergegangen.
      VG
      Alex

      Antworten
  4. Marvin

    Hallo, ich bin absoluter Statistik-Neuling!

    Ich wollte ursprünglich die Abhängigkeit der Produktivität vom Alter der Arbeitnehmer, in meinem Unternehmen, statistisch wiedergeben/aufzeigen (wie auch immer). Dafür wollte ich die lineare Regression nutzen. Nun würde ich gerne den Faktor Fehlzeitenquote zusätzlich miteinbeziehen.

    Geht das dann mit der multiplen linearen Regression?

    Viele Grüße
    Marvin

    Antworten
  5. ai

    Hi Alex, vielen Dank für deine Hilfe! Eine Frage habe ich noch, wenn die Einflussgröße Alter keinen signifikanten Einfluss auf die Zielgröße hat müsste/könnte sie nicht in der letzten Regressionsgleichung vernachlässigt werden?

    Antworten
    1. AlexAlex Beitragsautor

      Rauslöschen würde ich sie nicht, da sie ja immer noch Information liefern könnte, die hilfreich zum Vorhersagen der Zielgröße ist. Es kommt auch ein bisschen drauf an was dein Ziel der Analyse ist. Wenn du eine möglichst gute Prognose willst, würde ich möglichst viele Variablen drinlassen. Wenn du ein möglichst sparsames Modell willst, d.h. mit wenigen Einflussgrößen, dann kann man ein paar Einflussgrößen wieder rauslöschen. Das nennt man dann ‚Variablenselektion‘ – zu dem Thema findest du online bestimmt noch einiges mehr.

      VG,

      Alex

      Antworten
  6. Julia

    Hallo Alex, könntest du mir bitte erklären wie du auf die folgenden Parameter gekommen bist ?! Also für die Werte 0.66 , 0.28 usw.
    Das wäre super lieb von dir :)… Und vielen Dank für deine tollen Darstellungen, du machst mir das Statistik lernen ungemein leichter als jemals ein Dozent davor… Lg

    Antworten
    1. Julia

      Vielen lieben Dank für deine schnelle Antwort…
      Ich habe gerade noch eine weitere Seite gefunden, die diesen Rechenweg komplett darstellt.. Es ist wirklich ein großer Aufwand das per Hand auszurechnen..
      Ich schreibe am Freitag meine Statistik III Prüfung und meine Dozentin verlangt von uns, das wir die multiple Regression per Hand rechnen sollen… Nun wird mir ein wenig schwindelig, wenn ich sehe welch einen Aufwand man dafür betreiben muss um zu diesen Parametern zu gelangen…
      Ich bedanke mich ganz herzlich bei dir, du erklärst das hier wunderbar und viel verständlicher als so manch anderer Dozent…
      Mach weiter so,
      Lg

      Antworten
  7. Meik

    Vorab einen riesigen Dank für deine Seite und die einfachen und verständlichen Beispiele! Ich versuche schon seit längerem ein Verständnis für den Bereich Regression zu entwickeln und war bislang gescheitert.
    Die multiple Regression habe ich versucht mit deinen Werten nachzuvollziehen und habe die Werte b1-b3 problemlos ermitteln können. Nur das a ist mir unverständlich. Ich erhalte immer den Wert 0,66299. Kann es sein, dass der Wert 0,44 nicht mehr korrekt angegeben ist?

    Antworten
    1. AlexAlex Beitragsautor

      Hallo Meik, ich habe es gerade nochmal nachgerechnet. Ich komme auch bei 0.66299 raus. Keine Ahnung wie sich die 0,44 da eingeschlichen haben… aber ich habe den Artikel korrigiert. Vielen Dank für den Hinweis! 🙂
      VG
      Alex

      Antworten
  8. Bianca

    Vielen Dank für Deine tollen Erklärungen! Ich bringe mir damit seit ca. einem Monat selbst Statistik bei. Es ist alles sehr gut aufbereitet und hilfreich. Deine Erklärungen verstehe ich wesentlich besser als jene in den Büchern (z.B. Bortz&Schuster, 2010 etc.), die ich ebenfalls beim Üben verwende. Ich freue mich auf Deine weiteren Artikel und e-books.

    Antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.