Inhaltsverzeichnis
1 Ziel der multiplen linearen Regression
Eine multiple lineare Regressionsanalyse hat das Ziel eine abhängige Variable (y) mittels mehrerer unabhängigen Variablen (x) zu erklären. Es ist ein quantitatives Verfahren, das zur Prognose der abhängigen Variable dient.
Die multiple lineare Regression testet auf Zusammenhänge zwischen mehreren x-Variablen und einer y-Variablen. Für nur eine x-Variable wird die einfach lineare Regression verwendet (SPSS und Excel).
Im Vorfeld der Regressionsanalyse kann zudem eine Filterung vorgenommen werden, um nur einen gewissen Teil der Stichprobe zu untersuchen, bei dem man am ehesten einen Effekt erwartet.
2 Voraussetzungen der multiplen linearen Regression
Die wichtigsten Voraussetzungen sind (ausführliche Erklärungen hier):
- linearer Zusammenhang zwischen x-Variablen und y-Variable – wird streng genommen ja mit der Regression ersichtlich, ob das der Fall ist oder nicht – zur Not eine Korrelation.
- metrisch skalierte y-Variable
- normalverteilte Fehlerterme
- Skalenbildung für latente Konstrukte, im Vorfeld evtl. Rekodierung von Items und Reliabilitätsprüfung
- Homoskedastizität – homogen streuende Varianzen des Fehlerterms (grafische Prüfung oder analytische Prüfung)
- Unabhängigkeit der Fehlerterme – keine Autokorrelation bei sortierten Daten, i.d.R. nicht gegeben (Vorsicht bei Durbin-Watson-Test!)
- keine Multikollinearität – übermäßige Korrelation der unabhängigen Variablen miteinander
- Optional: fehlende Werte definieren, fehlende Werte identifizieren und fehlende Werte ersetzen
- Kontrolle für einflussreiche Fälle bzw. „Ausreißer“
3 Durchführung der multiplen linearen Regression in R
Nach dem Einlesen der Daten ist das Modell zu definieren – angelehnt an die Hypothesen. In meinem Beispiel versuche ich den Abiturschnitt durch den Intelligenzquotient (IQ) und die Motivation zu erklären. Demzufolge ist die abhängige (y-)Variable der Abiturschnitt und die unabhängigen (x-)Variablen der IQ und die Motivation. Die Installation zusätzlicher Pakete ist für diese Rechnung nicht nötig.
Zur multiplen linearen Regression verwendet man in R die lm()-Funktion. lm steht hierbei für linear model. Ich definiere mir ein Modell mit dem Namen „modell“. Hierin soll Abiturschnitt erklärt werden und wird an den Anfang in der Klammer gestellt, gefolgt von ~ und den erklärenden Variablen IQ und Motivation. Die Daten kommen aus dem Dataframe „df“, weshalb ich das „data=„-Argument am Ende noch angefügt habe. Mit der summary()-Funktion lasse ich mir die Ergebnisse der Berechnung von „modell“ ausgeben.
modell <- lm(Abischni~IQ+Motivation, data = df)
summary(modell)
Die Ausgabe ist im nächsten Schritt zu interpretieren.
4 Interpretation der Ergebnisse der mutliplen linearen Regression in R
Call:
lm(formula = Abischni ~ IQ + Motivation, data = data_xls)
Residuals:
Min 1Q Median 3Q Max
-0.53369 -0.17813 -0.03236 0.17889 0.76044
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.558010 0.397176 19.029 < 2e-16 ***
IQ -0.039215 0.004477 -8.759 1.61e-11 ***
Motivation -0.139323 0.024350 -5.722 6.66e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2801 on 48 degrees of freedom
Multiple R-squared: 0.8973, Adjusted R-squared: 0.893
F-statistic: 209.7 on 2 and 48 DF, p-value: < 2.2e-16
4.1 F-Test - Erklärungsbeitrag des Modells
F-statistic: 209.7 on 2 and 48 DF, p-value: < 2.2e-16
Man beginnt ganz unten bei der F-Statistik. Schreibweise: F(2,48) = 209.7; p < .001. Die Signifikanz (p-Wert) sollte einen möglichst kleinen Wert (<0.05) haben. Wenn dem so ist, leistet das Regressionsmodell einen Erklärungsbeitrag, da die Nullhypothese des F-Tests von keinem Erklärungsbeitrag ausgeht.
Der p-Wert ist im Beispiel mit 2.2e-16 sehr klein. Das Komma wird nämlich um 16 Stellen nach links verschoben. Der p-Wert ist im Beispiel deutlich unter 0.05. Das Modell leistet in diesem Falle einen "signifikanten" Erklärungsbeitrag und es kann mit der Interpretation der weiteren Ergebnisse fortgefahren werden.
Die Zahlen 2 und 48 sind die zu berichtendenen Freiheitsgrade des F-Tests. Die 2 ist die Anzahl der Freiheitsgrade, die durch das Modell selbst verbraucht wird: die im Modell befindlichen (hier: zwei) Prädiktoren (x-Variablen). Die Regression selbst verbraucht auch noch einen Freiheitsgrad bei der Berechnung. Werden diese drei verbrauchten Freiheitsgrade von der Anzahl der Beobachtungen abgezogen (hier: n = 51), landet man bei der zweiten Zahl, den übrigen 48 Freiheitsgraden.
Achtung: Ist die Signifikanz nicht hinreichend klein (zumeist über 0.05), leistet das Regressionsmodell keinen Erklärungsbeitrag und das Verfahren bzw. die weitere Interpretation ist an dieser Stelle abzubrechen.
4.2 Güte des Regressionsmodells
Multiple R-squared: 0.8973, Adjusted R-squared: 0.893
Die Güte des Modells der gerechneten Regression wird anhand des Bestimmtheitsmaßes R-Quadrat (R²) abgelesen. Das R² (Multiple R-Squared) ist standardmäßig zwischen 0 und 1 definiert. R² gibt an, wie viel Prozent der Varianz der abhängigen Variable (hier: Gewicht) erklärt werden. Ein höherer Wert ist hierbei besser.
Im Beispiel erklärt das Modell 89,73% der Varianz, da das (Multiple R-squared) R² = 0.8973 ist. Das korrigierte R² (Adjusted R-squared) adjustiert für eine automatische und ungewollte Zunahme des R² bei einer höheren Anzahl von Prädiktoren. Es ist zusätzlich zum normalen R² zu berichten und ist auch stets kleiner als jenes. Es wird allerdings nicht weiter interpretiert.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.558010 0.397176 19.029 < 2e-16 ***
IQ -0.039215 0.004477 -8.759 1.61e-11 ***
Motivation -0.139323 0.024350 -5.722 6.66e-07 ***
4.3 Signifikanz und Größe der Koeffizienten
Der Regressionskoeffizient (hier: Größe) sollte einen hinreichend kleinen p-Wert haben(p 0.05). Warum? Damit die Nullhypothese nicht fälschlicherweise abgelehnt wird. Die Signifikanz der beiden unabhängigen Variablen (IQ und Motivation) ist mit 1,61e-11 und 6,66e-07 deutlich unter 0.05 und somit haben beide in der Stichprobe einen beobachtbaren Einfluss auf den Abiturschnitt.
Unter "Estimate" ist der interpretierbare Effekt der jeweiligen Koeffizienten zu sehen. Es ist der nicht standardisierte Koeffizient. Im Regressionsmodell steht zunächst in der ersten Zeile der (Intercept). Das ist die sog. Konstante. Deren Signifikanz ist für den Fortgang der Untersuchung nicht relevant. Hier ist nur der Estimate interessant. Und eigentlich ist er auch nur dann interessant, wenn eine Prognose (siehe Abschnitt 5) durchgeführt werden soll.
In der zweiten Zeile steht der Estimate für den IQ. Das ist der Teil des Abiturschnitts, um den sich die abhängige Variable ändert, wenn die unabhängige Variable um 1 steigt - immer! Konkret im Beispiel ist es -0.039215. Das heißt, dass bei einer Steigerung des IQs um eine Einheit der Abiturschnitt um 0.039215 fällt. Ein fallender Abiturschnitt steht natürlich für einen besseren Abiturschnitt.
Das ist auch plausibel, das bei steigender Intelligenz der Abiturschnitt besser wird. Generell gilt: Positive Koeffizienten haben einen positiven Einfluss auf die y-Variable und negative Koeffizienten einen negativen Einfluss.
Analog kann man die Motivation und deren Koeffizient betrachten. Der Koeffizient ist -0.139323 und auch hier ist eine Zunahme der Variable Motivation um eine Einheit für eine Senkung um 0.139323 und damit Verbesserung des Abiturschnitts verantwortlich.
4.4 Vergleich der Koeffizienten
Eine noch zu klärende Frage ist, welche der unabhängigen Variablen einen größeren Einfluss auf die abhängige Variable ausübt. Besonders da der IQ 130 und mehr im Datensatz erreicht, die Motivation aber nur im Bereich von 1-10 liegt, kann hier keine pauschale Aussage auf Basis lediglich der nicht standardisierten Koeffizienten getroffen werden.
Hierzu bedarf es der standardisierten Koeffizienten. Diese werden im Rahmen der lm()-Funktion allerdings nicht mit ausgegeben. Man kann sie erhalten, indem man im Vorfeld alle in der Regression verwendeten unabhängigen und die abhängige Variable z-standardisiert.
Eine z-Standardisierung wird in R mittels der scale()-Funktion durchgeführt. Die Variablen werden also in der lm()-Funktion noch mit scale()- z-standardisiert. Das sieht dann wie folgt aus:
modell <- lm(scale(Abischni)~scale(IQ)+scale(Motivation), data = df)
Hieraus ergibt sich folgender Output:
Call:
lm(formula = ZAbischni ~ ZIQ + ZMotivation, data = data_xls)
Residuals:
Min 1Q Median 3Q Max
-0.62317 -0.20800 -0.03779 0.20889 0.88794
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.584e-16 4.580e-02 0.000 1
ZIQ -6.109e-01 6.974e-02 -8.759 1.61e-11 ***
ZMotivation -3.990e-01 6.974e-02 -5.722 6.66e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.3271 on 48 degrees of freedom
Multiple R-squared: 0.8973, Adjusted R-squared: 0.893
F-statistic: 209.7 on 2 and 48 DF, p-value: < 2.2e-16
Am Modell und sämtlichen Ergebnisgrößen ändert sich nichts. Nur die Estimates der unabhängigen Variablen ändern sich bei dieser Berechnung. Hier ist erkennbar, dass der IQ einen betragsmäßig größeren Einfluss hat (|-6,109e-01|) als die Motivation (|-3,99e-01|). Er ist nicht ganz doppelt so groß, aber geht tendenziell in diese Richtung.
5 Prognose anhand der Regressionsergebnisse
Die Regressionsgleichung auf Basis der nicht standardisierten Koeffizienten lautet für das Beispiel:
Abiturschnitt = Konstante + Koeffizient des IQ * IQ + Koeffizient der Motivation * Motivation
Zur Erinnerung die Koeffizienten:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.558010 0.397176 19.029 < 2e-16 ***
IQ -0.039215 0.004477 -8.759 1.61e-11 ***
Motivation -0.139323 0.024350 -5.722 6.66e-07 ***
Abiturschnitt = 7,558010 + (-0.039215 * IQ) + (-0.139323 * Motivation)
Abiturschnitt = 7,558010 + (-0.039215 * 120) + (-0.139323 * 7) = 1.876949
Setzt man z. B. 120 als IQ und 7 als Motivation in diese Gleichung ein, erhält man auf Basis des Modells eine geschätzten Abiturschnitt von 1,876949.
6 Datensatz zum Download
Hinweise zum Einlesen.
7 Videotutorials
8 Berichten der Ergebnisse
Der R-Output bietet alles für das Berichten der Ergebnisse der multiplen linearen Regressionsanalyse. Zunächst wird der F-Test berichtet, dazu die Modellgüte und schließlich die (interessierenden) Koeffizienten.
Beispiel: Die F-Statistik zeigt mit F (2,48) = 209.7, p < .001 einen hinreichenden Erklärungsbeitrag des Regressionsmodells. Die Modellgüte beträgt R² = .897 (adjustiertes R² = .893). IQ zeigt sich als Prädiktor für den Abiturschnitt mit b = -0.039, p < .001. Ebenso zeigt sich Motivation mit b = -0.139, p < .001 als Prädiktor für den Abiturschnitt. Den stärkeren Einfluss auf den Abiturschnitt übt IQ aus (ß = -0.611; Motivation: ß = -0.399).
9 Literatur
- Field, A. (2012), Discovering Statistics Using R, SAGE, Kapitel 7.
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An introduction to statistical learning (Vol. 112, p. 18). New York: springer., Kapitel 3.
- Walther, B. (2022). Statistik mit R Schnelleinstieg: R einfach lernen in 14 Tagen. MITP-Verlags GmbH & Co. KG., Kap. 14.1, S. 259-276.


