1 Ziel der multiplen linearen Regression
Eine multiple lineare Regressionsanalyse hat das Ziel, eine abhängige Variable (y) mittels mindestens zweier unabhängiger Variablen (x) zu erklären. Sie testet auf lineare Zusammenhänge zwischen x und y-Variablen. Für nur eine x-Variable wird die einfache lineare Regression verwendet. Für SPSS gibt es diesen Artikel und für R diesen Artikel.
2 Multiple lineare Regression – die Voraussetzungen
Die wichtigsten Voraussetzungen sind:
- linearer Zusammenhang zwischen x und y-Variablen
- metrisch skalierte y-Variable (mitunter ist auch ordinal vertretbar – da gibt es große Diskussionen zu, siehe unten :-D)
- keine Multikollinearität – Korrelation der x-Variablen sollte nicht zu hoch sein
- normalverteilte Fehlerterme – Achtung beim analytischen Testen mit Kolmogorov-Smirnov und Shapiro-Wilk-Test
- Homoskedastizität – homogen streuende Varianzen des Fehlerterms
- keine Autokorrelation, im Falle von Daten mit fester, z.B. zeitlicher Reihenfolge – nur in Ausnahmefällen zutreffend und zu prüfen
3 Multiple lineare Regression in Excel – die Durchführung
Über das Menü in Daten > Datenanalyse > Regression
Hinweis: Sollte die Funktion „Datenanalyse“ nicht vorhanden sein, ist diese über „Datei“ > „Optionen“ > „Add-Ins“ > „Verwalten“ > „Los…“ zu aktivieren.
Dieses Video zeigt dies kurz.
- Als Y-Eingabebereich muss man die Spalte auswählen, die die y-Variable (im Beispiel: Sportnote) enthält. In meinem Fall ist das die Spalte F mit den Zeilen 1-39.
- Für den X-Eingabebereich ist entsprechend die Spalte mit der x-Variable (im Beispiel: Gewicht und Größe) auszuwählen. In meiner Datei sind das die Spalten C und D mit jeweils den Zeilen 1-39.
- Solltet ihr einen beschrifteten Spaltenkopf haben, muss ein Haken bei „Beschriftungen“ gesetzt werden. Das dient Excel dazu zu erkennen, dass die erste Zeile nicht mit Daten gefüllt ist, sondern eine Bezeichnung beinhaltet.
- Das Konfidenzniveau sollte 95% sein. Das bedeutet, dass 95% aller auf Basis der Stichprobe berechneten Konfidenzintervalle den wahren Wert der Grundgesamtheit enthalten.
- Als Nächstes wählt ihr noch einen beliebigen Ausgabebereich. Dieser kann im selben Blatt sein, ein neues Tabellenblatt oder eine neue Arbeitsmappe sein.
- Schließlich empfehle ich noch das Ausgeben der Residuen, um die jene auf Normalverteilung zu prüfen, siehe das verlinkte Video in Abschnitt 7.
4 Multiple lineare Regression in Excel – Interpretation der Ergebnisse
Im Anschluss an die Durchführung solltet ihr vier Tabellen in Excel erhalten. Die Regressions-Statistik (4.1), die ANOVA-Tabelle (4.2), die Koeffizienten-Tabelle (4.3) und die Residuentabelle (siehe Video in 7).
4.1 Regressions-Statistik
- Die Modellgüte der gerechneten multiplen linearen Regression wird mittels des Bestimmtheitsmaßes R-Quadrat (R²) abgelesen. Das R² ist im Intervall zwischen 0 und 1 definiert. Es gibt an, wie viel Prozent der Varianz der abhängigen (y-)Variable erklärt werden. Ein höherer Wert ist hierbei besser. Im Beispiel werden bei einem R² von z.B. 0,608 werden 60,08% der Varianz der y-Variable erklärt.
- Der multiple Korrelationskoeffizient gibt die Korrelation zwischen x- und y-Variable an und ist die Wurzel aus dem Bestimmtheitsmaß.
- Das adjustierte Bestimmtheitsmaß kontrolliert für die Hinzunahme weiterer x-Variablen, da R² bei einer zunehmenden Anzahl an x-Variablen automatisch steigt. Es wird daher auch oft als korrigiertes R² bezeichnet und ist bereinigt um diesen Effekt.
4.2 ANOVA-Tabelle
- Die ANOVA-Tabelle dient dazu zu prüfen, ob Regressionsmodell einen statistisch signifikanten Erklärungsbeitrag leistet. Die Beschriftung von Excel ist hier etwas unglücklich, denn „F Krit“ ist der p-Wert des F-Tests.
- Der p-Wert ist des F-Tests ist 7,62E-08 bzw. 0,0000000762.
- Der F-Test geht in seiner Nullhypothese davon aus, dass das formulierte und somit getestete Modell NICHT besser ist als ein Modell ohne x-Variablen.
- Der p-Wert ist sehr klein und liegt damit deutlich unter den typischen Verwerfungsgrenzen von 0,05 oder 0,01.
- Somit wird die Nullhypothese verworfen und es kann geschlossen werden: das Regressionsmodell leistet einen statistischen Erklärungsbeitrag. Ist dies nicht der Fall, also der p-Wert > 0,05, muss die Analyse an dieser Stelle abgebrochen werden.
4.3 Koeffiziententabelle
- Diese Tabelle zeigt alle (hier: zwei) Koeffizienten, die in die Analyse einbezogen wurden.
- Der Schnittpunkt ist die Konstante bzw. der Achsenabschnitt. Er ist nicht weiter wichtig in der Analyse an sich.
- Die Regressionskoeffizienten Größe und Gewicht zeigen jeweils einen sehr kleinen p-Wert, welche unter den typischen Verwerfungsgrenzen von 0,05 bzw. 0,01 liegen.
- Das Vorzeichen des Koeffizienten von Größe ist negativ (-0,127). Das bedeutet, dass eine Zunahme der Größe um eine Einheit zu einer Abnahme der abhängigen Variable (Sportnote) um 0,127 Einheiten führt.
- Das Vorzeichen des Koeffizienten von Gewicht ist positiv und hat demnach einen positiven Einfluss auf die y-Variable. Hier ist der Koeffizient 0,11. Das bedeutet, dass eine Zunahme des Gewichtes um 1 Einheit (kg) zu einer Erhöhung der abhängigen Variable (Sportnote) um 0,11 führt.
- In diesem konstruierten recht einfachen Beispiel führt also Gewicht zu einer Zunahme (Verschlechterung) und Größe zu einer Abnahme (Verbesserung) der abhängigen Variable (Sportnote).
5 Prognose mittels Regressionsgleichung
Auf Basis der Stichprobe wird die folgende Gleichung geschätzt:
Setzt man nun eine Größe von z.B. 175 cm und 68 kg in die Formel ein, erhält man:
Ein 175 cm großer und 68kg schwerer Proband würde demnach eine Sportnote von 2,531 erhalten.
HINWEISE:
- Die Residuentabelle ist auf Normalverteilung zu prüfen. Dies zeige ich im unten verlinkten Videotutorial.
- Die Diskussion zur Ordinalskalierung der abhängigen Variablen wird an dieser Stelle nicht geführt. Hier ist ein weiterführender Artikel von Norman (2010) dazu, der diese Anforderung relativiert.
6 Berichten der Ergebnisse
Beim Berichten der Regressionsergebnisse gibt es bei wenigen x-Variablen wie im Beispiel keine Notwendigkeit, eine Tabelle zu erstellen.
- Man berichtet den Regressionskoeffizienten und die Signifikanz der unabhängigen Variablen (aus 4.3)
- sowie die Modellgüte, also Bestimmtheitsmaß R² (aus 4.1) und
- F-Test mitsamt Freiheitsgraden (df für Regression und Residuen aus 4.2).
7 Videotutorials
https://www.youtube.com/watch?v=Lz8mVQMlTYc
https://www.youtube.com/watch?v=-GJ4UP2gLKk
https://www.youtube.com/watch?v=eN5q9v-g7lo
