Multiple lineare Regression in SPSS rechnen und interpretieren

von | Apr 4, 2022 | Regressionsanalyse, SPSS

1 Ziel der multiplen linearen Regression

Eine multiple lineare Regression einfach erklärt: sie hat das Ziel eine abhängige Variable (y) mittels mehrerer unabhängiger Variablen (x) zu erklären. Es ist ein quantitatives Verfahren, das zur Prognose einer Variable dient, wie das Beispiel in diesem Artikel zeigt.

Die multiple Regression testet auf Zusammenhänge zwischen x und y. Bei lediglich einer x-Variable wird die einfache lineare Regression gerechnet. Für Excel gibt es diesen Artikel. Im Vorfeld der Regressionsanalyse kann zudem eine Filterung vorgenommen werden, um nur einen gewissen Teil der Stichprobe zu untersuchen, bei dem man am ehesten einen Effekt erwartet. Habt ihr eine Moderation bzw. einen Interkationseffekt, ist dies gesondert zu modellieren. Im Artikel Regression mit binären Variablen zeige ich das Rechnen und die Interpretation von binären unabhängigen Variablen bzw. Dummies im Rahmen der Regression.

 

2 Voraussetzungen der multiplen linearen Regression

Die wichtigsten Voraussetzungen sind:

 

 

3 Durchführung der multiplen linearen Regression in SPSS

Über das Menü in SPSS: Analysieren -> Regression -> Linear

Unter Statistiken empfiehlt sich Kollinearitätsdiagnose, der Durbin-Watson-Test (Autokorrelation).

Unter Diagramme empfiehlt sich ein Streudiagramm mit den standardisierten Residuen (ZRESID) und den standardisierten x-Variablen (ZPRED).

 

4 Beispiel von Ergebnistabellen der multiplen linearen Regression in SPSS

 

5 Interpretation der Ergebnisse der multiplen linearen Regression in SPSS

Sofern die o.g. Voraussetzungen erfüllt sind, sind drei Dinge bei der Ergebnisinterpretation bei der multiplen Regression besonders wichtig.

5.1 ANOVA-Tabelle

Die ANOVA sollte einen signifikanten Wert (Sig. < 0,05) ausweisen - ist dies der Fall, leistet das Regressionsmodell einen Erklärungsbeitrag. Im Beispiel oben ist die Signifikanz gerundet 0,000 und damit ist alles in Ordnung. Ist die Signifikanz über 0,05, muss an dieser Stelle die multiple lineare Regression bzw. deren Berechnung abgebrochen werden. Das multiple Regressionsmodell mit seinen unabhängigen Variablen kann in dem Fall die abhängige Variable schlicht nicht besser erklären kann als ohne. Meist ist dies ein Hinweis auf keine hinreichende Linearität des Zusammenhanges, sofern es eine hinreichend große Stichprobe (n>30) ist.

 

5.2 Die Modellgüte

Die Modellgüte wird im multiplen Kontext anhand des normalen und korrigierten R-Quadrat (R²) abgelesen (im Beispiel: 0,407 bzw. 0,383). Beide findet man in der Tabelle Modellzusammenfassung. Das korrigierte R² ist nötig, weil mit einer größeren Anzahl an unabhängigen Variablen das normale R² automatisch steigt. Somit ist das korrigierte R² für Vergleiche zu anderen Modellen mit der gleichen abhängigen Variable sinnvoller. Das korrigierte R² ist stets niedriger als das normale R². Sowohl normales als auch korrigiertes R² sind zwischen 0 und 1 definiert. Allerdings gibt nur das normale R² (hier 0,407) an, wie viel Prozent der Varianz der abhängigen Variable erklärt werden. Höher ist dabei besser. Bei einem R² von 0,407 werden 40,7% der Varianz der y-Variable erklärt.

Je nach Kontext ist auch ein kleines R² bereits gut.

 

5.3 Koeffiziententabelle

 

Die Regressionskoeffizienten sollten signifikant (p<0,05) sein. Im Beispiel sind dies sowohl Größe als auch Gewicht (jeweils auf 0,000 abgerundet). Unter “nicht standardisiert” ist der interpretierbare Effekt dieses Koeffizienten zu sehen. Im Beispiel ist der Koeffizient von Gewicht 0,085. Das heißt, mit jeder zusätzlichen Einheit (hier kg) dieser x-Variable, ist eine Zunahme um 0,085 Einheiten der y-Variable (Sportnote) verbunden. Negative Koeffizienten haben entsprechend einen negativen Einfluss auf die y-Variable. Im Beispiel hat die Größe einen negativen Koeffizienten (-0,064). Eine zusätzliche Einheit (hier cm) führt hier zu einer Abnahme der Sportnote um 0,064 Einheiten.

Zum Vergleich zwischen signifikanten Variablen dienen die standardisierten Koeffizienten. Anhand derer sieht man, welcher den größten positiven/negativen Einfluss auf die y-Variable hat. Man betrachtet stets den Betrag (z.B. |-0,38| = 0,38), also den positiven Wert des Koeffizienten. Im Beispiel dieser multiplen Regression hat das Gewicht (|0,861|) einen größeren Einfluss als die Größe (|-0,620|). Als Dummy codierte kategoriale Variablen haben zwar ebenfalls einen standardisierten Koeffizienten, welcher aber nicht interpretiert wird.

 

6 Videotutorial

Multiple lineare Regression in SPSS rechnen und interpretieren - Daten analysieren in SPSS (4)

 

7 Beispieldatensatz für SPSS

ACHTUNG: Im Datensatz sind einige wenige Werte anders, weswegen es zu leichten Abweichungen zu den obigen Screenshots kommt.

Download eines Beispieldatensatzes für SPSS

 

Weitere nützliche Tutorials findest du auf meinem YouTube-Kanal.

 

Hat dir der Beitrag geholfen?

Dann würde ich mich über eine kleine Spende freuen, die es mir erlaubt, weiterhin kostenfreie Inhalte zu veröffentlichen.
Alternativ kannst du über meinen Amazon Affiliate-Link einkaufen – ohne Zusatzkosten.

Vielen Dank und viel Erfolg!

Über mich

Björn Walther

Excel- und SPSS-Experte

YouTube-Kanal

Excel Online-Kurs

YouTube-Kanal