Normalverteilung kann in SPSS auf verschiedenen Wegen geprüft werden. Die grafische und analytische Variante zeigt der verlinkte Artikel.
Dieser Artikel zeigt, wie für Variablen selbst, als auch Residuen die Parameter Schiefe und Kurtosis zur Normalverteilungsprüfung verwendet werden können. Der erste Gliederungspunkt ist nur im Rahmen der Prüfung auf Normalverteilung im Rahmen der linearen Regressionen durchzuführen.
1 Speichern der Residuen (nur bei linearer Regression)
Um die Residuen mittels der Parameter Schiefe und Kurtosis beurteilen zu können, bedarf es zunächst der Berechnung und Speicherung jener. Hierzu wird das lineare Regressionsmodell gerechnet. Das Modell schätzt hierbei je Beobachtung einen Wert für die abhängige Variable. Der Unterschiedsbetrag zum tatsächlichen Wert der abhängigen Variable ist das jeweilige Residuum.
- Analysieren > Regression > Linear
- Das Modell wird vollständig definiert (abhängige und unabhängige Variablen)
- Button “Speichern” und auswählen der “standardisierten Residuen”
Nach Berechnung erscheint am Ende der Datenansicht eine neue Variable. Sie heißt hier ZRE_1: Z steht für z-standardisiert und RE für Residuen. 1 ist die laufende Nummer. Bei Rechnung weiterer Modelle wird diese Zahl hochgezählt.
Das sieht exemplarisch so aus und umfasst sowohl positive als auch negative Werte, da die Abweichungen eben positiv und negativ sein können. Eine (standardisiertes) Residuum von 0 ist zwar denkbar, in der Praxis aber eher selten.
2 Berechnen von Schiefe und Kurtosis
Im nächsten Schritt sind Schiefe und Kurtosis der Variable (oder standardisierten Residuen) zu berechnen.
Das geht es am einfachsten über:
- Analysieren > Deskriptive Statistiken > Häufigkeiten
- Hinzufügen der zu testenden Variablen (oder standardisierten Residuen) in das Feld Variable(n)
- Button “Statistiken” und Anhaken von Schiefe und Kurtosis im Bereich Verteilung
- Berechnen mit Klick auf OK
Im Anschluss hieran erhält man eine kleine Tabelle, die sowohl Schiefe als auch Kurtosis anzeigt. Zusätzlich gibt es noch den Standardfehler der Schiefe und den Standardfehler der Kurtosis, welche für die spätere Beurteilung wichtig sind. Deren Berechnung hängt ausschließlich von der Stichprobengröße ab, wie die Formeln hierfür zeigen.
Für die Residuen des Regressionsmodells im Beispieldatensatz beträgt die Schiefe 0.896 und die Kurtosis 1.882.
3 Beurteilung von Schiefe und Kurtosis
3.1 Generelle Interpretation
Eine positive Schiefe (> 0) zeigt grafisch gesprochen eine linkssteile (= rechtsschiefe) Verteilung. Das heißt, es gibt eine größere Anzahl an beobachteten Häufigkeiten im linken Bereich eines Histogramms. Eine negative Schiefe (< 0) weist hingegen auf eine rechtssteile (= linksschiefe) Verteilung hin. Eine Schiefe von 0 zeigt entsprechend eine perfekt symmetrische Verteilung.
Eine positive Kurtosis (> 0) deutete auf eine Häufung der Beobachtungen und damit eine Wölbung, auch Spitzgipflichkeit genannt, hin. Eine negative Kurtosis (< 0) zeigt hingegen eine flachgipflige Kurve.
3.2 Normalverteilungsprüfung
Um die Abweichung von der Normalverteilung zu beurteilen, können die z-Werte von Schiefe und Kurtosis verwendet werden. Diese z-Werte zeigen jeweils an, wie wahrscheinlich es ist, dass die beobachteten Werte von Schiefe und Kurtosis auftreten. Unwahrscheinlicher ist hierbei gleichzusetzen mit einer Abweichung von der (Standard-)Normalverteilung. (Vgl. Field (2018), S. 247-248)
Zur Berechnung der z-Werte von Schiefe und Kurtosis wird der jeweilige Mittelwert abgezogen (stets M = 0 bei standardisierten Variablen) und durch die Standardabweichung geteilt (hier: jeweiliger Standardfehler). Demzufolge wird aufgrund des Mittelwertes von 0 lediglich der jeweilige Quotient aus absolutem Wert von Schiefe und Kurtosis und dem jeweiligem Standardfehler berechnet.
In meinem Beispiel wäre der z-Wert für die Schiefe 0.896/0.333 = 2.691 und der z-Wert für die Kurtosis 1.882/0.656 = 2.869. Anhand der berechneten z-Werte und den kritischen Werten der Standardnormalverteilung (1.96, 2.58 oder 3.29, siehe Field (2018), S. 248) kann die Wahrscheinlichkeit einer Abweichung beurteilt werden.
Sowohl zSchiefe mit 2.691 als auch zKurtosis mit 2.869 liegen unter dem höchsten kritischen Wert der Standardnormalverteilung von 3.29. Das ist vertretbar und es kann somit von Normalverteilung der Residuen ausgegangen werden. Würden sie über diesem Wert liegen, kann dies zwei Ursachen haben. Der oben erwähnte kleine Standardfehler bei sehr großen Stichproben oder eine tatsächliche Abweichung. Die Frage, was (sehr) große Stichproben sind, ist immer eine Auslegungssache. Es zeigt sich aber anhand der Formeln der Standardfehler und der nachfolgenden Beispielrechnung eine eingeschränkte Anwendbarkeit.
Spoiler: größere Stichproben haben immer kleinere Standardfehler, wodurch bei gleichbleibender Schiefe/Kurtosis die jeweiligen z-Werte unwillkürlich steigen und eher Nichtnormalverteilung unterstellt werden würde. Deshalb sollte diese Methode mit Vorsicht oder bei großen Stichproben jenseits von 200 Beobachtungen besser gar nicht angewendet werden (vgl. Field (2018), S. 249).
4 Beispielrechnung
Um ein noch besseres Gefühl zu bekommen, warum diese Methode der Prüfung auf Normalverteilung der Residuen problematisch ist, habe ich hier für verschiedene Stichprobengröße bei einer angenommenen Schiefe und Kurtosis von jeweils 0,5 und 1 die jeweiligen z-Werte berechnet.
Hier wird deutlich, dass a) die Schiefe potentiell “schneller” die tolerablen Grenzen überschreitet und b) bei moderaten Werten von 1 auch bei der zKurtosis der kritische Werte bei n = 200 nur recht knapp unterschritten wird – bei n = 250 beträgt der z-Wert der Kurtosis 3.259 und liegt über der oberen Grenze von 3.29.
Schiefe 0,5
Kurtosis 0,5
Stichprobengröße 30 50 100 200 500 1000
SE Schiefe 0,427 0,337 0,241 0,172 0,109 0,077
SE Kurtosis 0,833 0,662 0,478 0,342 0,218 0,155
zSchiefe 1,171 1,485 2,071 2,908 4,578 6,465
zKurtosis 0,600 0,755 1,045 1,461 2,294 3,236
Schiefe 1
Kurtosis 1
Stichprobengröße 30 50 100 200 500 1000
SE Schiefe 0,427 0,337 0,241 0,172 0,109 0,077
SE Kurtosis 0,833 0,662 0,478 0,342 0,218 0,155
zSchiefe 2,343 2,971 4,143 5,816 9,156 12,929
zKurtosis 1,201 1,511 2,091 2,922 4,587 6,471
5 Fazit
Zusammenfassend lässt sich hier festhalten, dass diese Methode der Prüfung der Residuen auf Normalverteilung im Rahmen der linearen Regression nur bis zu einer bestimmten Stichprobengröße wegen des fallenden Standardfehlers überhaupt sinnvoll anwendbar ist. Folglich rate dazu, Normalverteilung der Residuen nicht mit Schiefe und Kurtosis zu prüfen, sondern grafische Prüfungen mittels Histogramm oder Q-Q-Diagramm vorzuziehen. Die Angabe von Schiefe und Kurtosis selbst ist im Rahmen der deskriptiven Statistik der Modellvariablen hingegen wünschenswert.
6 Literatur
Field, Andy (2018), Discovering Statistics Using IBM SPSS Statistics, SAGE.