Kruskal-Wallis-Test in SPSS rechnen

von Björn Walther | Zuletzt bearbeitet am: Sep 18, 2024 | Mittelwertvergleich, SPSS

Inhaltsverzeichnis

1 Ziel des Kruskal-Wallis-Test in SPSS

Der Kruskal-Wallis-Test ist ein nicht parametrischer Mittelwertvergleich bei mehr als 2 Stichproben bzw. Gruppen. Er verwendet Ränge statt die tatsächlichen Werte und ist das Gegenstück zur einfaktoriellen ANOVA, allerdings hat er nicht solche strengen Voraussetzungen.

2 Voraussetzungen des Kruskal-Wallis-Tests in SPSS

mindestens drei voneinander unabhängige Stichproben/Gruppen
ordinal oder metrisch skalierte y-Variable
normalverteilte y-Variable innerhalb der Gruppen nicht nötig

3 Durchführung des Kruskal-Wallis-Tests in SPSS

Über das Menü in SPSS: Analysieren > Nichtparametrische Test > Unabhängige Stichproben

Im Reiter Felder ist als Testvariable die zu testende Variable (hier Ruhepuls) einzusetzen. Die Gruppierungsvariable (hier: Training) ist die Variable, die die Gruppen unterscheidet. Im Beispiel testen wir untrainierte, mäßig trainierte und gut trainierte Menschen auf Unterschiede hinsichtlich ihres Ruhepulses.

Im Reiter Einstellungen wird unter dem Element „Tests auswählen“ die Option 1) Tests anpassen gewählt. Rechts wird dann 2) „Einfaktorielle ANOVA nach Kruskal-Wallis (k-Stichproben)“ selektiert.

Bei Mehrfachvergleiche sollte „Alle paarweise“ ausgewählt sein. Das hat den Hintergrund, dass wir wissen wollen, zwischen welchen der k Gruppen/Stichproben (hier: 3) ein Unterschied des Mittelwertes beobachtbar ist. Hiermit wird für die Kumulierung des Alphafehlers infolge mehrfachen Testens auf dieselben Gruppen kontrolliert bzw. korrigiert.

Sollte ein anderes Alphaniveau gewünscht sein, kann dies auf der linken Seite nach der Auswahl des Elements „Testoptionen“ geändert werden. Standardmäßig wird zu 0.05 getestet

Ein Klick auf „Ausführen“ führt die Berechnung durch und zeigt die Ergebnisse an.

4 Interpretation der Ergebnisse des Kruskal-Wallis-Test in SPSS

Hinweis: in früheren SPSS-Versionen musste man per Doppelklick auf die Ausgabe im „Modellviewer“ die folgenden Tabellen anfordern.

In der Hypothesenübersicht am Anfang des Outputs wird die Signifikanz angezeigt (p = 0.004) und was mit der Nullhypothese zu tun ist.

Im Beispiel ist die Nullhypothese abzulehnen, da die Signifikanz von p = 0.004 unter dem typischen Alphawert von 0.05 liegt.

Die Nullhypothese des Kruskal-Wallis-Tests geht von gleichen bzw. ähnlichen mittleren Rängen aus. Die Alternativhypothese geht demzufolge von unterschiedlichen mittleren Rängen aus. Da wir die Nullhypothese verwerfen müssen, ist die Alternativhypothese anzunehmen. Für diese Gruppen konnte demnach gezeigt werden, dass es Unterschiede zwischen ihnen hinsichtlich des Ruhepulses gibt.

Die darauffolgende Tabelle enthält die ausführlichen Testergebnisse, inkl. Teststatistik ist (11.007), Freiheitsgrade (2) sowie der asymptotischen Signifikanz (0.004), die allesamt für das Reporting (siehe Punkt 7) relevant sind.

Als Nächstes findet man je Gruppe einen Boxplot zur Beschreibung der Verteilung vor (ausführlicher Artikel zur Interpretation). Es ist anhand der Boxplots für den Ruhepuls erkennbar, dass der Median als auch die Quartile (die Box) mit dem Trainingsstand immer weiter sinken – das, was man sich schon gedacht hat.

5 Posthoc-Tests (Paarweise Vergleiche)

Hinweis: In früheren SPSS-Versionen musste in der Fußzeile des Modellviewers beim Punkt „Ansicht“ die Option „Paarweise Vergleiche“ ausgewählt werden, um nachfolgende Tabellen zu erhalten.

Mit einem hinreichend kleinen p-Wert des Kruskal-Wallis-Tests ist noch nicht gesagt, zwischen welchen der hier vorliegenden drei Gruppen ein Unterschied beobachtbar ist. Hierzu bedarf es der Durchführung und Interpretation von posthoc-Tests, welche nichts anderes als paarweise Vergleiche sind, die wir in Punkt 3 mit angefordert haben. Es gibt drei Gruppen und damit drei mögliche paarweise Vergleiche, die man sich anschauen muss.

gut trainiert vs. mäßig trainiert
gut trainiert vs. untrainiert
mäßig trainiert vs. untrainiert

Hierzu dient die Tabelle „Paarweise Vergleiche von Training“ sowie die Grafik darunter.

In der Tabelle ist die angepasste Signifikanz (Anp Sig.) zu beurteilen, da wir mehrfach gleiche Gruppen in unseren Tests verwenden. Mit Verwendung der angepassten Signifikanz wird vermieden, dass die Nullhypothese fälschlicherweise verworfen wird (Fehler 1. Art). Die Grafik zeigt nichts anderes als die Tabelle. Die blaue Linie zeigt den einzigen beobachtbaren Unterschied (bei angepasster Signifikanz) zwischen den Gruppen.

Im Ergebnis unterscheiden sich lediglich gut trainierte und untrainierte Menschen hinsichtlich ihres Ruhepulses. Die statistische Signifikanz liegt bei p = 0.003 und ist damit hinreichend klein (i. d. R. < 0.05).

6 Ermittlung von Effektstärken

6.1 Effektstärke des Kruskal-Wallis-Tests

Die Effektstärke Eta² ist unter anderem für den Kruskal-Wallis-Test berechenbar, wird von SPSS aber nicht mit ausgegeben. Die Formel stammt aus Cohen (2008), S. 750. Eta² kann auch in f (siehe unten) umgewandelt werden und gibt an, wie stark der gefundene Effekt des Kruskal-Wallis-Test ist. Die Formel für Eta² lautet:

$Eta^2 = \frac{H - k + 1}{n - k} = \frac{11.007 - 3 + 1}{39 - 3} = 0.250$

mit H als (Chi²)-Teststatistik, k (Anzahl Gruppen) und n (Anzahl Gesamtbeobachtungen).

Im Ergebnis erhält man hier einen Wert von Eta² = 0.250. Diesen Wert muss man schließlich noch mal in folgende Formel für f einsetzen:

$f = \sqrt{\frac{\eta^2}{1-\eta^2}} = \sqrt{\frac{\0.250}{1-\0.250}} = 0.577$

f für den Kruskal-Wallis-Test ist 0.577.

Sollten keine vergleichbaren Studien oder fachspezifischen Grenzen existieren, kann Cohen: Statistical Power Analysis for the Behavioral Sciences (1988), S. 284-287 zur Einordnung herangezogen werden:

Ab 0.1 ist es ein schwacher Effekt,
ab 0.25 ein mittlerer und
ab 0.4 ein starker Effekt.

Demzufolge ist der mit dem Kruskal-Wallis-Test beobachtete Unterschied ein starker Unterschied, da 0.577 über der Grenze zum starken Effekt liegt.

Die Effektstärke des Kruskal-Wallis-Test wird selten berichtet, da die paarweisen Vergleiche/Unterschiede interessanter sind, siehe nachfolgender Absatz.

6.2 Effektstärken der post-hoc-Tests

Die Effektstärke r wird jeweils für alle paarweise Vergleiche berechnet, die hinreichend kleine (angepasste) p-Werte zeigen (Fachspezifische Anforderungen beachten!). In diesem Beispiel berechne ich also nur eine Effektstärke für untrainierte und gut trainierte Menschen.

Der z-Wert (Standardteststatistik) wird hierfür durch die Wurzel der Stichprobengröße geteilt. Aufgrund der Betragsstriche wird dieser Quotient immer positiv sein.

Eine Besonderheit ist bei der Berechnung noch zu beachten. n ist die Summe der Gruppengrößen, die man vergleicht. Da sowohl die Gruppe der gut trainierten als auch der untrainierten Menschen jeweils 13 ist, ist n = 2 * 13 = 26.

$r=\frac{|z|}{\sqrt{n}}= \frac{|3,315|}{\sqrt{26}} = 0.65$

Im Beispiel ist also der Betrag von -3.315 durch die Wurzel aus 26 zu teilen. Das Ergebnis hieraus lautet: 0.65.

Die Effektstärke wird idealerweise anhand a) vergleichbarer Studien und deren Effektstärken angegeben. Alternativ können b) fachspezifische Grenzen zur Einordnung verwendet werden. Sollte beides nicht vorhanden sein, kann auf c) Cohen (1988), S. 79-81 bzw. Cohen (1992), S. 157 zurückgegriffen werden:

ab 0.1: schwach,
ab 0.3: mittel und
ab 0.5: stark.

Im vorliegenden Beispiel ist die Effektstärke mit 0.65 > 0.5 stark. Es handelt sich nach Cohen (1992) also um einen starken Effekt hinsichtlich des Unterschiedes des Ruhepulses.

7 Reporting

Es wird der Kruskal-Wallis-Test mitsamt Teststatistik (H = 11.007), Freiheitsgraden (df = 2) und Anzahl der Beobachtungen (n = 39) berichtet. Im Falle von posthoc-Tests mit hinreichend kleinen p-Werten werden auch diese mit Standardteststatistik (z) sowie dem angepassten p-Wert berichtet. Zusätzlich kann es hilfreich sein, Mediane oder sogar Mittelwert anzugeben. Hierzu empfehle ich folgendes Video auf meinem YouTube-Kanal.

Die Durchführung eines Kruskal-Wallis-Tests für die drei Gruppen (untrainiert, mäßig trainiert, gut trainiert) zeigte Unterschiede (H (2) = 11.007, p = 0.004, Eta² = 0.25). Posthoc-Tests mit Bonferroni-Korrektur zeigen, dass Unterschiede nur zwischen der Gruppe der untrainierten (M = 68, Mdn = 69) und gut trainierten Probanden (M = 52.85, Mdn = 52) vorlagen, mit z = 3.315, p = 0.003. Dieser Unterschied kann mit r = 0.65 quantifiziert werden, was nach Cohen (1992) ein starker Unterschied ist.

8 Literatur

Cohen, B.H. (2008). Explaining Psychological Statistics, Wiley
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences, Routledge.
Cohen, J. (1992). A power primer. Psychological bulletin, 112(1), 155.
Kruskal, W. H., & Wallis, W. A. (1952). Use of ranks in one-criterion variance analysis. Journal of the American statistical Association, 47(260), 583-621.

9 Videotutorials

Dieses Video auf YouTube ansehen.

10 Häufig gestellte Frage

Ich bekomme immer wieder die Frage, warum der Kruskal-Wallis-Test „signifikant“ ist, aber keiner der post-hoc-Tests. Das liegt zum einen daran, dass bei den post-hoc-Tests eine angepasste Signifikanz verwendet werden sollte (um Alphafehlerkumulierung zu vermeiden) und die p-Werte damit automatisch höher sind (oder Alpha niedriger). Zum anderen bestehen die post-hoc-Tests aus z.T. deutlich weniger Beobachtungen, was zu einer geringeren Power und zu einem erschwerten Beobachten von Unterschieden führt.

Diese beiden Gründe sind häufig dafür verantwortlich, dass der Kruskal-Wallis-Test zunächst etwas zeigt, die post-hoc-Tests allerdings nicht.

11 Download Beispieldatensatz

Da mit dem Datensatz auch eine ANOVA gerechnet werden kann, trägt die .xlsx-Datei den Namen anova.xlsx.

Die Experten wissen aber ohnehin, dass der Kruskal-Wallis-Test auch als Kruskal-Wallis-ANOVA bezeichnet wird. 😉

Jetzt herunterladen!



Hat dir der Beitrag geholfen?

Dann würde ich mich über eine kleine Spende freuen, die es mir erlaubt, weiterhin kostenfreie Inhalte zu veröffentlichen.
Alternativ kannst du über meinen Amazon Affiliate-Link einkaufen – ohne Zusatzkosten.

Vielen Dank und viel Erfolg!

Jetzt spenden

Über mich

Björn Walther

Ein 💚 für Statistik & Datenanalyse