Website-Icon Björn Walther

Einfaktorielle ANOVA mit Messwiederholung in SPSS rechnen

1 Ziel der einfaktoriellen Varianzanalyse (ANOVA) mit Messwiederholung

Die einfaktorielle Varianzanalyse (kurz: ANOVA) mit Messwiederholung testet abhängige Stichproben darauf, ob bei mehr als zwei Zeitpunkten die Mittelwerte einer abhängigen Variable unterschiedlich sind. Die Varianzanalyse in SPSS kann man mittels weniger Klicks durchführen.

Habt ihr nur zwei Messwiederholungen, verwendet ihr den t-Test bei abhängigen Stichproben in SPSS. Habt ihr keine Messwiederholungen und wollte dennoch eine einfache ANOVA in SPSS rechnen, braucht ihr mindestens drei Gruppen.

 

2 Voraussetzungen der einfaktoriellen Varianzanalyse (ANOVA) mit Messwiederholung

Die wichtigsten Voraussetzungen sind:

 

3 Durchführung der einfaktoriellen Varianzanalyse mit Messwiederholung in SPSS (ANOVA)

Über das Menü in SPSS: Analysieren -> Allgemeines lineares Modell -> Messwiederholung

 

 

Als erstes sind die Messwiederholungen zu definieren, also der Innersubjektfaktor und die Anzahl der Stufen. Im Beispiel messe ich zu 3 Zeitpunkten den Ruhepuls, dazwischen befinden sich 5 und 10 Trainingswochen im Vergleich zur Ausgangsmessung. Der Innersubjektfaktor bekommt bei mir daher den Namen Trainingswochen und da ich 3 Messzeitpunkte habe, definiere ich 3 Stufen.

 

 

Im Anschluss lege ich die Innersubjektvariablen fest, also die Variablen, die die Messungen beinhalten. In meinem Fall sind das die Variablen t0, t5 und t10.

 

Im Anschluss daran arbeiten wir uns rechts durch die Schaltflächen. Zunächst interessiert uns “Diagramme”. Hier wählen wir den (Innersubjekt)Faktor aus und schieben ihn auf die “Horizontale Achse”, klicken hinzufügen und dann auf weiter.

 

 

Als nächstes ist im Menü “Geschätzte Randmittel” auszuwählen. Hier definieren wir den post-Hoc-Test. Wir versuchen damit, wie bei Mehrfachvergleichen auf derselben Stichprobe üblich, den Alphafehler kumulieren zu lassen. Wir wählen also Haupteffekte vergleichen und wählen dann Bonferroni aus und wählen weiter.

 

Schließlich gehen wir noch in “Optionen” und wählen “Deskriptive Statistiken” sowie “Schätzungen der Effektgröße” aus.

 

 

Wenn auch das geschafft ist, kann die ANOVA mit Messwiederholung von SPSS gerechnet werden und wir schauen uns die Ergebnisse an und interpretieren sie im nächsten Schritt.

 

4 Interpretation der einfaktoriellen Varianzanalyse mit Messwiederholung in SPSS (ANOVA)

4.1 Deskriptive Statistiken

Zunächst ist der Blick ganz kurz auf die deskriptiven Statistiken zu richten. Hier sehen wir die Mittelwerte der zu testenden Variable zu jedem Zeitpunkt. Habt ihr hier kaum Unterschiede in den Mittelwerten gibt es wohl auch keinen signifikanten (also systematischen) Unterschied. Im Beispiel sinkt der Ruhepuls kontinuierlich von 68,08 auf 62,19 (nach 5 Wochen Training) und schließlich 52,62 (nach 10 Wochen Training). Hier könnte es also durchaus einen systematischen Unterschied geben – was für die positive Wirkung des Trainings sprechen würde.

Ganz am Ende des SPSS-Outputs findet sich auch ein Profildiagramm mit den Gschätzten Randmitteln, also den in der Tabelle dargestellten Mittelwerten. Dieses Diagramm zeigt den Abwärtstrend auch recht gut.

 

 

4.2 Mauchly-Test auf Sphärizität

Als nächstes ist es notwendig die Sphärizität zu prüfen. Sphärizität ist ungefähre Gleichheit der Varianzen der Differenzen zwischen Zeitpunkten. Anders ausgedrückt: Der Unterschiedsbetrag zwischen t0 und t5 hat eine Varianz, die ungefähr ähnlich groß sein sollte, wie der die Varianz des Unterschiedes zwischen t5 und t10 sowie zwischen t0 und t10. Somit ist auch klar, dass mindestens 3 Zeitpunkte notwendig sind, um überhaupt Sphärizität als Voraussetzung prüfen zu müssen.
Der Mauchly-Test wird hierfür verwendet:

Hier geht es uns eigentlich nur darum zu schauen, ob in der Spalte “Sig.” ein Wert unter 0,05 steht. Bei großen Stichproben sollte man allerdings 0,01 oder sogar 0,001 als Grenze setzen. Ist der p-Wert unter der Alphagrenze, wird die Nullhypothese von Sphärizität verworfen.

Liegt keine Sphärizität vor, müssen wir bei der kommenden Auswertung eine Korrektur vornehmen.

Ein wichtiger Hinweis zum Mauchly’s-Test: bei kleinen Stichproben wird eine Verletzung von Sphärizität häufig nicht erkannt. Bei großen Stichproben sind nur sehr kleine Abweichungen notwendig, um Sphärizität zu verletzen (Vgl. Lantz (2013), weswegen häufig bei großen Stichproben Alpha abgesenkt wird (s.o.). Da dies alles sehr viel Ermessen bietet, ist hier also Vorsicht geboten (vgl. Field (2018), S. 656.

Um dem beschrieben Problem aus dem Weg zu gehen, empfiehlt Field (2018), S. 656 eine pauschale Korrektur, in Verbindung mit dem Wert bei Greenhouse-Geisser in der Mauchly-Test-Tabelle. Ist der Epsilon-Wert bei Greenhouse-Geisser < 0,75, sollte auch die Greenhouse-Geisser-Korrektur (siehe Tabelle: Test der Innersubjekteffekte) angewandt werden. Entsprechend ist Huynh-Feldt bei einem Epsiolon von 0,75 anzuwenden (Field (2018), S. 658). In meinem Fall ist das Epsiolon bei Greenhouse-Geisser mit 0,906 > 0,75 und somit wird die Huynh-Feldt-Korrektur laut Field empfohlen.

 

4.3 Test der Innersubjekteffekte

Der Test der Innersubjekteffekte sagt uns, ob wir einen Unterschied der abhängigen Variable im Zeitablauf feststellen konnten. Hier schauen wir in der Spalte “Sig.” nach. Im Beispiel liegt keine Sphärizität vor, weswegen für den Innersubjekteffekt Trainingswochen in der Zeile “Sphärizität angenommen” geschaut werden kann. Folgt man der Empfehlung von Field (2018), würde man bei HF schauen – das Ergebnis ist quasi gleich, mit einem sehr kleinen p-Wert und nur minimal angepassten Freiheitsgraden (df).

Es gibt eine leichte aber kaum ins Gewicht fallende Verletzung in meinem Fall. Das kann bei anderen Stichproben wieder anders aussehen, weswegen eine pauschale Korrektur der sicherste Weg ist. Ist kein Abweichung von Sphärizität gegeben, ist keine Korrektur notwendig und die Ergebnisse identisch, ansonsten gibt es immer mindestens kleine Unterschiede.

Die Signifikanz ist im Beispiel mit p < 0,001 hinreichend klein. Somit wird die Nullhypothese (Gleichheit der Mittelwete) also aufgrund einer hinreichend kleinen Signifikanz verworfen. Somit scheint es wenig wahrscheinlich, dass die Unterschiede zwischen den Zeitpunkten bezüglich des Ruhepulses zufällig zustande gekommen sind. Allerdings ist unklar, zwischen welchen Zeitpunkten ein Unterschied existiert. Hierzu schauen wir in die Post-hoc Tests = paarweise Vergleiche, die wir über die geschätzten Randmittel angefordert hatten.

 

4.4 Post-hoc Tests

Bei den paarweisen Vergleichen sehen wir nun, ob die Unterschiede zwischen den Messzeitpunkten (Trainingswochen) hinreichend kleine p-Werte aufweisen und damit “überzufällig” sind.

In diesem konstruierten Beispiel ist dies tatsächlich der Fall, da alle paarweisen Vergleiche eine Signifikanz von p < 0,001 aufweisen.
Man kann also schließen:

In realen Experimenten gibt es nicht immer zwingend so viele beobachtbare Unterschiede. Schon ein einziger Unterschied zwischen 2 Zeitpunkten kann für die Beantwortung der Forschungsfrage ausreichend sein.
Hinweis: die Entscheidung pro oder contra eines “signifikanten” Effektes sollte nicht einzig anhand der “magischen” 5%-Alphagrenze getroffen werdne (vgl. ausführlich Wasserstein (2016)). Der p-Wert ist nur eine Funktion der Stichprobengröße, für von Null verschiedene Effekte: kleine Effekte bedürfen einer größeren Stichprobe. Mitunter ist die vorliegende Stichprobe also etwas zu klein und die im Vorfeld durchgeführte Poweranalyse hat eine zu niedrige Stichprobengröße aufgrund zu liberaler Annahmen ergeben.
Somit kann es aufschlussreich sein, p-Werte über 0,05 auch als Unterschiede/Veränderungen einzuordnen. Wichtig ist hierbei vorherige Evidenz und der Kontext des Untersuchungsdesigns. Zusätzlich kann die Berechnung und das Berichten der Effektstärke des paarweisen Vergleiches vorgenommen werden.

 

4.5 Ermittlung der Effektstärken

Effektstärke für die ANOVA

Die Effektstärke f wird von SPSS nicht ausgegeben. Die ist, sofern gewünscht, manuell zu berechnen und mit vergleichbaren Studien, fachspezifischen Grenzen oder sofern beides nicht vorhanden, Cohen: Statistical Power Analysis for the Behavioral Sciences (1988), S. 284-287 zu beurteilen. Die Berechnung erfolgt über die Formel mit f als Wurzel aus Eta² geteilt durch 1-Eta².

   

Die Grenzen von Cohen sind 0,1; 0,25 und 0,4 für kleine, mittlere und starke Effekte. Im Beispiel ist das Eta² aus der Tabelle “Test der Innersubjekteffekte” in der Spalte “Partielles Eta-Quadrat” abzulesen. Unabhängig der Korrektur oder nicht ist es immer dasselbe partielle Eta-Quadrat.
Es beträgt in meinem Beispiel 0,559. Wird es in die Formel eingesetzt, ergibt sich ein sehr großes f von 1,126, was einem starken Effekt entspricht.

 

Effektstärke für post-hoc Tests

Um noch die Effektstärken für die paarweisen Vergleiche aus 4.4 zu ermitteln, werden paarweise t-Tests und die sich hierfür ergebende Effektstärke Cohen’s d bzw. Hedges’ Korrektur von d berechnet.
Hierzu geht es über Analysieren > Mittelwerte und Proportionen vergleichen > t-Test bei Stichproben mit paarigen Werten

Die mobile Version verlassen