Website-Icon Björn Walther

Gemischte ANOVA in SPSS rechnen und interpretieren

1 Die gemischte ANOVA

1.1 Ziel der gemischten ANOVA

Eine gemischte ANOVA (“mixed ANOVA”) hat das Ziel, Mittelwerte auf Unterschiede zu prüfen. Gemischt bedeutet, dass es sowohl Messwiederholungen derselben Individuen als auch Gruppen gibt.
Technisch ausgedrückt: es wird ein Innersubjektfaktor (Messwiederholung) sowie ein Zwischensubjektfaktor (Gruppen) berücksichtigt. Im Idealfall zeigt sich eine Interaktion zwischen diesen beiden Faktoren: unterschiedliche Entwicklung der Gruppen über die Zeit.

 

1.2 Beispiel

Eine Studie teilt Untersuchungssubjekte in eine Experimentalgruppe und eine Kontrollgruppe auf. Die Experimentalgruppe wird dauerhaft trainiert, die Kontrollgruppe nicht. Vor Trainingsbeginn wird eine Ausgangsmessung in T1 (“Baseline-Messung”) für beide Gruppen durchgeführt. Diese umfassen v.a. Gesundheitsdaten, die in einem Fitness-Score zusammengefasst werden. Zu weiteren 4 verschiedenen Messzeitpunkten werden dieselben Daten erfasst.
Somit gibt es zwei Gruppen (Zwischensubjektfaktor) und fünf Messzeitpunkte (Innersubjektfaktor).
Die Hypothese wäre hierbei, dass die Werte des Fitness-Scores der Experimentalgruppe im Zeitablauf höher werden, verglichen mit der Kontrollgruppe.

 

2 Voraussetzungen der gemischten ANOVA

Zunächst wird nachfolgend eine kleine Übersicht aller notwendiger Voraussetzungen gezeigt. Die ersten drei Voraussetzungen sollten offensichtlich sein und werden hier nicht explizit geprüft. Die letzten beiden werden im Rahmen der gemischten ANOVA mitberechnet und in Kapitel 3 betrachtet, in diesem Kapitel aber kurz beschrieben.

2.1 Übersicht der Voraussetzungen

 

2.2 Normalverteilung der Testvariable pro Gruppe für jeden Messzeitpunkt

Die Prüfung auf Normalverteilung sollte am ehesten grafisch vorgenommen werden, da analytische Tests (Kolmogorov-Smirnov, Shapiro-Wilk) bei kleinen Stichproben zu liberal und bei großen Stichproben zu konservativ bzgl. Abweichungen sind (vgl. Field (2018), S. 248 sowie bei großen Stichproben speziell Lantz (2003)).
Da auch beim Histogramm die Säulenbreite und damit die Darstellung etwas manipuliert werden kann, empfiehlt sich ein Q-Q-Diagramm.

Hierzu geht es über Analysieren > Deskriptive Statistiken > Explorativ.

  1. Die Messungen werden in das Feld “Abhängige Variablen” geschoben.
  2. Die Gruppenvariable kommt in das Feld “Faktorenliste
  3. Den Button Diagramme auswählen
  4. Stamm-Blatt” abhaken
  5. Normalverteilungsdiagramm mit Tests” anhaken – Q-Q-Plots werden darüber ausgegeben.
  6. Im Bereich “Anzeige” reicht die Auswahl von “Diagramme

Im sehr umfangreichen Output werden nur die normalen Q-Q-Diagramme angeschaut. Da es je Gruppe (G) und Zeitpunkt (T) ein Diagramm gibt, sind es G*T Diagramme. Bei mir sind es 2 Gruppen und 5 Zeitpunkte und somit 2*5 = 10 Diagramme.
Diese habe ich der Übersicht wegen nur auszugsweise dargestellt:

Hier ist zu beachten, dass mehrfach auftretende Werte nur als ein Datenpunkt dargestellt werden und keine sog. jitter-Option existiert, wo übereinanderliegende Punkte etwas versetzt dargestellt werden.
Die Punkte stellen die Messungen dar und die Linie die perfekte Normalverteilung. Daher sollten die Abstände zwischen den Punkten und der Linie minimiert werden.

Auch hier wird es akzeptable Abweichungen geben, insbesondere an den Rändern der Verteilung, d. h. in der oberen rechten Ecke und in der unteren linken Ecke.

In meinem Beispiel existieren wenige Abweichungen, speziell in Zeitpunkt 4 für die erste Gruppe. Sollte es vereinzelt zu Abweichungen kommen, kann eine gemischte ANOVA dennoch durchgeführt werden, da sie recht robust in solchen Fällen ist (vgl. Blanca Mena et al. (2017)).

Bei nicht mehr akzeptablen Abweichungen hat man nur die Möglichkeit eine robuste oder nichtparametrische ANOVA zu rechnen – allerdings nicht in SPSS.

 

2.3 Homogenität der Varianzen über die Gruppen zu jedem Zeitpunkt

1) Für die Prüfung auf Varianzhomogenität liest man sehr häufig Levene’s Test. Ähnlich wie beim Test auf Normalverteilung (vgl. vorheriger Abschnitt 2.2) ist jener bei kleinen Stichproben zu liberal und bei großen Stichproben zu konservativ bzgl. Abweichungen von Varianzgleichheit (vgl. Field (2018), S. 259).

Zum Levene’s Test: Field (2018), S. 259: “People have stopped using this approach for two reasons. First, violating this assumption matters only if you have unequal group sizes; if group sizes are equal this assumption is pretty much irrelevant and can be ignored. Second, tests of homogeneity of variance work best when you have equal group sizes and large samples (when it doesn’t matter if you have violated the assumption) and are less effective with unequal group sizes and smaller samples – which is exactly when the assumption matters. […] The take-home point is that you might as well always apply the correctuin and forget about the assumption.” (vgl. ausführlich: Zimmermann (2004))

2) Wenn überhaupt, wird daher eine “Augenprüfung” bevorzugt (vgl. ebda.) und das Vorgehen hierzu kurz gezeigt.

Daten > Datei aufteilen


Es wird der Punkt “Ausgabe nach Gruppen aufteilen” ausgewählt und die Gruppenvariable in das Feld “Ausgabe nach Gruppen aufteilen” geschoben.

WICHTIG: Nach der nachfolgenden Berechnung ist unter “Datei aufteilen” wieder der Standard (“Alle Fälle analysieren, keine Gruppen bilden”) auszuwählen.

Anschließend werden die Varianzen je Zeitpunkt angefordert. Durch die vorherige Einstellung werden sie gruppiert dargestellt.

Analysieren > Deskriptive Statistik > Deskriptive Statistik

Alle Messzeitpunkt werden in das Feld “Variable(n)” geschoben. Unter Optionen wird lediglich Varianz angehakt, alles andere abgehakt.

Hier ist erkennbar, dass die Varianzen je Zeitpunkt zwischen den Gruppen (oben: Kontrollgruppe-CG, unten: Experimentalgruppe – IC) halbwegs ähnlich sind. Sollten in der Mehrzahl der Zeitpunkte unterschiedliche Varianzen vorliegen, kann eine Transformation der Testvariablen Abhilfe schaffen.

3) Muss unbedingt ein Levene-Test gerechnet und berichtet werden (ja, ich weiß, manche Gutachter sind komisch ;-)), wird in Kapitel 3 gezeigt, wie er angefordert wird. Die Interpretation der Ergebnisse des Levene-Tests erfolgt in Abschnitt 4.3.

 

2.4 Homogenität der Kovarianzen des Zwischensubjektfaktors

Homogenität der Kovarianzen ist eine Abkürzung für die Homogenität der Kovarianzen des Zwischensubjektfaktors, also z.B. der Gruppe.
Anders ausgedrückt: Die Kovarianzmatrizen der abhängigen Variable über die Gruppen sollten ungefähr gleich sein.

Ein gängiger Test für die Homogenität der Kovarianzen ist der Box’s M-Test. Seine Nullhypothese setzt die Homogenität der Kovarianzmatrizen voraus, was bedeutet, dass man die Nullhypothese lieber nicht verwerfen sollte.

Der Box’s M-Test ist jedoch anfällig, wenn der Stichprobenumfang zu groß oder zu klein ist oder die Normalverteilungsannahme verletzt ist. Es ist daher ratsam, mit Vorsicht vorzugehen und einen niedrigeren Alpha-Wert als üblich zu verwenden.

Der Box’s M-Test kann bei der Berechnung der gemischten ANOVA mitgerechnet werden, muss aber explizit angefordert (siehe Kapitel 3) werden. Im Abschnitt 4.1 erkläre ich die Interpretation der Ergebnisse des Box’s M-Test.

 

2.5 Sphärizität – Homogene (in etwa gleiche) Varianzen der paarweisen Differenzen zwischen jeweils 2 Zeitpunkten

Sphärizität bedeutet gleiche Varianzen für die Differenz der Testvariable zwischen den Zeitpunkten 1 und 2, 1 und 3, 1 und 4, 1 und 5, 2 und 3 usw. Definitionsgemäß kann Sphärizität erst ab 3 Zeitpunkten überhaupt ein Thema sein. Sphärizität wird häufig mit dem sog. Mauchly-Test geprüft.

Wie auch schon der Levene’s Test und Shapiro-Wilk-Test, ist auch der Mauchlys-Test bei großen Stichproben zu sensitiv und hat bei kleinen Stichproben zu wenig Power, siehe Field (2018), S. 654-656.
Erneut wird daher unabhängig von den Ergebnissen des Mauchly-Tests eine Korrektur empfohlen. Die Interpretation des Mauchly-Tests sowie die Wahl des Korrekturverfahrens wird in Abschnitt 4.2 gezeigt.

 

3 Gemischte ANOVA in SPSS berechnen

Die Berechnung der gemischten ANOVA in SPSS über das Menü:

Analysieren > Allgemeines Lineares Modell > Messwiederholung.

Zuerst ist der Innersubjektfaktor (entspricht Messwiederholungen) zu definieren. Ein Name wie Zeit oder Messzeitpunkte ist idR ausreichend. Zusätzlich zum Namen braucht es noch die Angabe der Anzahl der Stufen, also wie viele Messungen vorliegen.
Ich habe 5 Messzeitpunkte, trage daher als Innersubjektfaktor lediglich “Zeit” ein und definiere 5 Stufen und klicke auf “Hinzufügen”.

Im nachfolgenden Dialogfeld werden die Messungen für den Innersubjektfaktor benötigt. Sie werden in das Feld “Innersubjektvariablen” übernommen.

Als nächstes wird der Zwischensubjektfaktor (hier: Gruppe) in das entsprechende Feld übernommen.


 

Die Schaltflächen am rechten Rand werden nun bedarfsweise durchgearbeitet.

Diagramme: Um einen Überblick über die Entwicklung der Mittelwerte pro Gruppe über die Zeit zu bekommen, empfiehlt sich die Erstellung eines Liniendiagramms oder Balkendiagramms.

Hierzu wird

  1. der Innersubjektfaktor auf die x-Achse (“Horizontale Achse“) gezogen
  2. und der Zwischensubjektfaktor als separate Linien verwendet.
  3. Schließlich ein Klick auf “Hinzufügen” und dann auf “Weiter”.

Standardmäßig wird ein Liniendiagramm erstellt, dass die Mittelwerte je Gruppe und Zeitpunkt beinhaltet. Wahlweise können noch Fehlerbalken angefordert werden, die unterschiedlich definiert werden können.


 

Der nächste relevante Button ist “Geschätzte Randmittel“. Hier werden prophylaktisch paarweise Vergleiche angefordert, die bei Haupteffekten oder Interaktionseffekt mit hinreichend kleinem p-Wert betrachtet werden sollten.

Alle Faktoren als auch Interaktion zwischen jenen werden in das Feld “Mittelwerte anzeigen für” übernommen und die Haken bei “Haupteffekte vergleichen” und “Einfache Haupteffekte vergleichen” gesetzt, als auch bei “Anpassung des Konfidenzintervalls” “Bonferroni” ausgewählt.


 

Schließlich werden beim Button “Optionen” noch drei Dinge angefordert: Deskriptive Statistiken, Schätzungen der Effektgröße sowie Homogenitätstests (zur Vollständigkeit für 2.4 und 2.5).

 

4 Gemischte ANOVA – SPSS-Ergebnisse interpretieren

Die Tabelle für die deskriptiven Statistiken überspringe ich an dieser Stelle. Die Varianzen hatten wir weiter oben schon betrachtet und für die Mittelwerte findet sich ganz am Ende des Outputs das angeforderte Liniendiagramm.

4.1 Homogenität der Kovarianzmatrizen

Der Box-Test auf Gleichheit der Kovarianz-Matrizen ist die nächste angegebene Tabelle. Wie bereits erwähnt, sollte hier mit Vorsicht geprüft werden. Die Signifikanz sollte lieber höher sein, also über einem vorher definierten Alpha liegen. Das Alpha sollte besonders bei größeren Stichproben auf 0.01 oder noch kleiner gesetzt werden. Gleichzeitig sollte für eine hinreichende Normalverteilung gesorgt sein, da sonst der Box-Test signifikant werden kann.

In meinem Beispiel ist der p-Wert mit 0.110 hinreichend groß und ich kann von ausreichend ähnlichen Kovarianzmatrizen des Zwischensubjektfaktors ausgehen und mit der Analyse fortfahren. Sollten die Gruppengrößen ähnlich sein oder große Stichprobenumfänge existieren, werden kleine p-Werte tendenziell ignoriert und schlicht mit der Analyse fortgefahren – sofern hinreichende Normalverteilung vorliegt und als Grund für Signifikanz des Box-Tests ausgeschlossen werden kann.


 

4.2 Sphärizität

Etwas weiter unten folgt die Tabelle zum “Mauchly-Test auf Sphärizität“.

Wie bereits in Abschnitt 2.5 erwähnt, wird hier recht nüchtern das Testergebnis berichtet und pauschal korrigiert – unabhängig von Verletzung oder nicht. In meinem Fall ist der p-Wert mit p < 0.001 sehr klein und eine Verletzung sehr wahrscheinlich. Dies hat Auswirkungen auf den zu beurteilenden p-Wert von Innersubjekteffekt und Interaktionseffekt.

Bei großen Stichproben wird der Test grundlos signifikant. Wenn sich die Freiheitsgrade in den Zeilen von GG und HF nicht von denen der Zeile “Sphärizität angenommen” unterscheiden, ist keine Korrektur erforderlich, weil keine Verletzung vorliegt.

Eine Korrektur erfolgt über angepasste Freiheitsgrade, nach Greenhousse-Geisser (GG)- und Huynh-Feldt (HF), die mit dem F-Wert kombiniert den p-Wert ergeben.

Field (2018), S. 658 fasst zusammen, dass bei Epsilon nach Greenhouse-Geisser < 0.75, die Korrektur nach Greenhouse-Geisser verwendet werden sollte, sonst die Korrektur nach Huynh-Feldt.

Ich würde vorschlagen, das Epsilon nach Greenhouse-Geisser (hier: 0.821) sowie beide Korrekturen anzugeben, also die entsprechenden Zeilen bei Innersubjekteffekt und Interaktionseffekt in der noch zu betrachtenden Ergebnistabelle (vgl. Abschnitt 4.4).


 

4.3 Homogenität der Varianzen

Erneut der Hinweis: der Levene-Test wird nicht empfohlen, um Varianzhomogenität zu prüfen (siehe Abschnitt 2.3). Ich zeige ihn hier der Vollständigkeit wegen dennoch, weil ich weiß, das manche Gutachter darauf bestehen – entgegen der Notwendigkeit bzw. Sinnhaftigkeit.

Die Nullhypothese des Levene-Tests geht von Gleichheit der Varianzen aus. Wie zu erkennen, gibt es je Zeitpunkt einen separaten Levene-Test. Die Zeile “Basiert auf dem Median” oder “Basierend auf dem Median und mit angepaßten df” wären hier vorzuziehen, da sie die robusten Varianten sind (vgl. Schultz (1985). Diese p-Werte sind erfahrungsgemäß recht ähnlich und zeigen im Beispiel Werte über den üblichen Verwerfungsgrenzen von 0.01 oder 0.05.

 

4.4 Ergebnisse der gemischten ANOVA interpretieren

Bei den Ergebnissen gibt es nur zwei Szenarien, die mit dem p-Wert des Interaktionseffektes zu tun haben. Kann ein Interaktionseffekt beobachtet werden (Szenario I), wird NUR jener berichtet. Kann kein Interaktionseffekt beobachtet werden, wird dies berichtet sowie Innersubjekteffekt und Zwischensubjekteffekt berichtet (Szenario II). Aus didaktischen Gründen verwende ich für Szenario II dieselben Ergebnistabellen, obwohl Innersubjekt- und Zwischensubjekteffekt im Beispielfall nicht berücksichtigt werden würden (siehe Begründung in Szenario I).

 

Szenario I: “Signifikanter Interaktionseffekt”


Hier ist, wie bereits in Abschnitt 4.2 erwähnt, in der Tabelle “Tests der Innersubjekteffekte” der Fokus auf die Zeilen Greenhouse-Geisser (GG) und Huynh-Feldt (HF) zu legen.

Berichtet wird der jeweilige F-Wert mit den Freiheitsgraden des Interaktionseffektes und den Freiheitsgraden des Fehlers sowie dem p-Wert:

Reporting: Der Interaktionseffekt zeigt einen hinreichend kleinen p-Wert. Nach Greenhouse-Geisser: F (3.283, 190.418) = 3.734, p = 0.010; nach Huynh-Feldt: F (3.564, 206.683) = 3.734, p = 0.008. Demnach kann zwischen den Gruppen ein Unterschied über die Zeit beobachtet werden.

Was ist mit den “Haupteffekten”?
Ist ein Interaktionseffekt beobachtbar, wie im Beispiel, werden die sog. Haupteffekte (Innersubjekteffekt und Zwischensubjekteffekt jeweils einzeln) NICHT betrachtet. Es wurde ja gerade festgestellt, dass sie einander bedingen. Eine separate Interpretation würde die Konstanthaltung des jeweils anderen Faktors unterstellen. Das ist, wie wir gerade festgestellt haben, allerdings NICHT sinnvoll und sollte unterbleiben.


 

Szenario II: “Nicht Signifikanter Interaktionseffekt”

Nur wenn der Interaktionseffekt keinen hinreichend kleinen p-Wert aufweist, sollten Innersubjekteffekt und Zwischensubjekteffekt interpretiert werden. Ich tue aus didaktischen Gründen nun so, als wäre der p-Wert für der Interaktionseffekt nicht hinreichend klein. In der oberen Tabelle (Tests der Innersubjekteffekte) wird erneut bei GG und HF der p-Wert geprüft.

Für den Innersubjekteffekt wäre das bei mir “Zeit”. Der p-Wert ist mit 0.010 (nach GG) bzw. 0.008 (nach HF) hinreichend klein.

Reporting: Der Innersubjektfeffekt (Zeit) zeigt mit F (3.283, 190.418) = 3.716, p = 0.010 nach Greenhouse-Geisser sowie F (3.564, 206.683) = 3.716, p = 0.008 p-Wert eine Veränderung über die Zeit.

Für den Zwischensubjekteffekt (Gruppe) wird die Tabelle “Tests der Zwischensubjekteffekte” geprüft. Hierbei ist die Zeile mit dem Zwischensubjektfaktor (im Beispiel: Gruppe) von Interesse:

Hier ist der p-Wert ebenfalls hinreichend klein (p < .001) und die Nullhypothese von Gleichheit wird zugunsten der Alternativhypothese von Ungleichheit verworfen.

Reporting: Der Zwischensubjekteffekt (Gruppe) zeigt mit F (1.58) = 21.398, p < 0.001 einen Gruppenunterschied.

 

5 Follow-up bei der gemischten ANOVA

Analog zu der Interpretation in Abschnitt 4.4 hängt auch die Follow-Up-Analyse davon ab, ob ein Interaktionseffekt beobachtet werden konnte oder nicht. Für beide Szenarien habe ich in Abschnitt 3 die entsprechenden geschätzten Randmittel angefordert, die sich ebenfalls im Output befinden.

In Szenario I konnte ein Interaktionseffekt beobachtet werden und ich möchte nun wissen, zu welchen Zeitpunkten sich die Gruppen unterschieden bzw. ob es innerhalb der Gruppen Veränderungen über die Zeit gegeben hat.

In Szenario II tue ich erneut so, als ob kein Interaktionseffekt vorliegt und schaue mir für Haupteffekte mit hinreichend kleinem p-Wert post-hoc-Tests an.

5.1 Szenario I: beobachtbare Interaktion

Im Abschnitt “Geschätzte Randmittel” des Outputs gibt es die verschiedenen paarweisen Vergleiche. Je nach Reihenfolge der Aufnahme bei Abschnitt 3, ist auch die Reihenfolge im Output eine andere. Ihr solltet zwei Tabellen erhalten, die ähnlich wie diese aussehen, bereits um Markierungen mit hinreichend kleinen p-Werten ergänzt:

In obiger Tabelle werden die gemessenen Werte der Gruppen je Zeitpunkt verglichen. Es ist erkennbar, dass sich die Gruppen in meinem Beispiel zum Zeitpunkt 3 und 5 jeweils voneinader unterscheiden (p = 0.009 bzw. p < 0.001).

 


In obiger Tabelle werden die Werte der Gruppen über die Zeit verglichen.

 

5.2 Szenario II: keine beobachtbare Interaktion

Erneut der Hinweis: ich verwende dasselbe Datenbeispiel, dürfte aber folgendes aufgrund eines beobachteten Interaktionseffektes nicht tun. Aus didaktischen Gründen zeige ich die Interpretation der “Haupteffekte” in diesem Artikel aber gleich mit.
Die Reihenfolge der Tabellen kann erneut unterschiedlich sein. Schaut im Ouput nach einer Tabelle, die nur eure Gruppen vergleicht bzw. als Überschrift die Bezeichnung eures Zwischensubjektfaktors hat.

Hier sehen wir lediglich einen paarweisen Vergleich zwischen Kontrollgruppe und Experimentalgruppe. Die Zeitpunkte werden hierbei je Gruppe aggregiert und entsprechend nicht wie in Abschnitt 5.1 detailliert betrachtet. Die Signifikanz für den Gruppenvergleich ist mit p < 0.001 hinreichend klein. Demzufolge kann hier von einem Zwischensubjekteffekt (“Gruppenunterschied”) gesprochen werden.

Je nach Anzahl der Gruppen, gibt es hier entsprechend mehr paarweise Vergleiche, da jede Gruppe mit jeder verglichen wird. Bei drei Gruppen wären es drei paarweise Vergleiche. Bei vier Gruppen wären es sechs paarweise Vergleiche, usw.

 

Die nächste und letzte relevante Tabelle zeigt die paarweisen Vergleiche über die Zeit unter Ignorierung der Gruppen. Hier ist lediglich für den Zeitpunkt 1 und 5 ein hinreichend kleiner p-Wert mit p = 0.002 beobachtbar gewesen. Demzufolge kann nur ein Unterschied im Zeitablauf zwischen Zeitpunkt 1 und 5 beobachtet werden.

 

5.3 Grafische Ergänzung

Zum Schluss des Outputs gibt es noch das angeforderte Liniendiagramm. Hier sind die Unterschiede zwischen den Gruppen im Zeitablauf bei einer beobachtbaren Interaktion noch mal gut zu erkennen. Im Falle keiner beobachtbaren Interaktion kann dennoch zumindest die Beurteilung von Zwischensubjekteffekt und Innersubjekteffekt supplementiert werden.

6 Effektstärken

Bei den Effektstärken kann zwischen Effektstärken für Innersubjekteffekt, Zwischensubjekteffekt und Interaktionseffekt (Abschnitt 6.1. und 6.2) und Effektstärken für die paarweisen Vergleiche (Abschnitt 6.3 und 6.4) unterschieden werden.

6.1 Effektstärke für die jeweiligen Effekte – partielles Eta-Quadrat

Zunächst wird für jeden Effekt, sofern in Abschnitt 3 angefordert, die Effektstärke in Form des partiellen Eta-Quadrates mit ausgegeben. Dies geschieht stets unabhängig der Signifikanz und basiert auf den Quadratsummen, weswegen die Korrekturen nach GG oder HF hierbei nicht von Relevanz sind.
Das partielle Eta-Quadrat ist die nur durch diesen Faktor erklärte Varianz. Hierbei wird die gesamte erklärte Varianz um die durch andere Faktoren erklärte Varianz bereinigt.
Im Falle einer beobachteten Interaktion wird sich erneut lediglich auf die Effektstärke jener beschränkt.

Interaktionseffekt (Zeit*Gruppe)
Für den Interaktionseffekt ist die Effektstärke partielles Eta-Quadrat 0.06. Es ergibt sich aus der Quadratsumme des Interaktionseffektes (165.560), geteilt durch die Quadratsumme des Interaktionseffektes (165.560) und des Fehlers des Innersubjekteffektes (2571.693).

Partielles Eta-Quadrat für den Interaktionseffekt:

   

 

Innersubjekteffekt (Zeit)
Für den Innersubjekteffekt ist die Effektstärke partielles Eta-Quadrat ebenfalls 0.06. Es ergibt sich aus der Quadratsumme des Innersubjekteffektes (164.760), geteilt durch die Quadratsumme des Innersubjekteffektes (164.760) und des Fehlers des Innersubjekteffektes (2571.693).

Partielles Eta-Quadrat für den Innersubjekteffekt:

   

 

Zwischensubjekteffekt (Gruppe)
Für den Zwischensubjekteffekt ist die Effektstärke partielles Eta-Quadrat 0.27. Es ergibt sich aus der Quadratsumme des Zwischensubjekteffektes (246.041), geteilt durch die Quadratsumme des Zwischensubjekteffektes (246.041) und des Fehlers des Zwischensubjekteffektes (666.905).

Partielles Eta-Quadrat für den Zwischensubjekteffekt:

   

 

6.2. Effektstärke für die jeweiligen Effekte – generalisiertes Eta-Quadrat

Das generalisierte Eta-Quadrat ermöglicht die Vergleichbarkeit zu anderen Studien, wo der/die jeweils andere Faktoren nicht existieren und findet sich erarbeitet bei Olejnik, Algina (2003).
Wird also z.B. eine einfaktorielle ANOVA gerechnet, wird mit ihr nur ein Zwischensubjekteffekt untersucht. Das hierbei ermittelte Eta-Quadrat ist mit dem generalisierten Eta-Quadrat des Zwischensubjekteffekts dieser gemischten ANVOA vergleichbar.

Das liegt daran, dass der Korrekturfaktor um die jeweils andere Quadratsumme des Fehlers erweitert wird.

Für den Interaktionseffekt ergibt sich die Effektstärke des generalisierten Eta-Quadrats aus der Quadratsumme des Interaktionseffektes (165.560), geteilt durch die Quadratsumme des Interaktionseffektes (165.560) und des Fehlers des Innersubjekteffektes (2571.693) sowie des Fehlers des Zwischensubjekteffektes (666.905).

   

 

Innersubjekteffekt (Zeit)
Für den Innersubjekteffekt ergibt sich die Effektstärke des generalisierten Eta-Quadrats aus der Quadratsumme des Innersubjekteffektes (164.760), geteilt durch die Quadratsumme des Innersubjekteffektes (164.760) und des Fehlers des Innersubjekteffektes (2571.693) sowie des Fehlers des Zwischensubjekteffektes (666.905).

Generalisiertes Eta-Quadrat für den Innersubjekteffekt:

   

 

Zwischensubjekteffekt (Gruppe)
Für den Zwischensubjekteffekt ist die Effektstärke partielles Eta-Quadrat 0.27. Es ergibt sich aus der Quadratsumme des Zwischensubjekteffektes (246.041), geteilt durch die Quadratsumme des Zwischensubjekteffektes (246.041) und des Fehlers des Zwischensubjekteffektes (666.905).

Generalisiertes Eta-Quadrat für den Zwischensubjekteffekt:

   

 

6.3 Effektstärken für paarweise Vergleiche

Sofern sich Effekte zeigen (Interaktion, Innersubjekt, Zwischensubjekt), werden wie in Kapitel 5 gezeigt, Geschätzte Randmittel gerechnet. Diese sind paarweise Vergleiche, z.T. abhängig (bei Innersubjekteffekt), unabhängig (bei Zwischensubjekteffekt) sowie mitunter beides beim Interaktionseffekt. Letztendlich sind es “nur” t-Tests bei abhängigen und unabhängigen Stichproben.

Hinweis: Berechnete Effektstärken werden mit Effektstärken ähnlicher Studien verglichen. Alternativ können fachspezifische Grenzen verwendet werden. Behelfsweise kann auf die Grenzen von Cohen (1992) zurückgegriffen werden. Diese sind 0,2; 0,5 und 0,8 für kleine, mittlere und große Effekte.

 

Szenario I: Beobachtbare Interaktion

Wenn eine Interaktion beobachtet werden konnte, werden für die paarweisen Vergleiche mit hinreichend kleinem p-Wert die Effektstärken berechnet. Das würde im Beispiel bedeuten, dass aus den in Abschnitt 5.1 beobachteten paarweisen Unterschieden die Effektstärken berechnet werden sollten.

Zusammengefasst für mein Beispiel ist folgendes zu untersuchen:

A) Gruppenunterschiede

B) Zeitunterschiede


 

Zu A) Gruppenunterschiede
Für die Gruppenunterschiede erhält man Effektstärken, indem man unabhängige t-Tests rechnet.
Analysieren > Mittelwerte und Proportionen vergleichen > t-Test bei unabhängigen Stichproben

Im Output sieht man dann in der Spalte Punktschätzung, bei Cohen’s d bzw. Hedges’ Korrektur von d die entsprechenden Effektstärken.


 

Zu B) Zeitunterschiede
Für die Unterschiede über die Zeit je Gruppe erhält man Effektstärken, indem man abhängige/paarige t-Tests rechnet.
Bevor jedoch direkt losgerechnet wird, ist entsprechend ein Filter zu setzen. Uns interessieren in meinem Beispiel nur die Unterschiede zwischen den Zeitpunkten 1-3, 1-5, 2-5 und 4-5 der Experimentalgruppe.
Demzufolge müssen die Beobachtungen aller anderen Gruppen ausgeschlossen werden, da diese sonst die Ergebnisse verzerren. Das Setzen des Filters zeigt dieser Beitrag ausführlich.

Nun ist der paarige t-Test durchzuführen:
Analysieren > Mittelwerte und Proportionen vergleichen > t-Test bei Stichproben mit paarigen Werten

Erkennbar ist hierbei folgendes:


 

Szenario II: Keine beobachtbare Interaktion

Erneut der Hinweis: ich verwende dasselbe Datenbeispiel, dürfte aber folgendes aufgrund eines beobachteten Interaktionseffektes nicht tun. Aus didaktischen Gründen zeige ich die Berechnung der Effektstärken für A) Innersubjekteffekt und B) Zwischensubjekteffekt in diesem Artikel aber gleich mit.

Zu A) Innersubjekteffekt
In Abschnitt 5.2 habe ich nur einen paarweisen Vergleich mit einem hinreichen kleinen p-Wert: Zwischen Zeitpunkt 1 und 5 mit p = 0.002.

Demzufolge rechne ich nur einen paarigen t-Test hierfür.

Die Gruppenzugehörigkeit spielt hier KEINE Rolle, da es sich nur um den Innersubjekteffekt über ALLE Individuen handelt.


Berichtet wird stets der Betrag, also die positive Effektstärke, die hier für den Unterschied zwischen T1 und T5 unter Missachtung der Gruppenzugehörigkeit |d| = 0.479 bzw. für die Korrelation der Messwerte korrigiert |d| = 0.689 beträgt.


 

Zu B) Zwischensubjekteffekt
Schließlich zeige ich noch die Berechnung der Effektstärke des Zwischensubjekteffekts. Ich habe nur 2 Gruppen, weswegen ich in Abschnitt 5.2 nur einen paarweisen Vergleich hatte. Dieser zeigte einen hinreichend kleinen p-Wert mit p < 0.001. Hierfür ist unbedingt zu beachten, dass die Zeitkomponente, also der Innersubjekteffekt komplett ignoriert wird. Es wird pro Individuum der Mittelwert über die Zeit gebildet. Transformieren > Variable berechnen
Ich berechnet mit der MEAN()-Funktion den Mittelwert über alle 5 Beobachtungszeitpunkte (“MEAN_T”):

Anschließend wird der t-Test für unabhängige Stichproben gerechnet.
Analysieren > Mittelwerte und Proportionen vergleichen > t-Test bei unabhängigen Stichproben
Die neu berechnete Testvariable MEAN_T kommt in das Feld Testvariable und es müssen die Gruppen definiert werden, die in Abschnitt 5.2 einen Unterschied aufgewiesen hatten.

Im Ergebnis kann Cohen’s d berichtet werden, alternativ auch Hedges’ Korrektur von d. Das betragsmäßige, also stets positive Berichten der Effektstärke ist üblich. |d| = 1.195.

 

7 Zusammenfassung

Dieser Beitrag ist sehr umfangreich geworden, was aber den verschiedenen Szenarien und möglicherweise notwendigen follow-up-Untersuchungen geschuldet ist.
Zusammenfassend ist festzuhalten:

  1. Prüfen, ob ein Interaktionseffekt vorliegt.
  2. Wenn ja, werden nur für diesen paarweise Vergleiche mitsamt Effektstärken gerechnet und interpretiert.
  3. Wenn nein, werden für Innersubjekteffekt und Zwischensubjekteffekt die p-Werte geprüft.
  4. Sollte einer oder beide Effekte beobachtbar sein, bei gleichzeitiger Abwesenheit einer “signifikanten” Interaktion, werden für jene entsprechend paarweise Vergleiche mitsamt Effektstärken gerechnet und interpretiert.

 

8 Reporting

Beim Berichten wird sich auf das Wesentliche beschränkt.

8.1 Szenario I: Beobachtbarer Interaktionseffekt

Beispielformulierung:
Der Interaktionseffekt zeigt einen hinreichend kleinen p-Wert. Nach Greenhouse-Geisser: F (3.283, 190.418) = 3.734, p = 0.010; nach Huynh-Feldt: F (3.564, 206.683) = 3.734, p = 0.008, partielles Eta² = 0.06, generalisiertes Eta² = 0.05. Demnach kann zwischen den Gruppen ein Unterschied über die Zeit beobachtet werden. Die anschließenden paarweisen Vergleiche haben gezeigt, dass sich die Kontrollgruppe (M = 25.59, SD = 3.42) und Experimentalgruppe (M = 27.77, SD = 2.86) zum Zeitpunkt 3 (p = 0.009, |d| = 0.695) als auch zum Zeitpunkt 5 (KG: M = 25.03, SD = 2.28, EG: M = 29.52, SD = 2.41 mit p = 0.009, |d| = 1.912) unterscheiden. Erwartungsgemäß weist die Experimentalgruppe höhere Werte aus.

Zusätzlich zeigt die KG keine Unterschiede über die Zeit, jedoch die EG. Es sind Unterschiede der EG zwischen Zeitpunkt 1 (M = 25.16, SD = 3.11) und Zeitpunkt 3 (M = 27.77, SD = 2.86 beobachtbar (p = 0.037, |d| = 0.683 bzw. korrigiertes |d| = 0.874), zwischen Zeitpunkt 1 (M = 25.16, SD = 3.11) und Zeitpunkt 5 (M = 29.52, SD = 2.41 beobachtbar (p < 0.001, |d| = 1.182 bzw. korrigiertes |d| = 1.562), zwischen Zeitpunkt 2 (M = 26.32, SD = 3.98) und Zeitpunkt 5 (M = 29.52, SD = 2.41 beobachtbar (p < 0.001, |d| = 0.721 bzw. korrigiertes |d| = 0.965) sowie zwischen Zeitpunkt 4 (M = 26.84, SD = 3.86) und Zeitpunkt 5 (M = 29.52, SD = 2.41 beobachtbar (p < 0.001, |d| = 0.609 bzw. korrigiertes |d| = 0.830)

In Ermangelung ähnlicher Studien zur Einordnung der Effektstärke sowie fehlender fachspezifischer Grenzen erfolgt die Einordnung anhand von Cohen (1992), S. 157. Die Unterschiede bei den paarweisen Vergleichen können als mittel bzw. stark eingestuft werden.

 

8.2 Szenario II: Nicht beobachtbarer Interaktionseffekt

Beispielformulierung mit Platzhaltern für Zahlen bei Berichten des Interaktionseffektes:
Ein Interaktionseffekt konnte nicht beobachtet werden, nach Greenhouse-Geisser: F (df1, df2) = x.y, p = z; nach Huynh-Feldt: F (df1, df2) = x.y, p = z.
Es konnte allerdings ein Zwischensubjekteffekt zwischen der KG (M = 25.31, SD = 1.46) und EG (M = 27.12, SD = 2.47) beobachtet werden, mit F (1,58) = 21.398, p < 0.001, partielles Eta² = 0.997, generalisiertes Eta² = 0.0706 sowie |d| = 1.195.

Zusätzlich konnte ein Innersubjekteffekt beobachtet werden, nach Greenhouse-Geisser: F (3.283, 190.418) = 3.716, p = 0.01; nach Huynh-Feldt: F (3.564, 206.683) = 3.716, p = 0.008, partielles Eta² = 0.060, generalisiertes Eta² = 0.049.
Paarweise Vergleiche zeigten lediglich Unterschiede für den Vergleich von Zeitpunkt 1 (M = 25.08, SD = 3.34) mit Zeitpunkt 5 (M = 27.35, SD = 3.24) mit p < 0.001, |d| = 0.479 bzw. korrigiertes |d| = 0.689.

In Ermangelung ähnlicher Studien zur Einordnung der Effektstärke sowie fehlender fachspezifischer Grenzen erfolgt die Einordnung anhand von Cohen (1992), S. 157 Die Unterschiede bei den paarweisen Vergleichen können als mittel bzw. stark eingestuft werden.

 

9 Downloads

Excel-Tabelle zum Nachvollziehen der Berechnung des generalisierten Eta-Quadrats:

Datensatz:

 

10 Videotutorials

 

11 Literatur

 

Die mobile Version verlassen