Inhaltsverzeichnis
1 Die gemischte ANOVA
1.1 Ziel der gemischten ANOVA
Eine gemischte ANOVA („mixed ANOVA“) hat das Ziel, Mittelwerte auf Unterschiede zu prüfen. Gemischt bedeutet, dass es sowohl Messwiederholungen derselben Individuen als auch Gruppen gibt.
Technisch ausgedrückt: es wird ein Innersubjektfaktor (Messwiederholung) sowie ein Zwischensubjektfaktor (Gruppen) berücksichtigt. Im Idealfall zeigt sich eine Interaktion zwischen diesen beiden Faktoren: unterschiedliche Entwicklung der Gruppen über die Zeit.
1.2 Beispiel
Eine Studie teilt Untersuchungssubjekte in eine Experimentalgruppe und eine Kontrollgruppe auf. Die Experimentalgruppe wird dauerhaft trainiert, die Kontrollgruppe nicht. Vor Trainingsbeginn wird eine Ausgangsmessung in T0 („Baseline-Messung“) für beide Gruppen durchgeführt. Diese umfassen v.a. Gesundheitsdaten, die in einem Fitness-Score zusammengefasst werden. Zu weiteren 4 verschiedenen Messzeitpunkten (T1-T4) werden dieselben Daten erfasst.
Somit gibt es zwei Gruppen (Zwischensubjektfaktor) und fünf Messzeitpunkte (Innersubjektfaktor).
Die Hypothese wäre hierbei, dass die Werte des Fitness-Scores der Experimentalgruppe (EG) im Zeitablauf höher werden, verglichen mit der Kontrollgruppe (CG).
2 Voraussetzungen der gemischten ANOVA
Zunächst wird nachfolgend eine kleine Übersicht aller notwendiger Voraussetzungen gezeigt. Die ersten drei Voraussetzungen sollten offensichtlich sein und werden hier nicht explizit geprüft. Sphärizität wird im Rahmen der gemischten ANOVA mitberechnet und in Kapitel 3 betrachtet, in diesem Kapitel aber kurz beschrieben.
2.1 Übersicht der Voraussetzungen
- zwei oder mehr voneinander abhängige Messungen – Messwiederholungen bei denselben Testsubjekten
- zwei oder mehr voneinander unabhängige Gruppen, z.B. Experimental- und Kontrollgruppe
- metrisch skalierte y-Variable
- Normalverteilung der Testvariable pro Gruppe für jeden Messzeitpunkt
- Homogenität der Varianzen über die Gruppen zu jedem Zeitpunkt – nur bei unterschiedlich großen Gruppen und verhältnismäßig kleinen Stichproben relevant
- Homogenität der Kovarianzen des Zwischensubjektfaktors
- Sphärizität – Homogene (nahezu gleiche) Varianzen der paarweisen Differenzen zwischen jeweils 2 Zeitpunkten
- Speziell in R: Long-Format der Daten
2.2 Normalverteilung der Testvariable pro Gruppe für jeden Messzeitpunkt
Die Prüfung auf Normalverteilung sollte am ehesten grafisch vorgenommen werden, da analytische Tests (Kolmogorov-Smirnov, Shapiro-Wilk) bei kleinen Stichproben zu liberal und bei großen Stichproben zu konservativ bzgl. Abweichungen sind (vgl. Field (2018), S. 248 sowie bei großen Stichproben speziell Lantz (2003)).
Da auch beim Histogramm die Säulenbreite und damit die Darstellung etwas manipuliert werden kann, empfiehlt sich ein Q-Q-Diagramm.
Hierzu verwende ich die ggqqplot()-Funktion des ggpubr-Pakets in Verbindung mit der Funktion facet_grid(). Letzere ermöglicht mir das Kombinieren der Faktoren (Zwischensubjekt und Innersubjekt).
Zuerst wird der Dataframe genannt (data.ma), dann die Testvariable in Anführungszeichen („value“) und mit facet_grid() wird die Unterteilung nach Gruppe sowie Zeit vorgenommen(group~time).
library(ggpubr)
ggqqplot(data.ma, "value")+
facet_grid (group~time)
Da es je Gruppe (CG bzw. EG) und Zeitpunkt (T0-T4) ein Diagramm gibt, sind es G*T Diagramme. Bei mir sind es 2 Gruppen und 5 Zeitpunkte und somit 2*5 = 10 Diagramme.
Die Funktion ggqqplot stellt diese übersichtlich neben- bzw. untereinander dar.

Die Punkte stellen die Messungen dar und die Linie die perfekte Normalverteilung. Daher sollten die Abstände zwischen den Punkten und der Linie minimiert werden. Auch hier wird es akzeptable Abweichungen geben, insbesondere an den Rändern der Verteilung, d. h. in der oberen rechten Ecke und in der unteren linken Ecke.
In meinem Beispiel existieren wenige Abweichungen. Am ehesten in Zeitpunkt 4 für die Kontrollgruppe (CG). Sollte es vereinzelt zu Abweichungen kommen, kann eine gemischte ANOVA dennoch durchgeführt werden, da sie recht robust in solchen Fällen ist (vgl. Blanca Mena et al. (2017)).
Bei nicht mehr akzeptablen Abweichungen hat man nur die Möglichkeit eine robuste oder nichtparametrische ANOVA zu rechnen. Z.B. mit den Paketen ARTool oder bwtrim.
2.3 Homogenität der Varianzen über die Gruppen zu jedem Zeitpunkt
Direkt vorweg: Sind die Gruppen in etwa gleich groß, spielt die Verletzung von Varianzhomogenität keine Rolle mehr (vgl. Field (2018), S. 259). Sind die Gruppengrößen ungleich gibt es theoretisch zwei, praktisch aber nur eine Möglichkeit der Prüfung.
1) Für die Prüfung auf Varianzhomogenität wird (immer noch) sehr häufig der Levene’s Test genannt. Ähnlich zum Test auf Normalverteilung (vgl. vorheriger Abschnitt 2.2) ist jener bei kleinen Stichproben zu liberal und bei großen Stichproben zu konservativ bzgl. Abweichungen von Varianzgleichheit (vgl. Field (2018), S. 259).
Seine Nullhypothese geht von Varianzgleichheit aus.
Wenn es unbedingt ein Levene’s Test sein muss, wäre der Pipe-fähige Code folgender:
library(rstatix)
library(dplyr)
data.ma %>%
group_by(time) %>%
levene_test(value~group)
Hieraus ergibt sich im Beispiel folgender Output:
# A tibble: 5 × 5
time df1 df2 statistic p
1 T0 1 58 1.10 0.298
2 T1 1 58 1.36 0.248
3 T2 1 58 1.53 0.221
4 T3 1 58 0.0491 0.825
5 T4 1 58 0.140 0.710
Pro Zeitpunkt sollten die Varianzen in etwa gleich sein, was mit der Signifikanz (p-Wert) in Verbindung mit der Nullhypothese von Varianzgleichheit geprüft wird. Kann sie nicht verworfen werden, „ist alles in Ordnung“. Einschränkungen, siehe unten.
Zum Levene’s Test: Field (2018), S. 259: „People have stopped using this approach for two reasons. First, violating this assumption matters only if you have unequal group sizes; if group sizes are equal this assumption is pretty much irrelevant and can be ignored. Second, tests of homogeneity of variance work best when you have equal group sizes and large samples (when it doesn’t matter if you have violated the assumption) and are less effective with unequal group sizes and smaller samples – which is exactly when the assumption matters. […] The take-home point is that you might as well always apply the correction and forget about the assumption.“ (vgl. ausführlich: Zimmermann (2004))
2) Wenn überhaupt, wird daher eine „Augenprüfung“ der Varianzen an sich bevorzugt (vgl. ebda.) und das Vorgehen hierzu kurz gezeigt. Auch hier kann mittels Piping und der summarise()-Funktion des dplyr-Pakets gearbeit wird.
data.ma %>%
group_by(time, group) %>%
summarise(var(value)) %>%
as.data.frame()
Hiermit werden die Varianzen je Zeitpunkt und nach Gruppen sortiert angefordert:
time group var(value)
1 T0 CG 13.142857
2 T0 EG 9.673118
3 T1 CG 12.751232
4 T1 EG 15.825806
5 T2 CG 11.751232
6 T2 EG 8.180645
7 T3 CG 14.615764
8 T3 EG 14.873118
9 T4 CG 5.177340
10 T4 EG 5.791398
Hier ist erkennbar, dass die Varianzen je Zeitpunkt zwischen den Gruppen (oben: Kontrollgruppe-CG, unten: Experimentalgruppe – EG) halbwegs ähnlich sind. Sollten in der Mehrzahl der Zeitpunkte unterschiedliche Varianzen vorliegen, kann eine Transformation der Testvariablen Abhilfe schaffen oder eine robuste oder nichtparametrische ANOVA gerechnet werden (mit den Paketen ARTool oder bwtrim).
2.4 Homogenität der Kovarianzen des Zwischensubjektfaktors
Homogenität der Kovarianzen ist eine Abkürzung für die Homogenität der Kovarianzen des Zwischensubjektfaktors, also z.B. der Gruppe.
Anders ausgedrückt: Die Kovarianzmatrizen der abhängigen Variable über die Gruppen sollten ungefähr gleich sein.
Ein gängiger Test für die Homogenität der Kovarianzen ist der Box’s M-Test. Seine Nullhypothese setzt die Homogenität der Kovarianzmatrizen voraus, was bedeutet, dass man die Nullhypothese lieber nicht verwerfen sollte.
Der Box’s M-Test ist jedoch anfällig, wenn der Stichprobenumfang zu groß oder zu klein ist oder die Normalverteilungsannahme verletzt ist. Es ist daher ratsam, mit Vorsicht vorzugehen und einen niedrigeren Alpha-Wert als üblich zu verwenden.
Der Box’s M-Test kann mit der box_m()_Funktion des rstatix-Pakets berechnet werden und erfordert eine etwas ungewöhnliche Syntax. Grundlegend wird der Dataframe, die Testvariable und die Gruppenvariable verwendet.
box_m(data.ma[, "value"], data.ma$group)
Im Ergebnis erhält man Folgendes:
# A tibble: 1 × 4
statistic p.value parameter method
1 0.593 0.441 1 Box's M-test for Homogeneity of Covariance Matrices
Im Beispiel ist der p-Wert (0.441) groß genug und die Nullhypothese wird beibehalten.
Sollten die Gruppengrößen ähnlich sein oder große Stichprobenumfänge existieren, werden kleine p-Werte tendenziell ignoriert und schlicht mit der Analyse fortgefahren – sofern hinreichende Normalverteilung vorliegt und als Grund für Signifikanz des Box-Tests ausgeschlossen werden kann.
2.5 Sphärizität – Homogene (in etwa gleiche) Varianzen der paarweisen Differenzen zwischen jeweils 2 Zeitpunkten
Sphärizität bedeutet gleiche Varianzen für die Differenz der Testvariable zwischen den Zeitpunkten 1 und 2, 1 und 3, 1 und 4, 1 und 5, 2 und 3 usw. Definitionsgemäß kann Sphärizität erst ab 3 Zeitpunkten überhaupt ein Thema sein. Sphärizität wird häufig mit dem sog. Mauchly-Test geprüft.
Wie auch schon der Levene’s Test und Shapiro-Wilk-Test, ist auch der Mauchlys-Test bei großen Stichproben zu sensitiv und hat bei kleinen Stichproben zu wenig Power, siehe Field (2018), S. 654-656.
Erneut wird daher unabhängig von den Ergebnissen des Mauchly-Tests eine Korrektur empfohlen – jene wird mit der gemischten ANOVA berechnet und ausgegeben. Die Interpretation des Mauchly-Tests sowie die Wahl des Korrekturverfahrens wird daher in Abschnitt 4.1 (Interpretation) gezeigt.
3 Gemischte ANOVA in R berechnen
Die Berechnung der gemischten ANOVA in R ist mit einer Zeile erledigt. Hierzu empfiehlt sich die anova_test()-Funktion aus dem rstatix-Paket;
- Man beginnt mit dem Data Frame (hier data.ma)
- dv ist die Testvariable (hier: value)
- wid ist die ID, welche im Longformat ohnehin erforderlich ist, damit eine Zuordnung der Messungen über die Zeitpunkte hinweg zu Individuen möglich ist (hier: ID)
- between ist der Zwischensubjektfaktor (hier: group)
- within ist der Innersubjektfaktor (hier: time)
- effect.size=“pes“ gibt die Effektstärke des partiellen Eta-Quadrats aus. „ges“ gibt das generalisierte Eta-Quadrat aus.
anova_test(data.ma, dv = value, wid = ID,
between = group, within = time,
effect.size = "pes")
4 Gemischte ANOVA – R-Ergebnisse interpretieren
Die Ergebnisse nach Ausführung der Zeile aus Abschnitt 3 führt zu folgendem Output:
ANOVA Table (type III tests)
$ANOVA
Effect DFn DFd F p p<.05 pes
1 group 1 58 21.398 2.14e-05 * 0.27
2 time 4 232 3.716 6.00e-03 * 0.06
3 group:time 4 232 3.734 6.00e-03 * 0.06
$`Mauchly's Test for Sphericity`
Effect W p p<.05
1 time 0.564 0.000178 *
2 group:time 0.564 0.000178 *
$`Sphericity Corrections`
Effect GGe DF[GG] p[GG] p[GG]<.05 HFe DF[HF] p[HF] p[HF]<.05
1 time 0.821 3.28, 190.42 0.01 * 0.876 3.5, 203.2 0.009 *
2 group:time 0.821 3.28, 190.42 0.01 * 0.876 3.5, 203.2 0.008 *
4.1 Sphärizität
Am Ende des Outputs findet sich der "Mauchly-Test auf Sphärizität".
$`Sphericity Corrections`
Effect GGe DF[GG] p[GG] p[GG]<.05 HFe DF[HF] p[HF] p[HF]<.05
1 time 0.821 3.28, 190.42 0.01 * 0.876 3.5, 203.2 0.009 *
2 group:time 0.821 3.28, 190.42 0.01 * 0.876 3.5, 203.2 0.008 *
Wie bereits in Abschnitt 2.5 erwähnt, wird hier recht nüchtern das Testergebnis berichtet und pauschal korrigiert - unabhängig von Verletzung oder nicht. In meinem Fall ist der p-Wert mit p < 0.001 sehr klein und eine Verletzung der Sphärizitätsannahme sehr wahrscheinlich. Dies hat in der Regel Auswirkungen auf den zu beurteilenden p-Wert von Innersubjekteffekt und Interaktionseffekt.
Bei großen Stichproben wird der Test grundlos signifikant. Wenn sich die Freiheitsgrade von GG und HF (DFd = 232) in den oberen Zeilen von $ANVOA nicht oder nur geringfügig von denen bei "Sphercity Corrections" unterscheiden (DF[GG] = 190.42 bzw. D[HF] = 203.2), ist keine Korrektur erforderlich, weil keine Verletzung vorliegt. Hier liegen deutliche Unterschiede vor, weshalb eine Korrektur sinnvoll erscheint.
Eine Korrektur erfolgt über angepasste Freiheitsgrade, nach Greenhousse-Geisser (GG)- und Huynh-Feldt (HF), die mit dem F-Wert kombiniert den p-Wert ergeben.
Field (2018), S. 658 fasst zusammen, dass bei Epsilon nach Greenhouse-Geisser < 0.75 (Spalte GGe, hier: 0.821), die Korrektur nach Greenhouse-Geisser verwendet werden sollte, sonst die Korrektur nach Huynh-Feldt.
Ich würde dennoch vorschlagen, das Epsilon nach Greenhouse-Geisser (hier: 0.821) sowie beide Korrekturen anzugeben, also die entsprechenden Zeilen bei Innersubjekteffekt und Interaktionseffekt in der noch zu betrachtenden Ergebnistabelle (vgl. Abschnitt 4.2).
4.2 Ergebnisse der gemischten ANOVA interpretieren
Bei den Ergebnissen gibt es nur zwei Szenarien, in Abhängigkeit des p-Werts des Interaktionseffektes. Kann ein Interaktionseffekt beobachtet werden (Szenario I), wird NUR jener berichtet. Kann kein Interaktionseffekt beobachtet werden, wird dies berichtet sowie Innersubjekteffekt und Zwischensubjekteffekt berichtet (Szenario II). Aus didaktischen Gründen verwende ich für Szenario II dieselben Ergebnistabellen, obwohl Innersubjekt- und Zwischensubjekteffekt im Beispielfall nicht berücksichtigt werden würden (siehe Begründung in Szenario I).
Szenario I: "Signifikanter" Interaktionseffekt
ANOVA Table (type III tests)
$ANOVA
Effect DFn DFd F p p<.05 pes
1 group 1 58 21.398 2.14e-05 * 0.27
2 time 4 232 3.716 6.00e-03 * 0.06
3 group:time 4 232 3.734 6.00e-03 * 0.06
$`Sphericity Corrections`
Effect GGe DF[GG] p[GG] p[GG]<.05 HFe DF[HF] p[HF] p[HF]<.05
1 time 0.821 3.28, 190.42 0.01 * 0.876 3.5, 203.2 0.009 *
2 group:time 0.821 3.28, 190.42 0.01 * 0.876 3.5, 203.2 0.008 *
Ich kann in meinem Beispiel nicht von Sphärizität ausgehen, weswegen ich im Abschnitt "Sphericity Corrections" die Interaktionsergebnisse beurteile.
- Zuerst wird geprüft, ob der Interaktionseffekt (im Beispiel: group:time) einen hinreichend niedrigen p-Wert aufweist.
- Ist dies der Fall, werden gemäß meiner i.V.m. den Empfehlungen von Field (2018) beide Korrekturen berichtet.
- Im Beispiel sind die p-Werte mit 0.010 (nach GG) bzw. 0.008 (nach HF) hinreichend klein.
- Die Nullhypothese keines Unterschiedes infolge der Interaktion wird demnach verworfen.
- Die Alternativhypothese eines Unterschiedes infolge der Interaktion wird entsprechend bekräftigt.
- Das partielle Eta-Quadrat (pes = 0.06) kann ebenfalls berichtet werden.
Berichtet wird der jeweilige F-Wert aus $ANVOA mit den Freiheitsgraden des Interaktionseffektes und den Freiheitsgraden des Fehlers sowie dem p-Wert (alle aus $`Sphericity Corrections`):
Reporting: Der Interaktionseffekt zeigt einen hinreichend kleinen p-Wert.
Nach Greenhouse-Geisser: F (3.28, 190.42) = 3.734, p = 0.010; nach Huynh-Feldt: F (3.5, 203.2) = 3.734, p = 0.008. Demnach kann zwischen den Gruppen ein Unterschied über die Zeit beobachtet werden. Die Effektstärke partielles Eta-Quadrat beträgt 0.06.
Was ist mit den "Haupteffekten"?
Ist ein Interaktionseffekt beobachtbar, wie im Beispiel, werden die sog. Haupteffekte (Innersubjekteffekt und Zwischensubjekteffekt jeweils einzeln) NICHT betrachtet. Es wurde ja gerade festgestellt, dass sie einander bedingen. Eine separate Interpretation würde die Konstanthaltung des jeweils anderen Faktors unterstellen. Das ist, wie wir gerade festgestellt haben, allerdings NICHT sinnvoll und sollte unterbleiben.
Szenario II: "Nicht Signifikanter" Interaktionseffekt
Nur wenn der Interaktionseffekt keinen hinreichend kleinen p-Wert aufweist, sollten Innersubjekteffekt und Zwischensubjekteffekt interpretiert werden. Ich tue aus didaktischen Gründen nun so, als wäre der p-Wert für der Interaktionseffekt nicht hinreichend klein. In der unteren Tabelle ($`Sphericity Corrections`) wird erneut bei GG und HF der p-Wert geprüft, allerdings nur für den Innersubjekteffekt, weil Sphärizität nur bei Effekten mit Messwiederholungen eine Rolle spielt.
ANOVA Table (type III tests)
$ANOVA
Effect DFn DFd F p p<.05 pes
1 group 1 58 21.398 2.14e-05 * 0.27
2 time 4 232 3.716 6.00e-03 * 0.06
3 group:time 4 232 3.734 6.00e-03 * 0.06
$`Sphericity Corrections`
Effect GGe DF[GG] p[GG] p[GG]<.05 HFe DF[HF] p[HF] p[HF]<.05
1 time 0.821 3.28, 190.42 0.01 * 0.876 3.5, 203.2 0.009 *
2 group:time 0.821 3.28, 190.42 0.01 * 0.876 3.5, 203.2 0.008 *
Für den Innersubjekteffekt wäre das bei mir "time". Der p-Wert ist mit 0.010 (nach GG) bzw. 0.009 (nach HF) hinreichend klein.
Reporting: Der Innersubjektfeffekt (Zeit) zeigt mit F (3.28, 190.42) = 3.716, p = 0.01 nach Greenhouse-Geisser sowie F (3.5, 203.2) = 3.716, p = 0.008 p-Wert eine Veränderung über die Zeit. Die Effektstärke für den Innersubjekteffekt weist ein partielles Eta-Quadrat von 0.06 auf.
Sphärizität spielt nur bei Messwiederholungen eine Rolle, weswegen für den Zwischensubjekteffekt (Gruppe) die Tabelle "$ANOVA" geprüft wird . Hierbei ist die Zeile mit dem Zwischensubjektfaktor (im Beispiel: group) von Interesse:
ANOVA Table (type III tests)
$ANOVA
Effect DFn DFd F p p<.05 pes
1 group 1 58 21.398 2.14e-05 * 0.27
2 time 4 232 3.716 6.00e-03 * 0.06
3 group:time 4 232 3.734 6.00e-03 * 0.06
Hier ist der p-Wert ebenfalls hinreichend klein (p < .001) und die Nullhypothese von Gleichheit wird zugunsten der Alternativhypothese von Ungleichheit verworfen.
Reporting: Der Zwischensubjekteffekt (Gruppe) zeigt mit F (1.58) = 21.398, p < 0.001 einen Gruppenunterschied Das partielle Eta-Quadrat des Zwischensubjekteffektes beträgt 0.27.
5 Follow-up bei der gemischten ANOVA
Analog zu der Interpretation in Abschnitt 4.2 hängt auch die Follow-Up-Analyse davon ab, ob ein Interaktionseffekt beobachtet werden konnte oder nicht. Für beide Szenarien müssen die entsprechenden geschätzten Randmittel berechnet werden.
In Szenario I konnte ein Interaktionseffekt beobachtet werden und ich möchte nun wissen, zu welchen Zeitpunkten sich die Gruppen unterschieden bzw. ob es innerhalb der Gruppen Veränderungen über die Zeit gegeben hat.
In Szenario II tue ich erneut so, als ob kein Interaktionseffekt vorliegt und schaue mir für Haupteffekte mit hinreichend kleinem p-Wert post-hoc-Tests an.
5.1 Szenario I: beobachtbare Interaktion
Prinzipiell gibt es nun zwei Möglichkeiten eine Interaktion zu untersuchen.
A) Gruppenunterschiede zu den einzelnen Zeitpunkten oder B) Unterschiede über die Zeit innerhalb der Gruppen.
A) Gruppenunterschiede zu den einzelnen Zeitpunkten
Aus dem rstatix-Paket wird die emmeans_test()-Funktion verwendet. emmeans steht für estimated marginal means, also geschätzte Randmittel. Da wir pro Zeitpunkt die Gruppen vergleichen wollen, wird zunächst die group_by()-Funktion mit dem Innersubjektfaktor (hier: time) verwendet und innerhalb der emmeans_test()-Funktion der Testwert je Gruppe verglichen (hier value~group). Da wir mehrfach auf dieselben Gruppen testen, muss Alphafehlerkumulierung vorgebeugt werden. Dazu wird die konservative Bonferroni-Methode verwendet (p.adjust.method = "bonferroni"):
data.ma %>%
group_by(time) %>%
emmeans_test(value~group, p.adjust.method = "bonferroni")
Hieraus ergibt sich folgender Output für die "Geschätzten Randmittel":
# A tibble: 5 × 10
time term .y. group1 group2 df statistic p p.adj p.adj.signif
1 T0 group value CG EG 290 -0.187 0.852 0.852 ns
2 T1 group value CG EG 290 -1.05 0.293 0.293 ns
3 T2 group value CG EG 290 -2.53 0.0118 0.0118 *
4 T3 group value CG EG 290 -1.53 0.127 0.127 ns
5 T4 group value CG EG 290 -5.19 0.000000394 0.000000394 ****
Erkennbar sind in der Spalte p.adj die angepassten p-Werte sowie in der Spalte p.adj.signif ein Indikator, welches Alphaniveau unterschritten wird. * = 0.05, ** = 0.01, usw.
In obiger Tabelle werden die gemessenen Werte der Gruppen je Zeitpunkt verglichen. Es ist erkennbar, dass sich die beiden Gruppen in meinem Beispiel zum Zeitpunkt T2 und T4 jeweils voneinader unterscheiden (p = 0.012 bzw. p < 0.001).
B) Unterschiede über die Zeit innerhalb der Gruppen
Sollen Unterschiede über die Zeit innerhalb von Gruppen mit den geschätzten Randmitteln untersucht werden, kann der obige Code mimimal angepasst und wiederverwendet werden. Hierzu werden lediglich Innersubjekt- und Zwischensubjektfaktor getauscht. Die Alphafehlerkorrektur wird beibehalten.
data.ma %>%
group_by(group) %>%
emmeans_test(value~time, p.adjust.method = "bonferroni")
Das führt zu folgender Ergebnistabelle, die in meinem Fall etwas größer ist:
# A tibble: 20 × 10
group term .y. group1 group2 df statistic p p.adj p.adj.signif
1 CG time value T0 T1 290 -0.472 0.638 1 ns
2 CG time value T0 T2 290 -0.668 0.505 1 ns
3 CG time value T0 T3 290 -0.589 0.556 1 ns
4 CG time value T0 T4 290 -0.0393 0.969 1 ns
5 CG time value T1 T2 290 -0.196 0.844 1 ns
6 CG time value T1 T3 290 -0.118 0.906 1 ns
7 CG time value T1 T4 290 0.432 0.666 1 ns
8 CG time value T2 T3 290 0.0786 0.937 1 ns
9 CG time value T2 T4 290 0.629 0.530 1 ns
10 CG time value T3 T4 290 0.550 0.583 1 ns
11 EG time value T0 T1 290 -1.37 0.172 1 ns
12 EG time value T0 T2 290 -3.08 0.00228 0.0228 *
13 EG time value T0 T3 290 -1.98 0.0491 0.491 ns
14 EG time value T0 T4 290 -5.13 0.000000530 0.00000530 ****
15 EG time value T1 T2 290 -1.71 0.0883 0.883 ns
16 EG time value T1 T3 290 -0.608 0.544 1 ns
17 EG time value T1 T4 290 -3.76 0.000204 0.00204 **
18 EG time value T2 T3 290 1.10 0.271 1 ns
19 EG time value T2 T4 290 -2.05 0.0410 0.410 ns
20 EG time value T3 T4 290 -3.15 0.00178 0.0178 *
- In meinem Beispiel gibt es bei der Kontrollgruppe keine beobachtbaren Unterschiede über die Zeit.
- Im Beispiel gibt es allerdings bei der Experimentalgruppe Unterschiede über die Zeit: T0-T2, T0-T4, T1-T4 sowie T3-T4 haben hinreichend kleine p-Werte.
5.2 Szenario II: keine beobachtbare Interaktion
Erneut der Hinweis: ich verwende dasselbe Datenbeispiel, dürfte aber nachfolgende Analysen aufgrund eines beobachteten Interaktionseffektes nicht durchführen und interpretieren. Aus didaktischen Gründen zeige ich die Interpretation der "Haupteffekte" in diesem Artikel aber gleich mit.
Zwischensubjekteffekt
Ich beginne mit der Untersuchung des Zwischensubjekteffektes (Gruppenunterschiede). Da ich nur zwei Gruppen habe, fällt dieser recht kurz aus. Der Code funktioniert aber auch für mehr als nur zwei Gruppen uneingeschränkt.
Für diesen posthoc-Test werden die Messungen zu den verschiedenen Zeitpunkten zusammengefasst. Das Prinzip: Es wird je Proband ein Mittelwert über alle Zeitpunkte gebildet und jene gruppenweise verglichen.
Im rstatix-Paket kann hierzu die pipe-fähige pairwise_t_test()-Funktion verwendet werden. Die Alphafehlerkorrektur wäre in meinem Fall bei zwei Gruppen und damit nur einem Test nicht notwendig. Ich führe Sie aber der Vollständigkeit wegen mit auf, wenn mehr als zwei Gruppen existieren bzw. der Zwischensubjektfaktor mehr als zwei Stufen hat.
data.ma %>%
pairwise_t_test(value ~ group, p.adjust.method = "bonferroni")
Das führt zu folgendem Ergebnis
# A tibble: 1 × 9
.y. group1 group2 n1 n2 p p.signif p.adj p.adj.signif
1 value CG EG 145 155 0.00000871 **** 0.00000871 ****
Hier sehen wir lediglich einen paarweisen Vergleich zwischen Kontrollgruppe und Experimentalgruppe. Erneut der Hinweis: die Zeitpunkte werden hierbei je Gruppe aggregiert und entsprechend nicht wie in Abschnitt 5.1 detailliert betrachtet. Die Signifikanz für den Gruppenvergleich ist mit p < 0.001 hinreichend klein. Demzufolge kann hier von einem Zwischensubjekteffekt ("Gruppenunterschied") gesprochen werden.
Je nach Anzahl der Gruppen, gibt es hier entsprechend mehr paarweise Vergleiche, da jede Gruppe mit jeder verglichen wird. Bei drei Gruppen wären es drei paarweise Vergleiche. Bei vier Gruppen wären es z.B. sechs paarweise Vergleiche, usw und ein angepasster p-Wert zu betrachten (p.adj).
Innersubjekteffekt
Die Untersuchung des Innersubjekteffektes bedeutet nun wiederum, dass paarweise Vergleiche über die Zeit unter Ignorierung der Gruppen durchgeführt werden.
Der Code hierfür ist analog zum Zwischensubjekteffekt mit dem einzigen Unterschied, dass hier das Argument paired = TRUE notwendig ist, da es sich um gepaarte t-Tests handelt.
data.ma %>%
pairwise_t_test(value ~ time, paired = TRUE,
p.adjust.method = "bonferroni")
Das führt zu folgender Ergebnistabelle:
# A tibble: 10 × 10
.y. group1 group2 n1 n2 statistic df p p.adj p.adj.signif
*
1 value T0 T1 60 60 -1.23 59 0.224 1 ns
2 value T0 T2 60 60 -2.59 59 0.012 0.12 ns
3 value T0 T3 60 60 -1.45 59 0.153 1 ns
4 value T0 T4 60 60 -3.71 59 0.000461 0.005 **
5 value T1 T2 60 60 -1.34 59 0.185 1 ns
6 value T1 T3 60 60 -0.470 59 0.64 1 ns
7 value T1 T4 60 60 -2.53 59 0.014 0.141 ns
8 value T2 T3 60 60 0.809 59 0.422 1 ns
9 value T2 T4 60 60 -1.32 59 0.192 1 ns
10 value T3 T4 60 60 -2.24 59 0.029 0.286 ns
Hier ist lediglich für den Zeitpunkt T0 und T4 ein hinreichend kleiner p-Wert mit p = 0.002 beobachtbar gewesen. Demzufolge kann nur ein Unterschied im Zeitablauf zwischen Zeitpunkt T0 und T4 beobachtet werden.
5.3 Grafische Ergänzung
Für die bessere Vorstellung kann noch ein Profil-Plot - ein Liniendiagramm mit Datenpunkten ausgegeben werden. Hier kann mit der ggline()-Funktion aus dem ggpubr-Paket gearbeitet werden:
library(ggpubr)
ggline(data.ma, x = "time", y = "value", color = "group",
add = "mean_se", palette = c("black", "grey"))
Das Ergebnis ist folgendes:

Hier sind die Unterschiede zwischen den Gruppen im Zeitablauf bei einer beobachtbaren Interaktion noch mal gut zu erkennen. Im Falle keiner beobachtbaren Interaktion kann dennoch zumindest die Beurteilung von Zwischensubjekteffekt und Innersubjekteffekt supplementiert werden.
6 Effektstärken
Bei den Effektstärken kann zwischen Effektstärken für Innersubjekteffekt, Zwischensubjekteffekt und Interaktionseffekt (partielles Eta-Quadrat: Abschnitt 6.1. und generalisiertes Eta-Quadrat: Abschnitt 6.2) und Effektstärken für die paarweisen Vergleiche (Abschnitt 6.3 und 6.4) unterschieden werden.
6.1 Effektstärke für die jeweiligen Effekte - partielles Eta-Quadrat
Zunächst wird für jeden Effekt, sofern in Abschnitt 3 nicht anders angefordert, die Effektstärke in Form des partiellen Eta-Quadrates ("pes") mit ausgegeben. Dies geschieht stets unabhängig der Signifikanz und basiert auf den Quadratsummen (manuelle Berechnung, siehe unten), weswegen die Korrekturen nach GG oder HF hierbei nicht von Relevanz sind.
Das partielle Eta-Quadrat ist die nur durch diesen Faktor erklärte Varianz. Hierbei wird die gesamte erklärte Varianz um die durch andere Faktoren erklärte Varianz bereinigt.
Im Falle einer beobachteten Interaktion wird sich erneut lediglich auf die Effektstärke jener beschränkt, je nach Disziplin kann aber auch ein pauschales Berichten der Effektstärken notwendig sein.
Zum Nachvollziehen der Berechnung des partiellen Eta-Quadrates (und in 6.2 des generalisierten Eta-Quadrats) wird mit dem zusätzlichen Argument detailed = TRUE in der anova_test()-Funktion gearbeitet.
Die Quadratsummen für die jeweilige Effekt stehen in der Spalte SSn, die Quadratsumme des Fehlers in der Spalte SSd. Die erste Zeile der Ergebnistabelle (Intercept) wird ignoriert.
> anova_test(data.ma, dv = value, wid = ID,
between = group, within = time,
effect.size = "pes", detailed = TRUE)
ANOVA Table (type III tests)
$ANOVA
Effect DFn DFd SSn SSd F p p<.05 pes
1 (Intercept) 1 58 205961.775 666.905 17912.259 5.98e-74 * 0.997
2 group 1 58 246.041 666.905 21.398 2.14e-05 * 0.270
3 time 4 232 164.760 2571.693 3.716 6.00e-03 * 0.060
4 group:time 4 232 165.560 2571.693 3.734 6.00e-03 * 0.060
Interaktionseffekt (Zeit*Gruppe)
Für den Interaktionseffekt ist die Effektstärke partielles Eta-Quadrat 0.06. Es ergibt sich aus der Quadratsumme des Interaktionseffektes (165.560), geteilt durch die Quadratsumme des Interaktionseffektes (165.560) und des Fehlers des Innersubjekteffektes (2571.693).
Partielles Eta-Quadrat für den Interaktionseffekt:
![]()
Innersubjekteffekt (Zeit)
Für den Innersubjekteffekt ist die Effektstärke partielles Eta-Quadrat ebenfalls 0.06. Es ergibt sich aus der Quadratsumme des Innersubjekteffektes (164.760), geteilt durch die Quadratsumme des Innersubjekteffektes (164.760) und des Fehlers des Innersubjekteffektes (2571.693).
Partielles Eta-Quadrat für den Innersubjekteffekt:
![]()
Zwischensubjekteffekt (Gruppe)
Für den Zwischensubjekteffekt ist die Effektstärke partielles Eta-Quadrat 0.27. Es ergibt sich aus der Quadratsumme des Zwischensubjekteffektes (246.041), geteilt durch die Quadratsumme des Zwischensubjekteffektes (246.041) und des Fehlers des Zwischensubjekteffektes (666.905).
Partielles Eta-Quadrat für den Zwischensubjekteffekt:
![]()
6.2. Effektstärke für die jeweiligen Effekte - generalisiertes Eta-Quadrat
Das generalisierte Eta-Quadrat ermöglicht die Vergleichbarkeit zu anderen Studien, wo der/die jeweils andere Faktoren nicht existieren und findet sich erarbeitet bei Olejnik, Algina (2003).
Wird also z.B. eine einfaktorielle ANOVA gerechnet, wird mit ihr nur ein Zwischensubjekteffekt untersucht. Das hierbei ermittelte Eta-Quadrat ist mit dem generalisierten Eta-Quadrat des Zwischensubjekteffekts dieser gemischten ANVOA vergleichbar.
Das liegt daran, dass der Korrekturfaktor um die jeweils andere Quadratsumme des Fehlers erweitert wird.
Mit dem Argument effect.size "ges" erhält man das jeweilige generalisierte Eta-Quadrat, welches zusätzlich zum partiellen Eta-Quadrat berichtet werden kann - je nach Fachdisziplin gelten evtl. spezielle Anforderungen, wie auch schon in 6.1. erwähnt.
> anova_test(data.ma, dv = value, wid = ID,
between = group, within = time,
effect.size = "ges", detailed = TRUE)
ANOVA Table (type III tests)
$ANOVA
Effect DFn DFd SSn SSd F p p<.05 ges
1 (Intercept) 1 58 205961.775 666.905 17912.259 5.98e-74 * 0.985
2 group 1 58 246.041 666.905 21.398 2.14e-05 * 0.071
3 time 4 232 164.760 2571.693 3.716 6.00e-03 * 0.048
4 group:time 4 232 165.560 2571.693 3.734 6.00e-03 * 0.049
Für den Interaktionseffekt ergibt sich die Effektstärke des generalisierten Eta-Quadrats aus der Quadratsumme des Interaktionseffektes (165.560), geteilt durch die Quadratsumme des Interaktionseffektes (165.560) und des Fehlers des Innersubjekteffektes (2571.693) sowie des Fehlers des Zwischensubjekteffektes (666.905).
![]()
Innersubjekteffekt (Zeit)
Für den Innersubjekteffekt ergibt sich die Effektstärke des generalisierten Eta-Quadrats aus der Quadratsumme des Innersubjekteffektes (164.760), geteilt durch die Quadratsumme des Innersubjekteffektes (164.760) und des Fehlers des Innersubjekteffektes (2571.693) sowie des Fehlers des Zwischensubjekteffektes (666.905).
Generalisiertes Eta-Quadrat für den Innersubjekteffekt:
![]()
Zwischensubjekteffekt (Gruppe)
Für den Zwischensubjekteffekt ist die Effektstärke partielles Eta-Quadrat 0.27. Es ergibt sich aus der Quadratsumme des Zwischensubjekteffektes (246.041), geteilt durch die Quadratsumme des Zwischensubjekteffektes (246.041) und des Fehlers des Zwischensubjekteffektes (666.905).
Generalisiertes Eta-Quadrat für den Zwischensubjekteffekt:
![]()
6.3 Effektstärken für paarweise Vergleiche
Sofern sich Effekte zeigen (Interaktion, Innersubjekt, Zwischensubjekt), werden wie in Kapitel 5 gezeigt, Geschätzte Randmittel gerechnet. Diese sind paarweise Vergleiche, z.T. abhängig (bei Innersubjekteffekt), unabhängig (bei Zwischensubjekteffekt) sowie mitunter beides beim Interaktionseffekt. Letztendlich sind es "nur" t-Tests bei abhängigen und unabhängigen Stichproben.
Hinweis: Berechnete Effektstärken werden betragsmäßig, also stets positiv berichtet und mit Effektstärken ähnlicher Studien verglichen. Alternativ können fachspezifische Grenzen verwendet werden. Behelfsweise kann auf die Grenzen von Cohen (1992), S. 157 zurückgegriffen werden. Diese sind 0,2; 0,5 und 0,8 für kleine, mittlere und große Effekte.
Szenario I: Beobachtbare Interaktion
Wenn eine Interaktion beobachtet werden konnte, werden für die paarweisen Vergleiche mit hinreichend kleinem p-Wert die Effektstärken berechnet. Das würde im Beispiel bedeuten, dass aus den in Abschnitt 5.1 beobachteten paarweisen Unterschieden die Effektstärken berechnet werden sollten.
A) Gruppenunterschiede zu den einzelnen Zeitpunkten
Zur besseren Übersicht speichere ich mir die oben (5.1) bereits berechneten Randmittel im Vektor t.
Gleichzeitig lasse ich die berechneten Effektstärken im Vektor es speichern.
Anschließend kombiniere ich die Vektoren, kürze aber unnötige Spalten noch raus.
# Geschätzte Randmittel in Vektor t speichern
t <- data.ma %>%
group_by(time) %>%
emmeans_test(value~group, p.adjust.method = "bonferroni")
# Effektstärken im Vektor es speichern
es <- data.ma %>%
group_by(time) %>%
cohens_d(value~group)
# Kombinieren der beiden Vektoren
d <- cbind(t,es$effsize,es$magnitude)
# Einkürzen um unnötige Spalten
d[ ,c(2,3,6,7,8)] <- NULL
# Ausgabe des Vektors d
d
Hieraus erhalte ich folgende Übersicht, die in den letzten beiden Spalten die Effektstärke und die o.g. Einordnung nach Cohen (1992), S. 157 zeigt. Effekte mit hinreichend kleinem p-Wert sind erneut in fett hervorgehoben:
time group1 group2 p.adj p.adj.signif es$effsize es$magnitude
1 T0 CG EG 8.519292e-01 ns -0.04775334 negligible
2 T1 CG EG 2.933744e-01 ns -0.24041898 small
3 T2 CG EG 1.179125e-02 * -0.69308352 moderate
4 T3 CG EG 1.269412e-01 ns -0.34414590 small
5 T4 CG EG 3.938379e-07 **** -1.91370172 large
- Für T2 wäre es d = - 0.693. Effektgrößen werden üblicherweise betragsmäßig, also stets positiv angegeben. Cohen's |d| für T3 wäre also 0.695.
- Für T4 wäre es d = - 1.913 bzw. |d| = 1.912.
- Darüber hinaus ist zu erwähnen, dass in manchen Disziplinen neben Cohen's d auch Hedges' Korrektur von d angegeben werden. Das ist individuell zu prüfen, wird aber von Grissom, Kim (2012), S. 69 empfohlen und kann innerhalb von cohens_d() mit hedges.correction = TRUE angefordert werden.
B) Unterschiede über die Zeit innerhalb der Gruppen
Das Vorgehen ist hier analog zu eben. Ich speichere die geschätzten Randmittel (5.1) im Vektor t und die Effektstärken im Vektor es und kombiniere sie zum Vektor d:
# Geschätzte Randmittel in Vektor t speichern
t <- data.ma %>%
group_by(group) %>%
emmeans_test(value~time, p.adjust.method = "bonferroni")
# Effektstärken im Vektor es speichern
es <- data.ma %>%
group_by(group) %>%
cohens_d(value~time, paired = TRUE)
# Kombinieren der beiden Vektoren
d <- cbind(t,es$effsize,es$magnitude)
# Einkürzen um unnötige Spalten
d[ ,c(2,3,6,7,8)] <- NULL
# Ausgabe des Vektors d
d
Hieraus erhalte ich folgende Übersicht, die in den letzten beiden Spalten die Effektstärke und die o.g. Einordnung nach Cohen (1992), S. 157 zeigt. Effekte mit hinreichend kleinem p-Wert sind erneut in fett hervorgehoben:
group group1 group2 p.adj p.adj.signif es$effsize es$magnitude
1 CG T0 T1 1.000000e+00 ns -0.082345897 negligible
2 CG T0 T2 1.000000e+00 ns -0.103109190 negligible
3 CG T0 T3 1.000000e+00 ns -0.083937560 negligible
4 CG T0 T4 1.000000e+00 ns -0.007241123 negligible
5 CG T1 T2 1.000000e+00 ns -0.032252887 negligible
6 CG T1 T3 1.000000e+00 ns -0.019616434 negligible
7 CG T1 T4 1.000000e+00 ns 0.099024784 negligible
8 CG T2 T3 1.000000e+00 ns 0.014016525 negligible
9 CG T2 T4 1.000000e+00 ns 0.149927961 negligible
10 CG T3 T4 1.000000e+00 ns 0.180975291 negligible
11 EG T0 T1 1.000000e+00 ns -0.226848910 small
12 EG T0 T2 2.281141e-02 * -0.682772853 moderate
13 EG T0 T3 4.908113e-01 ns -0.287565934 small
14 EG T0 T4 5.298678e-06 **** -1.182180718 large
15 EG T1 T2 8.830556e-01 ns -0.340989338 small
16 EG T1 T3 1.000000e+00 ns -0.098497074 negligible
17 EG T1 T4 2.036635e-03 ** -0.720835143 moderate
18 EG T2 T3 1.000000e+00 ns 0.186615805 negligible
19 EG T2 T4 4.104836e-01 ns -0.504301565 moderate
20 EG T3 T4 1.777769e-02 * -0.608517918 moderate
Erkennbar ist hierbei folgendes:
- Zwischen Zeitpunkt T0 und T2 ist Cohen's d = - 0.683 bzw. als Betrag |d| = 0.683.
- Zwischen Zeitpunkt T0 und T4 ist Cohen's |d| = 1.182.
- Zwischen Zeitpunkt T1 und T4 ist Cohen's |d| = 0.721.
- Zwischen Zeitpunkt T3 und T4 ist Cohen's |d| = 0.609.
- Erneut der Hinweis: in manchen Disziplinen wird neben Cohen's d auch Hedges' Korrektur von d angegeben. Das ist individuell zu prüfen, wird aber von Grissom, Kim (2012), S. 69 empfohlen und kann innerhalb von cohens_d() mit hedges.correction = TRUE angefordert werden.
Szenario II: Keine beobachtbare Interaktion
Erneut der Hinweis: ich verwende dasselbe Datenbeispiel, dürfte aber folgendes aufgrund eines beobachteten Interaktionseffektes nicht tun. Aus didaktischen Gründen zeige ich die Berechnung der Effektstärken für A) Innersubjekteffekt und B) Zwischensubjekteffekt in diesem Artikel aber gleich mit.
Zu A) Zwischensubjekteffekt
Schließlich zeige ich noch die Berechnung der Effektstärke des Zwischensubjekteffekts. Ich habe nur 2 Gruppen, weswegen ich in Abschnitt 5.2 nur einen paarweisen Vergleich hatte. Dieser zeigte einen hinreichend kleinen p-Wert mit p < 0.001. Hierfür ist unbedingt zu beachten, dass die Zeitkomponente, also der Innersubjekteffekt komplett ignoriert wird. Es wird pro Individuum der Mittelwert über die Zeit gebildet und diese dann über die Gruppe gemittelt.
Da es zumeist nicht so viele Gruppen gibt, kann hier auf eine kombinierte Übersicht aus den geschätzten Randmitteln und der Effektstärken verzichtet werden und ich rechne nur Cohen's d aus:
data.ma %>%
cohens_d(value ~ group)
Das führt zu folgendem Output:
# A tibble: 1 × 7
.y. group1 group2 effsize n1 n2 magnitude
*
1 value CG EG -0.523 145 155 moderate
Im Ergebnis kann Cohen's d berichtet werden, alternativ auch Hedges' Korrektur von d. Das betragsmäßige, also stets positive Berichten der Effektstärke ist üblich. |d| = 0.523.
Zu B) Innersubjekteffekt
In Abschnitt 5.2 habe ich nur einen paarweisen Vergleich mit einem hinreichen kleinen p-Wert: Zwischen Zeitpunkt 1 und 5 mit p = 0.002.
Demzufolge rechne ich nur einen paarigen t-Test hierfür.
Die Gruppenzugehörigkeit spielt hier KEINE Rolle, da es sich nur um den Innersubjekteffekt über ALLE Individuen handelt. Ich verwende erneut die Kombination aus geschätzten Randmitteln und Effektstärken, um eine Übersicht d ausgeben zu lassen:
# Geschätzte Randmittel in Vektor t speichern
t <- data.ma %>%
pairwise_t_test(value ~ time, paired = TRUE, p.adjust.method = "bonferroni")
# Effektstärken im Vektor es speichern
es <- data.ma %>%
cohens_d(value ~ time, paired = TRUE)
# Kombinieren der beiden Vektoren
# Einkürzen um unnötige Spalten
d <-cbind(t,es$effsize,es$magnitude)
d[ ,c(4:8)] <- NULL
# Ausgabe des Vektors d
d
.y. group1 group2 p.adj p.adj.signif es$effsize es$magnitude
1 value T0 T1 1.000 ns -0.15857651 negligible
2 value T0 T2 0.120 ns -0.33459425 small
3 value T0 T3 1.000 ns -0.18698543 negligible
4 value T0 T4 0.005 ** -0.47889659 small
5 value T1 T2 1.000 ns -0.17304092 negligible
6 value T1 T3 1.000 ns -0.06071459 negligible
7 value T1 T4 0.141 ns -0.32644777 small
8 value T2 T3 1.000 ns 0.10447342 negligible
9 value T2 T4 1.000 ns -0.17030642 negligible
10 value T3 T4 0.286 ns -0.28971042 small
Berichtet wird auch hier stets der Betrag, also die positive Effektstärke, die hier für den Unterschied zwischen T0 und T4 unter Missachtung der Gruppenzugehörigkeit |d| = 0.479 beträgt.
7 Zusammenfassung
Dieser Beitrag ist sehr umfangreich geworden, was aber den verschiedenen Szenarien und möglicherweise notwendigen follow-up-Untersuchungen geschuldet ist.
Zusammenfassend ist festzuhalten:
- Prüfen, ob ein Interaktionseffekt vorliegt.
- Wenn ja, werden nur für diesen paarweise Vergleiche mitsamt Effektstärken gerechnet und interpretiert.
- Wenn nein, werden für Innersubjekteffekt und Zwischensubjekteffekt die p-Werte geprüft.
- Sollte einer oder beide Effekte beobachtbar sein, bei gleichzeitiger Abwesenheit einer "signifikanten" Interaktion, werden für jene entsprechend paarweise Vergleiche mitsamt Effektstärken gerechnet und interpretiert.
8 Reporting
Beim Berichten wird sich auf das Wesentliche beschränkt.
8.1 Szenario I: Beobachtbarer Interaktionseffekt
Beispielformulierung:
Der Interaktionseffekt zeigt einen hinreichend kleinen p-Wert. Nach Greenhouse-Geisser: F (3.283, 190.418) = 3.734, p = 0.010; nach Huynh-Feldt: F (3.564, 206.683) = 3.734, p = 0.008, partielles Eta² = 0.06, generalisiertes Eta² = 0.05. Demnach kann zwischen den Gruppen ein Unterschied über die Zeit beobachtet werden. Die anschließenden paarweisen Vergleiche haben gezeigt, dass sich die Kontrollgruppe (M = 25.59, SD = 3.42) und Experimentalgruppe (M = 27.77, SD = 2.86) zum Zeitpunkt 3 (p = 0.009, |d| = 0.695) als auch zum Zeitpunkt 5 (KG: M = 25.03, SD = 2.28, EG: M = 29.52, SD = 2.41 mit p = 0.009, |d| = 1.912) unterscheiden. Erwartungsgemäß weist die Experimentalgruppe höhere Werte aus.
Zusätzlich zeigt die KG keine Unterschiede über die Zeit, jedoch die EG. Es sind Unterschiede der EG zwischen Zeitpunkt 1 (M = 25.16, SD = 3.11) und Zeitpunkt 3 (M = 27.77, SD = 2.86) beobachtbar (p = 0.037, |d|), zwischen Zeitpunkt 1 (M = 25.16, SD = 3.11) und Zeitpunkt 5 (M = 29.52, SD = 2.41) beobachtbar (p < 0.001, |d| = 1.182), zwischen Zeitpunkt 2 (M = 26.32, SD = 3.98) und Zeitpunkt 5 (M = 29.52, SD = 2.41) beobachtbar (p < 0.001, |d| = 0.721) sowie zwischen Zeitpunkt 4 (M = 26.84, SD = 3.86) und Zeitpunkt 5 (M = 29.52, SD = 2.41) beobachtbar (p < 0.001, |d| = 0.609)
In Ermangelung ähnlicher Studien zur Einordnung der Effektstärke sowie fehlender fachspezifischer Grenzen erfolgt die Einordnung anhand von Cohen (1992), S. 157. Die Unterschiede bei den paarweisen Vergleichen können als mittel bzw. stark eingestuft werden.
8.2 Szenario II: Nicht beobachtbarer Interaktionseffekt
Beispielformulierung mit Platzhaltern für Zahlen bei Berichten des Interaktionseffektes:
Ein Interaktionseffekt konnte nicht beobachtet werden, nach Greenhouse-Geisser: F (df1, df2) = x.y, p = z; nach Huynh-Feldt: F (df1, df2) = x.y, p = z.
Es konnte allerdings ein Zwischensubjekteffekt zwischen der KG (M = 25.31, SD = 1.46) und EG (M = 27.12, SD = 2.47) beobachtet werden, mit F (1,58) = 21.398, p < 0.001, partielles Eta² = 0.997, generalisiertes Eta² = 0.0706 sowie |d| = 1.195.
Zusätzlich konnte ein Innersubjekteffekt beobachtet werden, nach Greenhouse-Geisser: F (3.283, 190.418) = 3.716, p = 0.01; nach Huynh-Feldt: F (3.564, 206.683) = 3.716, p = 0.008, partielles Eta² = 0.060, generalisiertes Eta² = 0.049.
Paarweise Vergleiche zeigten lediglich Unterschiede für den Vergleich von Zeitpunkt 1 (M = 25.08, SD = 3.34) mit Zeitpunkt 5 (M = 27.35, SD = 3.24) mit p < 0.001, |d| = 0.479
In Ermangelung ähnlicher Studien zur Einordnung der Effektstärke sowie fehlender fachspezifischer Grenzen erfolgt die Einordnung anhand von Cohen (1992), S. 157 Die Unterschiede bei den paarweisen Vergleichen können als mittel bzw. stark eingestuft werden.
9 Downloads
Excel-Tabelle zum Nachvollziehen der Berechnung des generalisierten Eta-Quadrats:
Datensatz:
10 Videotutorials
Von meinem YouTube-Kanal:
- Prüfung der Normalverteilungsannahme in R
- Prüfung auf Homogenität der Kovarianzen in R
- Prüfung auf Homogenität der Varianzen in R
- Gemischte ANOVA rechnen und interpretieren in R
- Follow-up zur Interaktion bei der gemischten ANOVA in R
- Follow-up zu den Haupteffekten bei der gemischten ANOVA in R
- Effektstärke Eta-Quadrat (partiell und generalisiert) für die gemischte ANOVA in R
- Effektstärken für paarweise Vergleiche bei beobachtbarer Interaktion in der gemischten ANOVA in R
- Effektstärken für paarweise Vergleiche für die Haupteffekte in der gemischten ANOVA in R
- Reporting der Ergebnisse der gemischten ANOVA aus R
11 Literatur
- Blanca Mena, M. J., Alarcón Postigo, R., Arnau Gras, J., Bono Cabré, R., & Bendayan, R. (2017). Non-normal data: Is ANOVA still a valid option?. Psicothema, 2017, vol. 29, num. 4, p. 552-557.
- Cohen, J. (1992). Quantitive Methods in Psychology: A power primer. Psychological Bulletin, S. 155-159.
- Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics, SAGE.
- Grissom, R. J., Kim, J. J. (2012). Effect Sizes for Research, Routledge.
- Lantz, B. (2013). The large sample size fallacy. Scandinavian journal of caring sciences, 27(2), 487-492.
- Olejnik, S., Algina, J. (2003). Generalized eta and omega squared statistics: measures of effect size for some common research designs. Psychological methods, 8(4), 434.
- Schultz, B. (1985). Levene's Test for Relative Variation, Systematic Biology, Volume 34, Issue 4, December 1985, p. 449–456
- Wasserstein, R. L., & Lazar, N. A. (2016). The ASA statement on p-values: context, process, and purpose. The American Statistician, 70(2), 129-133.
- Zimmerman, D. W. (2004). A note on preliminary tests of equality of variances. British Journal of Mathematical and Statistical Psychology, 57(1), 173-181.


