Inhaltsverzeichnis
1 Ziel des Welch-Tests (Welch t-Test bei ungleichen Varianzen)
Der Welch-Test prüft in der Nullhypothese, ob bei zwei unabhängigen Stichproben die Mittelwerte unterschiedlich sind. Allerdings benötigt der Welch-Test im Gegensatz zum normalen t-Test keine homogenen, also in etwa gleiche Varianzen. Das bedeutet, der Test funktioniert auch ohne in etwa ähnliche Varianzen der Testvariable über die Gruppen. Die Durchführung und Interpretation zeigt dieser Artikel. Bei hinreichend gleichen Varianzen ist der normale t-Test für unabhängige Stichproben zu rechnen.
2 Voraussetzungen des Welch-Tests
Die wichtigsten Voraussetzungen sind:
- zwei voneinander unabhängige Stichproben/Gruppen
- metrisch skalierte y-Variable
- normalverteilte y-Variable innerhalb der Gruppen – falls nicht, Mann-Whitney-U-Test
- Keine homogenen (in etwa gleiche) Varianzen der y-Variablen der Gruppen – über Levene-Test
Hinweis: Sind deine Varianzen homogen, rechnest du den einfachen t-Test bei unabhängigen Stichproben.
3 Durchführung des Welch-Tests in R
Sind die o.g. Voraussetzung erfüllt, fahrt ihr hier fort:
Nach einer kurzen deskriptiven Darstellung über die describeBy()-Funktion des psych-Pakets, gewinnt man einen ersten Eindruck über potenzielle Unterschiede hinsichtlich der Gruppenmittelwerte.
describeBy(df$Gewicht, df$Geschlecht)
Die Männer sind mit 0 codiert und besitzen ein mittleres Gewicht von 73,27kg, die Frauen (mit 1 codiert) von 58,56kg. Die stark unterschiedliche Standardabweichung (sd) ist auch schon ein recht deutlicher Hinweis auf Varianzheterogenität.
Descriptive statistics by group
group: 0
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 26 73.27 15.53 67.5 72.18 17.79 55 105 50 0.45 -1.2 3.05
------------------------------------------------------------------------------
group: 1
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 25 58.56 6.16 58 58.19 7.41 50 72 22 0.37 -0.92 1.23
Die Durchführung des t-Tests wird also wohl einen Unterschied aufzeigen.
3.1 Ungerichtete Hypothese – Zweiseitige Testung
Zunächst wird ungerichtet getestet. Das heißt, dass nur auf einen Unterschied getestet wird, aber unklar ist, welche Geschlechtergruppe ein größeres oder kleineres Gewicht hat.
Die t.test()-Funktion erfordert kein weiteres Paket und kann direkt durchgeführt werden. Zuerst ist die Testvariable und dann die Gruppierungsvariable einzusetzen – getrennt durch “~”. Zusätzlich ist ein notwendiges Argument für ungleiche Varianzen var.equal = FALSE. Wenn es nicht das Standard-95%-Konfidenzintervall sein soll, dann ist conf.level = 0.9 oder conf.level = 0.99 anzufügen.
t.test(df$Gewicht~df$Geschlecht, var.equal = FALSE)
Das Ergebnis ist nun recht ausführlich dargestellt.
Welch Two Sample t-test
data: df$Gewicht by df$Geschlecht
t = 4.4767, df = 32.945, p-value = 8.567e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
8.023996 21.394465
sample estimates:
mean in group 0 mean in group 1
73.26923 58.56000
- Wesentlich ist hierbei der p-Wert mit 8,567e-05. Das ist die wissenschaftliche Schreibweise für 0,00008567, also ein sehr kleiner Wert, der unter der typischen Verwerfungsgrenze von Alpha = 0,05 liegt. Die Nullhypothese von Gleichheit kann somit verworfen werden. Es bestehen Unterschiede beim Gewicht hinsichtlich der beiden Gruppen.
- Das 95%-Konfidenzintervall ist 8,024 – 21,394 und umfasst nicht die Null. Es kommt daher also ebenfalls zum Ergebnis wie der p-Wert: Verwerfung der Nullhypothese.
- Die Mittelwerte sind erneut unten aufgelistet (73,27 für die Männer, 58,56 für die Frauen)
Beim Berichten schreibt man: t (32,945) = 4,477; p < 0.001 bzw. den exakten p-Wert, wenn er nicht unter 0,001 liegt.
Die Nullhypothese von Gleichheit über die Gruppen wird somit verworfen. Es bestehen Mittelwertunterschiede zwischen den Geschlechtern hinsichtlich des Gewichts.
3.2 Gerichtete Hypothese – Einseitige Testung
Ein einseitiges Testen ist möglich. Hierzu wird die Signifikanz des obigen zweiseitigen Tests schlicht halbiert. Das ändert in dem Falle allerdings nichts am Ergebnis meines Beispiels. Die Nullhypothese wird weiterhin verworfen.
ACHTUNG: Testet man einseitig, ist das im Vorfeld zu benennen und die Hypothese explizit zu formulieren.
Eine gerichtete und sehr naheliegende Hypothese aus Erfahrungswerten ist: Männer haben im Durchschnitt ein größeres Körpergewicht als Frauen.
Dies kann man auch explizit in t.test() formulieren, indem das Argument alternative verwendet wird.
t.test(df$Gewicht~df$Geschlecht, var.equal = FALSE, alternative ="greater")
alternative hat drei mögliche Ausprägungen:
- greater gibt an, dass unterstellt wird, dass der Mittelwert der Gruppe 0 größer als der Gruppe 1 ist.
- less gibt an, dass unterstellt wird, dass der Mittelwert der Gruppe 0 kleiner als der Gruppe 1 ist.
- two.sided gibt an, dass unterstellt wird, dass nicht bekannt ist, welche Gruppe einen größeren Mittelwert hat. Das ist die Standardeinstellung und muss nicht explizit definiert werden.
Der Output ist für den obigen Code folgender:
Welch Two Sample t-test
data: df$Gewicht by df$Geschlecht
t = 4.4767, df = 32.945, p-value = 4.284e-05
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
9.148372 Inf
sample estimates:
mean in group 0 mean in group 1
73.26923 58.56000
Der p-Wert ist tatsächlich halbiert. Zusätzlich ist nun die durch den geringen p-Wert anzunehmende Alternativhypothese auch explizit formuliert (“alternative hypothesis: true difference in means is greater than 0”).
Der Mittelwert der Gruppe 0 abzüglich des Mittelwerts der Gruppe 1 ist größer als 0. Das ist eine andere Formulierung für: Der Mittelwert der Gruppe 0 ist größer als der Mittelwert der Gruppe 1.
4 Die Effektstärke – wie stark ist der Unterschied?
Der p-Wert sagt nichts über die Größe/Stärke eines Effektes aus. Hierzu wird Cohen’s d verwendet. Das wird von R im Rahmen des Welch-Tests nicht mit ausgegeben und ist separat zu berechnen. Hierzu benötigt es das Paket lsr und dessen cohensD()-Funktion.
install.packages("lsr")
library(lsr)
cohensD(df$Gewicht~df$Geschlecht)
1.235857
Dieser Wert ist nun einzuordnen. Primär sollten vergleichbare Studien herangezogen werden oder sich an fachspezifischen Grenzen orientiert werden. Sollte beides nicht vorhanden sein, kann sich auf Cohen, J. (1992). A power primer. Psychological bulletin, 112(1), S. 157 bezogen werden. Cohen gibt folgende Grenzen an:
- >0,2 – kleiner Effekt
- >0,5 – mittlerer Effekt
- >0,8 – großer Effekt
Das Ergebnis von 1,236 liegt über der Grenze zum starken Effekt (nach Cohen (1992, S. 157)). Somit ist der Unterschied hinsichtlich des Gewichts in der Stichprobe zwischen den Geschlechtern stark.
5 Reporting des Welch-Tests
Gruppenmittelwerte und Standardabweichungen sind zu berichten. Zusätzlich die t-Statistik mit Freiheitsgraden, der p-Wert und die Effektstärke (Cohens d bzw. Hedges’ Korrektur):
t (df) = t-Wert; p-Wert; Effektstärke.
Männer (M = 73,27; SD = 15,53) haben gegenüber Frauen (M = 58,56; SD = 6,16) eine höheres Körpergewicht, t(32,95) = 4,48; p < 0,001; d = 1,24.
Nach Cohen (1992) ist dieser Unterschied groß.
ACHTUNG: Je nach Disziplin können andere Standards für das Berichten gelten.
6 Literatur
- Cohen, J. (1988). Statistical power analysis for the behavioral sciences. New York, NY: Psychology Press, Taylor & Francis Group
- Cohen, J. (1992). A power primer. Psychological bulletin, 112(1), 155-159.
- Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics, SAGE.
7 Videotutorial