Website-Icon Björn Walther

Welch-Test in R durchführen

1 Ziel des Welch-Tests (Welch t-Test bei ungleichen Varianzen)

Der Welch-Test prüft in der Nullhypothese, ob bei zwei unabhängigen Stichproben die Mittelwerte unterschiedlich sind. Allerdings benötigt der Welch-Test im Gegensatz zum normalen t-Test keine homogenen, also in etwa gleiche Varianzen. Das bedeutet, der Test funktioniert auch ohne in etwa ähnliche Varianzen der Testvariable über die Gruppen. Die Durchführung und Interpretation zeigt dieser Artikel. Bei hinreichend gleichen Varianzen ist der normale t-Test für unabhängige Stichproben zu rechnen.

 

2 Voraussetzungen des Welch-Tests

Die wichtigsten Voraussetzungen sind:

Hinweis: Sind deine Varianzen homogen, rechnest du den einfachen t-Test bei unabhängigen Stichproben.

 

3 Durchführung des Welch-Tests in R

Sind die o.g. Voraussetzung erfüllt, fahrt ihr hier fort:

Untersuchungsbeispiel: Es besteht die Vermutung, dass sich Männer von Frauen hinsichtlich des Gewichtes unterscheiden. Die Testvariable ist demzufolge das Gewicht, die Gruppenvariable das Geschlecht. Beides befindet sich im Datensatz df, den ich mitsamt $ vor die Variablennamen setze.

 

Nach einer kurzen deskriptiven Darstellung über die describeBy()-Funktion des psych-Pakets, gewinnt man einen ersten Eindruck über potenzielle Unterschiede hinsichtlich der Gruppenmittelwerte.

 


describeBy(df$Gewicht, df$Geschlecht)

Die Männer sind mit 0 codiert und besitzen ein mittleres Gewicht von 73,27kg, die Frauen (mit 1 codiert) von 58,56kg. Die stark unterschiedliche Standardabweichung (sd) ist auch schon ein recht deutlicher Hinweis auf Varianzheterogenität.


 Descriptive statistics by group 
group: 0
   vars  n  mean    sd median trimmed   mad min max range skew kurtosis   se
X1    1 26 73.27 15.53   67.5   72.18 17.79  55 105    50 0.45     -1.2 3.05
------------------------------------------------------------------------------ 
group: 1
   vars  n  mean   sd median trimmed  mad min max range skew kurtosis   se
X1    1 25 58.56 6.16     58   58.19 7.41  50  72    22 0.37    -0.92 1.23

Die Durchführung des t-Tests wird also wohl einen Unterschied aufzeigen.

 

3.1 Ungerichtete Hypothese – Zweiseitige Testung

Zunächst wird ungerichtet getestet. Das heißt, dass nur auf einen Unterschied getestet wird, aber unklar ist, welche Geschlechtergruppe ein größeres oder kleineres Gewicht hat.

Die t.test()-Funktion erfordert kein weiteres Paket und kann direkt durchgeführt werden. Zuerst ist die Testvariable und dann die Gruppierungsvariable einzusetzen – getrennt durch “~”. Zusätzlich ist ein notwendiges Argument für ungleiche Varianzen var.equal = FALSE. Wenn es nicht das Standard-95%-Konfidenzintervall sein soll, dann ist conf.level = 0.9 oder conf.level = 0.99 anzufügen.


t.test(df$Gewicht~df$Geschlecht, var.equal = FALSE)

Das Ergebnis ist nun recht ausführlich dargestellt.


Welch Two Sample t-test
data:  df$Gewicht by df$Geschlecht
t = 4.4767, df = 32.945, p-value = 8.567e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
  8.023996 21.394465
sample estimates:
mean in group 0 mean in group 1 
       73.26923        58.56000

Beim Berichten schreibt man: t (32,945) = 4,477; p < 0.001 bzw. den exakten p-Wert, wenn er nicht unter 0,001 liegt.
Die Nullhypothese von Gleichheit über die Gruppen wird somit verworfen. Es bestehen Mittelwertunterschiede zwischen den Geschlechtern hinsichtlich des Gewichts.

 

3.2 Gerichtete Hypothese – Einseitige Testung

Ein einseitiges Testen ist möglich. Hierzu wird die Signifikanz des obigen zweiseitigen Tests schlicht halbiert. Das ändert in dem Falle allerdings nichts am Ergebnis meines Beispiels. Die Nullhypothese wird weiterhin verworfen. 

ACHTUNG: Testet man einseitig, ist das im Vorfeld zu benennen und die Hypothese explizit zu formulieren.

Eine gerichtete und sehr naheliegende Hypothese aus Erfahrungswerten ist: Männer haben im Durchschnitt ein größeres Körpergewicht als Frauen.

Dies kann man auch explizit in t.test() formulieren, indem das Argument alternative verwendet wird.


t.test(df$Gewicht~df$Geschlecht, var.equal = FALSE, alternative ="greater")

alternative hat drei mögliche Ausprägungen:

Der Output ist für den obigen Code folgender:


	Welch Two Sample t-test
data:  df$Gewicht by df$Geschlecht
t = 4.4767, df = 32.945, p-value = 4.284e-05
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 9.148372      Inf
sample estimates:
mean in group 0 mean in group 1 
       73.26923        58.56000

Der p-Wert ist tatsächlich halbiert. Zusätzlich ist nun die durch den geringen p-Wert anzunehmende Alternativhypothese auch explizit formuliert (“alternative hypothesis: true difference in means is greater than 0”).

Der Mittelwert der Gruppe 0 abzüglich des Mittelwerts der Gruppe 1 ist größer als 0. Das ist eine andere Formulierung für: Der Mittelwert der Gruppe 0 ist größer als der Mittelwert der Gruppe 1.

 

4 Die Effektstärke – wie stark ist der Unterschied?

Der p-Wert sagt nichts über die Größe/Stärke eines Effektes aus. Hierzu wird Cohen’s d verwendet. Das wird von R im Rahmen des Welch-Tests nicht mit ausgegeben und ist separat zu berechnen. Hierzu benötigt es das Paket lsr und dessen cohensD()-Funktion.


install.packages("lsr")
library(lsr)
cohensD(df$Gewicht~df$Geschlecht)

1.235857

Dieser Wert ist nun einzuordnen. Primär sollten vergleichbare Studien herangezogen werden oder sich an fachspezifischen Grenzen orientiert werden. Sollte beides nicht vorhanden sein, kann sich auf Cohen, J. (1992). A power primer. Psychological bulletin, 112(1), S. 157 bezogen werden. Cohen gibt folgende Grenzen an:

Das Ergebnis von 1,236 liegt über der Grenze zum starken Effekt (nach Cohen (1992, S. 157)). Somit ist der Unterschied hinsichtlich des Gewichts in der Stichprobe zwischen den Geschlechtern stark. 

 

5 Reporting des Welch-Tests

Gruppenmittelwerte und Standardabweichungen sind zu berichten. Zusätzlich die t-Statistik mit Freiheitsgraden, der p-Wert und die Effektstärke (Cohens d bzw. Hedges’ Korrektur):
t (df) = t-Wert; p-Wert; Effektstärke.

Männer (M = 73,27; SD = 15,53) haben gegenüber Frauen (M = 58,56; SD = 6,16) eine höheres Körpergewicht, t(32,95) = 4,48; p < 0,001; d = 1,24. Nach Cohen (1992) ist dieser Unterschied groß.

ACHTUNG: Je nach Disziplin können andere Standards für das Berichten gelten.

 

6 Literatur

 

7 Videotutorial

https://www.youtube.com/watch?v=JUDuzUWZO28/

 

Die mobile Version verlassen