t-Test für unabhängige Stichproben in R rechnen und interpretieren

Björn Walther

vor 4 Jahren

1 Ziel des t-Test bei unabhängigen Stichproben in R

Der t-Test für unabhängige Stichproben testet, ob für zwei unverbundene (unabhängige) Stichproben unterschiedliche Mittelwerte bzgl. einer abhängigen Testvariable existieren.

In Excel und SPSS kann der t-Test für unabhängige Stichproben auch gerechnet werden (Mehr allgemeine Infos).

Existieren mehr als zwei Gruppen, ist eine einfaktorielle ANOVA zu rechnen.

Sind die folgenden Voraussetzungen nicht erfüllt, sollte ein Mann-Whitney-U-Test gerechnet werden.

2 Voraussetzungen des t-Test bei unabhängigen Stichproben in R

Die wichtigsten Voraussetzungen sind:

zwei voneinander unabhängige Stichproben/Gruppen
metrisch skalierte y-Variable
normalverteilte y-Variable innerhalb der Gruppen
Homogene (in etwa gleiche) Varianzen der y-Variablen der Gruppen (Levene-Test) – nicht relevant bei circa gleichen Gruppengrößen
Bei ungleichen Varianzen wird der sog. Welch-Test bzw. Welch-t-Test gerechnet
Achtung: Mindeststichprobengröße bedenken – über eine Poweranalyse zu ermitteln

3 Durchführung des t-Test bei unabhängigen Stichproben in R

3.1 Nullhypothese

Die Nullhypothese beim t-Test für unabhängige Stichproben geht von in etwa Gleichheit der Mittelwerte der beiden Zeitpunkte aus.

Dieser Test kann einseitig und zweiseitig durchgeführt werden. Einseitig (auch gerichtet) heißt lediglich, dass eine konkrete Vermutung existiert, dass der Mittelwert der Testvariable (=abhängige Variable) der einen Gruppe kleiner oder größer ist als der Mittelwert der Testvariable der anderen Gruppe.

Standardmäßig wird zweiseitig (auch ungerichtet) getestet, das heißt es wird ein Unterschied vermutet, es ist aber unbekannt, welche Gruppe den größeren Mittelwert hat.

Ein Beispiel: Ich habe einen Datensatz mit Männern und Frauen und ich möchte schauen, ob sie sich im Mittel hinsichtlich ihrer Körpergröße (in m) unterscheiden.

Die Nullhypothese ist also im Beispiel: Es gibt keinen Unterschied hinsichtlich der Körpergröße (in m) zwischen Männern und Frauen.

Die Alternativhypothese im Beispiel lautet entsprechend: Es gibt einen Unterschied hinsichtlich der Körpergröße (in m) zwischen Männern und Frauen. Das können wir sogar konkretisieren, da wir aus Erfahrung wissen, dass Männer etwas größer (Frauen: 1,66 m, Männer: 1,79 m) sind . Die Alternativhypothese kann demzufolge sogar gerichtet formuliert werden: Männer haben im Mittel eine höhere Körpergröße (in m) als Frauen.

3.2 Code in R

Nach dem Einlesen der Daten wird die t.test()-Funktion verwendet, welche folgendes Format hat:


t.test(x~y, var.equal, alternative)

Die Funktion t.test() hat noch viele weitere Attribute, die drei obigen sind aber die wichtigsten.

„x“ ist die Testvariable, „y“ die Gruppenvariable. Bei mir ist „x“ die Körpergröße und „y“ das Geschlecht.
„var.equal“ gibt an, ob die Gruppen gleiche oder ungleiche Varianzen haben. Das sollte im Vorfeld getestet werden. Meist reicht ein Augentest mit z.B. der describeBy()-Funktion des „psych“-Pakets, weil der Levene-Test bei kleinen Stichproben zu liberal und bei großen zu sensitiv für marginale Abweichungen ist (vgl. Field (2018) S. 259).
„alternative“ gibt an, ob ein- oder zweiseitig getestet wird. Einseitig bedeutet, das im Vorfeld klar ist, welche Gruppe einen größeren oder kleineren Wert hat, also es existiert eine konkrete Wirkungsvermutung. Es kann im Beispiel einseitig getestet werden, ich zeige weiter unten sowohl einen einseitigen als auch einen zweiseitigen Test.

3.3 Deskriptive Voranalyse

Wie bereits weiter oben schon erwähnt, kann man sich einen kleinen deskriptiven Überblick über die beiden Gruppen verschaffen. Insbesondere für das Reporting am Schluss braucht man aber in der Regel ohnehin Mittelwert und Standardabweichung.
Die describeBy()-Funktion des „psych“-Pakets hilft hierbei:


install.packages("psych")
library(psych)
describeBy(df$Größe, df$Geschlecht)

Das führt zu:


Descriptive statistics by group 
group: 0
   vars  n mean   sd median trimmed  mad  min  max range skew kurtosis   se
X1    1 26 1.78 0.13   1.77    1.77 0.15 1.56 2.05  0.49 0.17    -0.86 0.03
-----------------------------------------------------------------------------
group: 1
   vars  n mean  sd median trimmed  mad  min  max range  skew kurtosis   se
X1    1 25 1.65 0.1   1.66    1.65 0.09 1.48 1.78   0.3 -0.47    -1.06 0.02

Die Gruppenmittelwerte (und Standardabweichungen) je Gruppe lauten:

Gruppe 0 (Männer): M = 1,78; SD = 0,13 und
Gruppe 1 (Frauen): M = 1,65; SD = 0,1

Die Varianzen sind die quadrierten Standardabweichungen und sind hier ähnlich groß.

3.4 Beispielcode in R: zweiseitiger Test


t.test(df$Größe~df$Geschlecht, var.equal = TRUE, alternative = "two.sided")

Wie zu erkennen ist, habe ich die Größe auf Unterschied hinsichtlich des Geschlechts geprüft („Größe~Geschlecht„).

Gleichzeitig habe ich eben schon geprüft, ob ich gleiche bzw. zumindest ähnliche Varianzen habe. Demzufolge verwende ich auch „var.equal = TRUE„. Sollten ungleiche Varianzen vorliegen, wird statt TURE einfach FALSE angegeben. Dann wird der sog. Welch-Test gerechnet, der für diese Ungleichheit korrigiert und einen unverzerrten p-Wert ausgibt.

Als „alternative“ habe ich „= two.sided“ angegeben. Das ist die typische Testung, die standardmäßig von t.test() vorgenommen wird – man kann dieses Argument daher auch hier weglassen.

3.5 Beispielcode in R: einseitiger Test

Existiert eine konkrete Vermutung, welche Gruppen einen größeren Mittelwert hat, wird einseitig getestet. Dazu wird noch das Argument „alternative = “greater“ “ oder „alternative = “less“ “ hinzu gefügt

Hierbei ist zu beachten, dass greater bedeutet, dass der Mittelwert von Gruppe 1 größer ist als von Gruppe 2.

Was ist Gruppe 1 und was ist Gruppe 2? Das wird im Vorfeld im Datensatz festgelegt. Im Beispiel hat die Geschlechtsvariable die Ausprägung 0 für Männer und 1 für Frauen. Die Gruppe 1 im t-Test ist also immer die Gruppe, deren Gruppierungscodierung kleiner ist. Bei mir die Männer.


t.test(df$Größe~df$Geschlecht, var.equal = TRUE, 
       alternative = "greater")

Wenn jedoch (aus welchen Gründen auch immer) davon ausgegangen wird, dass die Männer im Mittel kleiner sind als die Frauen, lautet das Argument “ alternative = “less“ „.


t.test(df$Größe~df$Geschlecht, var.equal = TRUE, 
       alternative = "less")

4 Interpretation der Ergebnisse des unabhängigen t-Tests in R

4.1 Interpretation des zweiseitigen t-Tests


	Two Sample t-test

data:  df$Größe by df$Geschlecht
t = -3.9402, df = 49, p-value = 0.0002581
alternative hypothesis: true difference in means between group Frau and group Mann is not equal to 0
95 percent confidence interval:
 -0.19516458 -0.06332773
sample estimates:
mean in group Frau mean in group Mann 
          1.649600           1.778846

Aus diesem Wust an Zahlen interessiert nur sehr weniges.

Zunächst stehen ganz unten die Gruppenmittelwerte. Für die Gruppe Männer: 1,778846 und für die Gruppe Frauen: 1,649600.
Diese beiden Mittelwerte werden gegeneinander getestet.
Der p-Wert ist mit 0,0002581 unter dem typischen Alphaniveau von 0,05. Man verwirft also die Nullhypothese von Gleichheit der Gruppenmittelwerte. Die Alternativhypothese „true difference in means is not equal to 0“ wird angenommen. Auf Deutsch: Die Mittelwertdifferenz ist ungleich 0. Demzufolge gehen wir von statistisch signifikanten Unterschieden hinsichtlich der Körpergröße bei Männern und Frauen aus.
Berichtet man die Ergebnisse, gibt man zusätzlich zum p-Wert, den Mittelwerten und den Standardabweichungen noch die t-Statistik (3,9402) sowie die Freiheitsgrade (df=49) zusätzlich zum p-Wert an: t(49) = 3,9402, p < 0,001

4.2 Interpretation des einseitigen t-Tests

Hier wurde nun der t-Test für unverbundene Stichproben einseitig gerechnet. Und zwar war die Vermutung, dass die Männer im Mittel größer sind.


	Two Sample t-test

data:  df$Größe by df$Geschlecht
t = -3.9402, df = 49, p-value = 0.000129
alternative hypothesis: true difference in means between group Frau and group Mann is less than 0
95 percent confidence interval:
        -Inf -0.07425165
sample estimates:
mean in group Frau mean in group Mann 
          1.649600           1.778846

Der einseitige t-Test ist nahezu analog zum zweiseitigen t-Test zu interpretieren:

Erneut stehen ganz unten die Gruppenmittelwerte. Für die Gruppe Männer: 1,778846 und für die Gruppe Frauen: 1,649600.
Nun wird getestet, ob der Mittelwert der Körpergröße der Männer größer als der Mittelwert der Körpergröße der Frauen ist
Der p-Wert ist mit 0,000129 unter dem typischen Alphaniveau von 0,05. Man verwirft also die Nullhypothese von Gleichheit der Mittelwerte zugunsten eines größeren Mittelwertes bei den Männern. Die Alternativhypothese „true difference in means is greater than 0“ wird angenommen. Hierbei wird von dem Gruppenmittelwert 0 der Gruppenmittelwert 1 gedanklich abgezogen. Mit 0,129246 und dem sehr kleinen p-Wert wird diese Alternativhypothese angenommen.
Der p-Wert beim einseitigen Test ist stets halb so groß wie beim zweiseitigen Test – vorausgesetzt man hat die korrekte Alternativhypothese (greater, less) formuliert.
Berichtet man die Ergebnisse, gibt man zusätzlich zum p-Wert noch die Mittelwerte, Standardabweichungen, die t-Statistik (3,9402) sowie die Freiheitsgrade (df=49) zusätzlich zum p-Wert an: t(49) = 3,9402, p < 0,001

5 Effektstärke berechnen

Sollte der Effekt/Unterschied wie im Beispiel einen hinreichend kleinen p-Wert haben, sollte dieser auch quantifiziert werden – p-Werte sagen bekanntermaßen ja nichts über die Größe oder Stärke eines Effektes aus. Deswegen bedient man sich typischerweise Cohen’s d.
Im lsr-Paket gibt es die Funktion cohensD(). Diese ist analog zum t-Test aufgebaut:


library(lsr)
cohensD(df$Größe~df$Geschlecht)

Hierfür erhält man folgendes Cohens d:


[1] 1.103681

Im Beispiel erhalten wir Cohens d = 1,1. Diese Effektstärke wird typischerweise betragsmäßig, also positiv berichtet.
Dieser Wert ist noch einzuordnen, was zunächst mit I) vergleichbaren Studien oder II) fachspezifischen Grenzen passieren sollte. Wenn beides nicht vorhanden ist, kann III) Cohen (1992) verwendet werden.

In Cohen (1992), S. 157 sind folgende Grenzen zu finden:

ab 0,2: kleiner Effekt
ab 0,5: mittlerer Effekt
ab 0,8: großer Effekt

Der hier gefundene Effekt von 1,1 entspricht also einem großen Effekt, nach Cohen (1992), S. 157.

ACHTUNG: Erneut der Hinweis: Je nach Disziplin können andere Grenzen gelten bzw. Anwendung finden. Vergleichbare Studien und deren Effektstärken sind die erste Wahl zur Einordnung beobachteter Effekte!

6 Reporting des t-Tests bei unabhängigen Stichproben

Gruppenmittelwerte und Standardabweichungen sind zu berichten. Zusätzlich die t-Statistik mit Freiheitsgraden, der p-Wert und die Effektstärke (Cohens d bzw. Hedges‘ Korrektur):
t (df) = t-Wert; p-Wert; Effektstärke.

Frauen (M = 1,65; SD = 0,13) haben gegenüber Männern (M = 1,78; SD = 0,1) eine geringere Körpergröße, t(49) = 3,94; p < 0,001; d = 1,1. Nach Cohen (1992) ist dieser Unterschied groß.

ACHTUNG: Je nach Disziplin können andere Standards für das Berichten gelten.

7 Literatur

Cohen, J. (1988). Statistical power analysis for the behavioral sciences. New York, NY: Psychology Press, Taylor & Francis Group
Cohen, J. (1992). A power primer. Psychological bulletin, 112(1), 155-159.
Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics, SAGE.

8 Videotutorials

https://www.youtube.com/watch?v=NG9A2N-mGE8/ https://www.youtube.com/watch?v=3Yz-XNRasGM/ https://www.youtube.com/watch?v=JUDuzUWZO28/ https://www.youtube.com/watch?v=-_oaliyCDpA/ https://www.youtube.com/watch?v=TgJVJYkKhGU/ https://www.youtube.com/watch?v=TgJVJYkKhGU/

9 Download Beispieldatensatz

Jetzt herunterladen!