t-Test für unabhängige Stichproben in R rechnen und interpretieren

von | Zuletzt bearbeitet am: Mar 12, 2024 | Mittelwertvergleich, R, t-Test

1 Ziel des t-Test bei unabhängigen Stichproben in R

Der t-Test für unabhängige Stichproben testet, ob für zwei unverbundene (unabhängige) Stichproben unterschiedliche Mittelwerte bzgl. einer abhängigen Testvariable existieren. Für abhängige Stichproben ist der t-Test für abhängige/verbundene Stichproben zu rechnen. In Excel und SPSS kann der t-Test für unabhängige Stichproben auch gerechnet werden. Habt ihr mehr als zwei Gruppen, ist eine einfaktorielle ANOVA zu rechnen.

Sind die folgenden Voraussetzungen nicht erfüllt, solltet ihr einen Mann-Whitney-U-Test rechnen.

2 Voraussetzungen des t-Test bei unabhängigen Stichproben in R

Die wichtigsten Voraussetzungen sind:

 

3 Durchführung des t-Test bei unabhängigen Stichproben in R

3.1 Nullhypothese

Die Nullhypothese beim t-Test für unabhängige Stichproben geht von in etwa Gleichheit der Mittelwerte der beiden Gruppen aus.

Ihr könnt bei diesem Test einseitig und zweiseitig testen. Einseitig (auch gerichtet) heißt lediglich, dass ihr eine konkrete Vermutung habt, dass der Mittelwert der Testvariable (=abhängige Variable) der einen Gruppe kleiner oder größer ist als der Mittelwert der Testvariable der anderen Gruppe. Standardmäßig wird zweiseitig (auch ungerichtet) getestet, das heißt ihr vermutet einen Unterschied, wisst aber nicht, welche Gruppe den größeren Mittelwert hat.

Ein Beispiel: Ich habe einen Datensatz mit Männern und Frauen und ich möchte schauen, ob sie sich im Mittel hinsichtlich ihrer Körpergröße (in m) unterscheiden.

Die Nullhypothese ist also im Beispiel: Es gibt keinen Unterschied hinsichtlich der Körpergröße (in m) zwischen Männern und Frauen.

Die Alternativhypothese im Beispiel lautet entsprechend: Es gibt einen Unterschied hinsichtlich der Körpergröße (in m) zwischen Männern und Frauen. Das können wir sogar konkretisieren, da wir aus Erfahrung wissen, dass Männer etwas größer (Frauen: 1,66 m, Männer: 1,79 m) sind . Die Alternativhypothese kann demzufolge sogar gerichtet formuliert werden: Männer haben im Mittel eine höhere Körpergröße (in m) als Frauen.  

 

3.2 t-Statistik

Die Berechnung der T-Statistik ist die Basis, die folgende Formel hat:

    \[ T=\frac{\bar{X}-\bar{Y}-{\omega_0 }}{s}\cdot \sqrt{\frac{nm}{n+m}} \]

Zum Glück muss man das in R nicht alles nachbauen und kann direkt die Funktion t.test() verwenden.  

 

3.3 Code in R

Nach dem Einlesen eurer Daten verwendet ihr die Funktion t.test():


t.test(x~y, var.equal, alternative)

Die Funktion t.test() hat noch viele weitere Attribute, die drei obigen sind aber die wichtigsten.

  • “x” ist eure Testvariable, “y” die Gruppenvariable. Bei mir ist “x” die Körpergröße und “y” das Geschlecht.
  • “var.equal” gibt an, ob ihr gleiche oder ungleiche Varianzen habt. Das solltet ihr im Vorfeld testen. Meist reicht ein Augentest mit z.B. der “describeBy”-Funktion des “psych”-Pakets, weil der Levene-Test bei kleinen Stichproben zu liberal und bei großen zu sensitiv ist (vgl. Field (2018) S. 259).
  • “alternative” gibt an, ob ein- oder zweiseitig getestet wird. Einseitig bedeutet, ihr wisst, welche Gruppe einen größeren oder kleineren Wert hat, also es existiert eine konkrete Wirkungsvermutung. Wir können hier einseitig testen, ich zeige weiter unten sowohl einen einseitigen als auch einen zweiseitigen Test.

 

3.4 Deskriptive Voranalyse

Ich hatte es eben schon erwähnt. Man kann sich einen kleinen Überblick über die beiden Gruppen verschaffen. Insbesondere für das Reporting am Schluss braucht man aber in der Regel ohnehin Mittelwert und Standardabweichung.
Die “describeBy”-Funktion des “psych”-Pakets hilft hierbei:


install.packages("psych")
library(psych)
describeBy(Größe, Geschlecht)

Das führt zu:


Descriptive statistics by group 
group: 0
   vars  n mean   sd median trimmed  mad  min  max range skew kurtosis   se
X1    1 26 1.78 0.13   1.77    1.77 0.15 1.56 2.05  0.49 0.17    -0.86 0.03
-----------------------------------------------------------------------------
group: 1
   vars  n mean  sd median trimmed  mad  min  max range  skew kurtosis   se
X1    1 25 1.65 0.1   1.66    1.65 0.09 1.48 1.78   0.3 -0.47    -1.06 0.02

Die Gruppenmittelwerte (und Standardabweichungen) je Gruppe lauten:

  • Gruppe 0 (Männer): M = 1,78; SD = 0,13 und
  • Gruppe 1 (Frauen): M = 1,65; SD = 0,1

Die Varianzen sind die quadrierten Standardabweichungen und sind hier ähnlich groß.

 

3.5 Beispielcode in R: zweiseitiger Test


t.test(Größe~Geschlecht, var.equal = TRUE, alternative = "two.sided")

Wie zu erkennen ist, habe ich die Größe auf Unterschied hinsichtlich des Geschlechts geprüft (“Größe~Geschlecht“). Gleichzeitig habe ich eben schon geprüft, ob ich gleiche bzw. zumindest ähnliche Varianzen habe. Demzufolge verwende ich auch “var.equal = TRUE“. Sollte ihr ungleiche Varianzen haben, gebt ihr statt TURE einfach FALSE an, dann wird der sog. Welch-Test gerechnet, der für diese Ungleichheit korrigiert und einen unverzerrten p-Wert ausgibt.
Als “alternative” habe ich “= two.sided” angegeben. Das ist die typische Testung, die standardmäßig von t.test() vorgenommen wird – man kann dieses Argument daher auch hier weglassen.  

 

3.6 Beispielcode in R: einseitiger Test

Habt ihr eine konkrete Vermutung, welche Gruppen einen größeren Mittelwert hat, testet ihr einseitig. Dazu fügt ihr dem Code noch das Argument “alternative = “greater“ ” oder  “alternative = “less“ ” hinzu.
Hierbei ist zu beachten, dass greater bedeutet, dass eure Gruppe 1 größer ist als Gruppe 2. Was ist Gruppe 1 und was ist Gruppe 2? Das habt ihr im Vorfeld im Datensatz festgelegt. In meinem Fall hat die Geschlechtsvariable die Ausprägung 0 für Männer und 1 für Frauen. Die Gruppe 1 im t-Test ist also immer die Gruppe, deren Gruppierungscodierung kleiner ist. Bei mir die Männer.


t.test(Größe~Geschlecht, var.equal = TRUE, alternative = "greater")

Wenn ihr jedoch (aus welchen Gründen auch immer) davon ausgeht, dass die Männer im Mittel kleiner sind als die Frauen, lautet das Argument ” alternative = “less“ “.


t.test(Größe~Geschlecht, var.equal = TRUE, alternative = "less")

 

4 Interpretation der Ergebnisse des unabhängigen t-Tests in R

4.1 Interpretation des zweiseitigen t-Tests


Two Sample t-test data: Größe by Geschlecht
t = 3.9402, df = 49, p-value = 0.0002581
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: 0.06332773 0.19516458
sample estimates:
mean in group 0: 1.778846
mean in group 1 : 1.649600 

Aus diesem Wust an Zahlen interessiert nur sehr weniges.

  • Zunächst stehen ganz unten die Gruppenmittelwerte. Für Gruppe 0: 1,778846 und für Gruppe 1: 1,649600.
  • Diese beiden Mittelwerte werden gegeneinander getestet.
  • Der p-Wert ist mit 0,0002581 unter dem typischen Alphaniveau von 0,05. Man verwirft also die Nullhypothese von Gleichheit der Gruppenmittelwerte. Die Alternativhypothese “true difference in means is not equal to 0” wird angenommen. Auf Deutsch: Die Mittelwertdifferenz ist ungleich 0. Demzufolge gehen wir von statistisch signifikanten Unterschieden hinsichtlich der Körpergröße bei Männern und Frauen aus.
  • Berichtet man die Ergebnisse, gibt man zusätzlich zum p-Wert, den Mittelwerten und den Standardabweichungen noch die t-Statistik (3,9402) sowie die Freiheitsgrade (df=49) zusätzlich zum p-Wert an: t(49) = 3,9402, p < 0,001

 

4.2 Interpretation des einseitigen t-Tests

Hier wurde nun der t-Test für unverbundene Stichproben einseitig gerechnet. Und zwar war die Vermutung, dass die Männer im Mittel größer sind.


Two Sample t-test data: Größe by Geschlecht
t = 3.9402, df = 49, p-value = 0.000129
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval: 0.07425165 Inf
sample estimates:
mean in group 0: 1.778846
mean in group 1 : 1.649600 

Der einseitige t-Test ist nahezu analog zum zweiseitigen t-Test zu interpretieren:

  • Erneut stehen ganz unten die Gruppenmittelwerte. Für Gruppe 0: 1,778846 und für Gruppe 1: 1,649600.
  • Nun wird getestet, ob der Mittelwert von Gruppe 0 größer als der von Gruppe 1 ist
  • Der p-Wert ist mit 0,000129 unter dem typischen Alphaniveau von 0,05. Man verwirft also die Nullhypothese von Gleichheit der Mittelwerte zugunsten eines größeren Mittelwertes bei den Männern. Die Alternativhypothese “true difference in means is greater than 0” wird angenommen. Hierbei wird von dem Gruppenmittelwert 0 der Gruppenmittelwert 1 gedanklich abgezogen.  Mit 0,129246 und dem sehr kleinen p-Wert wird diese Alternativhypothese angenommen.
  • Der p-Wert beim einseitigen Test ist stets halb so groß wie beim zweiseitigen Test – vorausgesetzt man hat die korrekte Alternativhypothese (greater, less) formuliert.
  • Berichtet man die Ergebnisse, gibt man zusätzlich zum p-Wert noch die Mittelwerte, Standardabweichungen, die t-Statistik (3,9402) sowie die Freiheitsgrade (df=49) zusätzlich zum p-Wert an: t(49) = 3,9402, p < 0,001

 

5 Effektstärke berechnen

Sollte der Effekt/Unterschied wie im Beispiel einen hinreichend kleinen p-Wert haben, sollte dieser quantifiziert werden. Ein p-Wert sagt nichts über die Stärke eines Unterschieds aus. Deswegen bedient man sich typischerweise Cohen’s d.
Im lsr-Paket gibt es die Funktion cohensD(). Diese ist analog zum t-Test aufgebaut:


library(lsr)
cohensD(Größe~Geschlecht)

Hierfür erhält man folgendes Cohens d:


[1] 1.103681

Im Beispiel erhalten wir Cohens d = 1,1.
Dieser Wert ist noch einzuordnen.

 

In Cohen (1992), S. 157 sind folgende Grenzen zu finden:

  • ab 0,2: kleiner Effekt
  • ab 0,5: mittlerer Effekt
  • ab 0,8: großer Effekt

Der hier gefundene Effekt von 1,1 entspricht also einem großen Effekt, nach Cohen (1992), S. 157.

ACHTUNG: Je nach Disziplin können andere Grenzen gelten bzw. Anwendung finden. Vergleichbare Studien und deren Effektstärken sind die erste Wahl zur Einordnung beobachteter Effekte!

 

6 Reporting des t-Tests bei unabhängigen Stichproben

Gruppenmittelwerte und Standardabweichungen sind zu berichten. Zusätzlich die t-Statistik mit Freiheitsgraden, der p-Wert und die Effektstärke (Cohens d bzw. Hedges’ Korrektur):
t (df) = t-Wert; p-Wert; Effektstärke.

Frauen (M = 1,65; SD = 0,13) haben gegenüber Männern (M = 1,78; SD = 0,1) eine geringere Körpergröße, t(49) = 3,94; p < 0,001; d = 1,1. Nach Cohen (1992) ist dieser Unterschied groß.

ACHTUNG: Je nach Disziplin können andere Standards für das Berichten gelten.

 

7 Literatur

  • Cohen, J. (1988). Statistical power analysis for the behavioral sciences. New York, NY: Psychology Press, Taylor & Francis Group
  • Cohen, J. (1992). A power primer. Psychological bulletin, 112(1), 155-159.
  • Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics, SAGE.

 

 

8 Download Beispieldatensatz

 

 

Hat dir der Beitrag geholfen?

Dann würde ich mich über eine kleine Spende freuen, die es mir erlaubt, weiterhin kostenfreie Inhalte zu veröffentlichen.
Alternativ kannst du über meinen Amazon Affiliate-Link einkaufen – ohne Zusatzkosten.

Vielen Dank und viel Erfolg!

Über mich

Björn Walther

Ein 💚 für Statistik & Datenanalyse

Excel Online-Kurs

YouTube-Kanal

Inhalt