t-Test für abhängige Stichproben in R rechnen und interpretieren

Björn Walther

vor 4 Jahren

1 Ziel des t-Test bei abhängigen Stichproben in R

Der t-Test für abhängige Stichproben testet, ob für zwei verbundene (abhängige) Stichproben, also Messwiederholungen, unterschiedliche Mittelwerte bzgl. einer abhängigen Testvariable existieren. Auch in Excel und SPSS kann der t-Test für abhängige Stichproben auch gerechnet werden.

Sind die folgenden Voraussetzungen nicht erfüllt, sollte ein gepaarter Wilcoxon-Test gerechnet werden.

Allgemeine Erklärungen zum t-Test bei abhängigen Stichproben

2 Voraussetzungen des t-Test bei abhängigen Stichproben in R

Die wichtigsten Voraussetzungen sind:

zwei voneinander abhängige Stichproben, also Messwiederholungen der selben Untersuchungssubjekte
metrisch skalierte y-Variable
normalverteilte Residuen bzw. Differenzen zwischen den Messzeitpunkten
Achtung: Mindeststichprobengröße bedenken – über eine Poweranalyse zu ermitteln

3 Durchführung des t-Test bei abhängigen Stichproben in R

3.1 Nullhypothese

Die Nullhypothese beim t-Test für abhängige Stichproben geht von in etwa Gleichheit der Mittelwerte zu beiden Zeitpunkten aus.

Der t-Test kann einseitig und zweiseitig durchgeführt. Einseitig heißt lediglich, dass eine konkrete Vermutung existiert, dass der Mittelwert der Testvariable (=abhängige Variable) zum einen Zeitpunkte kleiner oder größer ist als der Mittelwert der Testvariable zum anderen Zeitpunkt. Standardmäßig wird zweiseitig getestet, das heißt es wird ein Unterschied vermutet, es is aber nicht bekannt, zu welchem Zeitpunkt der größere Mittelwert existiert.

Ein Beispiel: Ich habe einen Datensatz mit zwei Messzeitpunkten. Zwischen den Messzeitpunkten liegt eine Intervention – der Beginn eines Trainings. Es wurde vor dem Training gezählt, wie viele Liegestütze die Probanden schafften. Nach einem regelmäßigen, z.B. 10-wöchigen Training, wurde erneut gezählt.

Die Nullhypothese ist also: Es gibt keinen Unterschied hinsichtlich der Anzahl an Liegestützen vor und nach dem Training.

Die Alternativhypothese lautet entsprechend: Es gibt einen Unterschied hinsichtlich der Anzahl der Liegestütze vor und nach dem Training. Das können wir sogar konkretisieren, da wir aus Erfahrung wissen, dass ein gezieltes Training typischerweise zu einer Verbesserung der Leistung führt. Die Alternativhypothese kann demzufolge sogar lauten: nach dem 10-wöchigen Training ist die mittlere Anzahl an Liegestützen höher als davor. Dies wäre die einseitige Testung.

3.2 t-Statistik

Die Berechnung der T-Statistik ist die Basis, die folgende Formel hat:

Zum Glück muss man das in R nicht alles nachbauen und kann direkt die t.test()-Funktion verwenden.

3.3 Deskriptive Voranalyse

Zunächst kann man sich einen kleinen Überblick über die Anzahl der geschafften Liegestütze je Zeitpunkt verschaffen. Insbesondere für das Reporting am Schluss, braucht man aber in der Regel ohnehin Mittelwert und Standardabweichung.
Die „describe„-Funktion des „psych„-Pakets hilft hierbei:


install.packages("psych")
library(psych)
describe(data$t0)
describe(data$t10)

Das führt zu:


> describe(data$t0)
   vars  n  mean   sd median trimmed   mad min max range skew kurtosis   se
X1    1 17 18.76 9.11     20   18.67 11.86   5  34    29 0.16    -1.22 2.21
> describe(data$t10)
   vars  n  mean    sd median trimmed  mad min max range skew kurtosis   se
X1    1 17 27.65 13.28     26      27 5.93   9  56    47 0.55    -0.52 3.22

Die Mittelwerte (und Standardabweichungen) je Zeitpunkt lauten:

t0: M = 18,76; SD = 9,11 und
t10: M = 27,65; SD = 13,28

3.4 Code in R

Nach dem Einlesen der Daten wird die t.test()-Funktion verwendet, die folgenden generellen Aufbau hat:


t.test(ZEITPUNKT1, ZEITPUNKT2, var.equal, alternative, paired = TRUE)

Die t.test()-Funktion hat noch viele weitere Attribute. Die vier obigen sind aber die wichtigsten. Es ist unbedingt zu beachten, dass paired = TRUE verwendet wird, weil sonst ein unabhängiger t-Test gerechnet wird.
ZEITPUNKT1 und ZEITPUNKT2 sind im Beispiel jeweils die Anzahl der geschafften Liegesützen zum jeweiligen Zeitpunkt.
„alternative“ gibt an, ob ein- oder zweiseitig getestet wird.
Einseitig bedeutet auf das Beispiel angewandt, das vermutet werden kann, dass nach dem Training die Anzahl Liegestützen wohl höher sein wird. Wir können hier also einseitig testen, ich zeige aber sowohl einen einseitigen als auch einen zweiseitigen Test.

3.5 Beispielcode in R: zweiseitiger Test


t.test(data$t0,data$t10, paired = TRUE, alternative = "two.sided")

Wie zu erkennen ist, habe ich den Startzeitpunkt (data$t0) und den Zeitpunkt nach 10 Wochen (data$t10) für den Test verwendet. Mit paired = TRUE lege ich fest, dass es verbundene Stichproben, also Messwiederholungen sind. Als „alternative“ habe ich „two.sided“ angegeben. Das ist die typische Testung, die standardmäßig von t.test() vorgenommen wird – man kann dieses Argument daher auch hier weglassen.

3.6 Beispielcode in R: einseitiger Test

Existiert eine konkrete Vermutung, wie sich der Messwert zum zweiten Zeitpunkt entwickelt hat, wird einseitig getestet. Dazu wird dem Code noch das Argument alternative = “greater“ oder alternative = “less“ hinzugefügt.

Hierbei ist zu beachten, dass „less“ bedeutet, dass der Messwert zum Zeitpunkt 1 kleiner ist als zum Zeitpunkt 2. „greater“ entsprechend umgekehrt. Das wurde im Zweifel bereits mit der Reihenfolge der Aufnahme der Variablen bei t.test() festgelegt.


t.test(data$t0,data$t10, paired = TRUE, alternative = "less")

Wenn jedoch (aus welchen Gründen auch immer) davon ausgegangen wird, dass das Training einen negativen Effekt auf die Anzahl an schaffbaren Liegestützen hat (in Zeitpunkt 1 mehr als in Zeitpunkt 2), lautet das Argument alternative = „greater“.


t.test(data$t0,data$t10, paired = TRUE, alternative = "greater")

4 Interpretation der Ergebnisse des t-Test für abhängige Stichproben in R

4.1 Interpretation des zweiseitigen t-Tests


	Paired t-test

data:  data$t0 and data$t10
t = -6.7445, df = 16, p-value = 4.71e-06
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
 -11.674220  -6.090486
sample estimates:
mean difference 
      -8.882353

Aus diesem Wust an Zahlen interessiert an und für sich nur sehr weniges.

Zunächst stehen ganz unten die Veränderung von Zeitpunkt 2 (t10) zu Zeitpunkt 1 (t0). Sie ist -8,88. Im Umkehrschluss ist die mittlere Anzahl um 8,88 von t0 zu t10 gestiegen.
Der sich hieraus ergebende t-Wert lautet -6,7445.
Der p-Wert ist mit 4,71e-06 sehr klein und somit unter dem typischen Alphafehler von 0,05. Man verwirft also die Nullhypothese von Gleichheit der Gruppenmittelwerte. Die Alternativhypothese „true difference in means is not equal to 0“ wird angenommen. Auf deutsch: Die Mittelwertdifferenz ist ungleich 0. Demzufolge gehen wir von statistisch signifikanten Unterschieden hinsichtlich der geschafften Liegestütze zwischen den Messzeitpunkten infolge des Trainings aus.
Berichtet man die Ergebnisse, gibt man zusätzlich zum p-Wert und den Mittelwerten noch die t-Statistik (-6,7445) sowie die Freiheitsgrade (df=16) zusätzlich zum p-Wert an. Siehe zum Reporting unten ausführlich.

4.2 Interpretation des einseitigen t-Tests

Hier wurde nun der t-Test für verbundene Stichproben einseitig gerechnet. Und zwar war die Vermutung, dass eine Zunahme beobachtbar ist.


	Paired t-test

data:  data$t0 and data$t10
t = -6.7445, df = 16, p-value = 2.355e-06
alternative hypothesis: true mean difference is less than 0
95 percent confidence interval:
      -Inf -6.583064
sample estimates:
mean difference 
      -8.882353

Der einseitige t-Test ist nahezu analog zum zweiseitigen t-Test zu interpretieren:

Erneut steht ganz unten ganz unten die Veränderung von Zeitpunkt 2 (t10) zu Zeitpunkt 1 (t0). Sie ist -8,88die mittlere Anzahl um 8,88 gestiegen.
Nun wird getestet, ob der Mittelwert zum Zeitpunkt 1 (t0) größer ist als zum Zeitpunkt 2 (t10).
Der p-Wert ist mit 2,355e-06 unter dem typischen Alphafehler von 0,05. Man verwirft also die Nullhypothese von Gleichheit der Mittelwerte zugunsten eines größeren Mittelwertes im Zeitpunkt 2 (t10). Die Alternativhypothese „true difference in means is greater than 0“ wird angenommen.
Der p-Wert beim einseitigen Test ist stets halb so groß wie beim zweiseitigen Test – vorausgesetzt man hat die korrekte Alternativhypothese (greater, less) formuliert.
Berichtet man die Ergebnisse, gibt man zusätzlich zum p-Wert noch die Mittelwerte, die t-Statistik (-6,7445) sowie die Freiheitsgrade (df=16) zusätzlich zum p-Wert an. Siehe zum Reporting unten ausführlich.

5 Berechnung der Effektstärke des Unterschiedes

Sofern ein statistisch signifikanter Unterschied beobachtet werden konnte, kann die Stärke dieses Unterschiedes eingeordnet werden. Zur Berechnung verwendet man beim t-Test für verbundene Stichproben typischerweise Cohens D. Standardmäßig ist dies nicht in R implementiert. Mit dem sog. „lsr“-Paket kann man dies allerdings berechnen lassen.

Bei method wird mit paired explizit Cohens d für den verbundenen t-Test angefordert.


install.packages("lsr")
library(lsr)
cohensD(data$t0,data$t10, method="paired")

Für meinen Test bekomme ich d = 1.635782. Effektstärken werden typischerweise betragsmäßig, also positiv berichtet. Diese Effektstärke gilt es noch einzuordnen, was zunächst mit I) vergleichbaren Studien oder II) fachspezifischen Grenzen erfolgen sollte. Fehlt beides, kann auf Cohen (1992) zurückgegriffen werden:

Die von Jacob Cohen (1992: Power Primer, S. 157) genannten Grenzen sind:

ab 0,2 (kleiner Effekt)
ab 0,5 (mittlerer Effekt)
ab 0,8 (starker Effekt)

In meinem Beispiel ist es ein großer Effekt. Demzufolge hat das Training für eine starke Zunahme bei der Anzahl an geschafften Liegestützen bei den Probanden geführt.

6 Reporting des t-Tests bei abhängigen Stichproben

Gruppenmittelwerte und Standardabweichungen sind zu berichten. Zusätzlich die t-Statistik mit Freiheitsgraden, der p-Wert und die Effektstärke (Cohens d bzw. Hedges‘ Korrektur): t(df)=t-Wert; p-Wert; Effektstärke.

Verglichen mit vor dem Training (M = 18,76; SD = 9,11) schaffen Probanden nach dem Training (M = 27,65; SD = 13,28) einen signifikant höhere Anzahl Liegestütze, t(16) = 6,74; p < 0,001; d = 1,64. Nach Cohen (1992) ist dieser Unterschied groß.

7 Videotutorials

https://www.youtube.com/watch?v=H15M_8gh1Ok/

https://www.youtube.com/watch?v=m26Zlo-oTt0/

8 Literatur

Cohen, J. (1988). Statistical power analysis for the behavioral sciences. New York, NY: Psychology Press, Taylor & Francis Group
Cohen, J. (1992). A power primer. Psychological bulletin, 112(1), 155-159.

9 Download Beispieldatensatz

Jetzt herunterladen!

Weitere nützliche Tutorials findest du auf meinem YouTube-Kanal.