Inhaltsverzeichnis
1 Ziel des Einstichproben t-Test in R
Der Einstichproben t-Test prüft, ob der Mittelwert eines beliebigen Merkmals (z.B. der Intelligenzquotient) einer Stichprobe dem Mittelwert einer Grundgesamtheit gleich bzw. in etwa ähnlich ist. Ist eine Schulklasse also in etwa so intelligent wie die Grundgesamtheit? In diesem Artikel zeige ich, wie man den Einstichproben t-Test in R rechnet und die Ergebnisse interpretiert. Kein R? Hier geht es zum Artikel in Excel oder SPSS, mit Beispielberechnung.
2 Voraussetzungen des Einstichproben t-Test in R
- Man braucht lediglich eine metrische, also intervall- oder verhältnisskalierte Testvariable.
- Die Testvariable sollte zudem in etwa normalverteilt sein. Wie man eine Variable auf Normalverteilung prüft, zeigt dieser Artikel. Aus Vereinfachungsgründen zeige ich dies in diesem Artikel nicht und gehe schlicht von Normalverteilung aus.
- Die Fälle/Beobachtungen sollten voneinander unabhängig sein.
- Es braucht zudem einen vermuteten Mittelwert. Dieser ergibt sich aus der Grundgesamtheit, bisherigen Erfahrungen oder schlicht (theoretisch hergeleiteten) Vermutungen.
3 Durchführung des Einstichproben t-Test in R – ein Beispiel
3.1 Nullhypothese
Die Nullhypothese beim Einstichproben t-Test geht stets von Gleichheit der Mittelwerte von Stichprobe und Grundgesamtheit aus.
Man kann bei diesem Test einseitig und zweiseitig testen. Einseitig heißt lediglich, dass eine konkrete Vermutung existiert, dass der Stichprobenmittelwert kleiner oder größer ist als der Mittelwert der Grundgesamtheit. Standardmäßig wird allerdings zweiseitig getestet, das heißt, es wird ein Unterschied vermutet, es ist aber unbekannt, ob der Mittelwert der Stichprobe größer oder kleiner als der Mittelwert der Grundgesamtheit ist.
3.2 t-Statistik
Die Berechnung der T-Statistik ist die Basis, die folgende Formel hat:
Zum Glück muss man das in R nicht alles nachbauen und kann direkt die Funktion t.test() verwenden.
Code in R
Nach dem Einlesen der Daten wird die Funktion t.test() verwendet, die standardmäßig in R aktiviert ist:
t.test(x, mu, alternative)
Die Funktion t.test() hat noch viele weitere Attribute, die drei oben genannten sind aber die wichtigsten.
- x ist die Testvariable. Bei mir ist das der IQ.
- mu ist der vermutete Mittelwert, also der Test, gegen den die Testvariable auf Unterschied geprüft werden soll.
- „alternative“ gibt an, ob ein- oder zweiseitig getestet wird.
Beispielcode in R – zweiseitiger Test
t.test(df$IQ, mu = 105)
Wie zu erkennen ist, habe ich x durch den IQ ersetzt (df$IQ) und für mu die Zahl 105 eingesetzt. 105 ist der durchschnittliche IQ in Deutschland. Ein zweiseitiger Test bedeutet, ich weiß im Vorfeld nicht, ob mein Mittelwert der Stichprobe ober- oder unterhalb des vermuteten Mittelwertes (der Grundgesamtheit) liegt. Das ist die typische Testung und auch der Grund, warum „alternative“ hier weggelassen werden kann.
Beispielcode in R – einseitiger Test
Existiert eine konkrete Vermutung, dass der Mittelwert der Testvariable größer als der vermutete Wert ist, testet man demzufolge einseitig.
Dazu fügt man dem Code noch das Argument „alternative = c(„greater“)“ hinzu.
t.test(df$IQ, mu = 105, alternative = c("greater"))
Wenn jedoch davon ausgegangen wird, dass die Testvariable kleiner als der vermutete Wert ist, lautet das Argument „alternative = c(„less“)„.
t.test(df$IQ, mu = 105, alternative = c("less"))
4 Interpretation der Ergebnisse des Einstichproben t-Test in R
4.1 Interpretation des zweiseitigen t-Tests
One Sample t-test
data: df$IQ
t = 2.582, df = 50, p-value = 0.0128
alternative hypothesis: true mean is not equal to 105
95 percent confidence interval:
106.0712 113.5758
sample estimates:
mean of x
109.8235
Der Output von R für den Einstichproben t-Test wirkt zunächst etwas unübersichtlich, kann aber recht einfach interpretiert werden.
- Zunächst steht ganz unten der tatsächliche Mittelwert der Variable IQ (109.8235).
- Dieser wird gegen den Wert 105 getestet. Das erkennt man hieran: „alternative hypothesis: true mean is not equal to 105“. Es wird hier also getestet: der wahre Mittelwert ist verschieden von 105.
- Der p-Wert ist mit 0.0128 hinreichend klein (unter typischem Alphaniveau von 0.05).
Man verwirft also die Nullhypothese von Gleichheit des Mittelwertes der Testvariable (IQ) zum vermuteten Wert von 105.
Die Alternativhypothese „true mean is not equal to 105“ wird angenommen. - Berichtet man die Ergebnisse, gibt man zusätzlich noch die t-Statistik (2.582) sowie die Freiheitsgrade (df = 50) zusätzlich zum p-Wert an: t(50) = 2.582; p = 0.0128
- Optional ist beim Berichten des Einstichproben t-Tests die Angabe des 95% Konfidenzintervalls [106.07; 113.58]. Wenn die 105 nicht im Intervall ist, kann von einem Unterschied zwischen Testvariable und dem vermuteten Wert ausgegangen werden. Fachspezifische Anforderungen hierzu immer beachten!
4.2 Interpretation des einseitigen t-Tests
Hier wurde der Einstichproben t-Test einseitig gerechnet. Und zwar war die Vermutung, dass der Testwert (109.8235) größer als der vermutete Wert 105 ist. Eigentlich offensichtlich, aber um für zufällige Abweichungen zu kontrollieren, braucht es den t-Test.
One Sample t-test
data: df$IQ
t = 2.582, df = 50, p-value = 0.0064
alternative hypothesis: true mean is greater than 105
95 percent confidence interval:
106.6927 Inf
sample estimates:
mean of x
109.8235
Der Output von R für den einseitigen t-Test ist nahezu analog zum zweiseitigen t-Test zu interpretieren:
- Erneut steht ganz unten der tatsächliche Mittelwert der Variable IQ (109.8235).
- Dieser wird gegen den Wert 105 getestet. Allerdings steht in der Nullhypothese deutlich, dass der Testwert größer als 105 ist und hierfür getestet wird: „alternative hypothesis: true mean is greater 105„.
- Der p-Wert ist mit 0.0064 hinreichend klein (unter dem typischen Alphaniveau von 0.05).
Man verwirft also die Nullhypothese von Gleichheit des Mittelwertes der Testvariable (IQ) zum vermuteten Werte von 105.
Die Alternativhypothese „true mean is greater than 105“ wird angenommen. - Der p-Wert beim einseitigen Test ist stets halb so groß wie beim zweiseitigen Test – vorausgesetzt man hat die korrekte Alternativhypothese (greater, less) formuliert.
- Berichtet man die Ergebnisse, gibt man zusätzlich noch die t-Statistik (2.582) sowie die Freiheitsgrade (df = 50) zusätzlich zum p-Wert an: t(50) = 2.582, p = 0.0064
- Analog zu oben ist die Angabe des 95%-Konfidenzintervalls fachspezifisch und sollte den Testwert nicht enthalten, um die Nullhypothese verwerfen zu können.
5 Berechnen der Effektstärke Cohen’s d
Sofern ein Effekt/Unterschied beobachtet werden konnte, ist dessen Stärke bzw. Größe zu ermitteln und anschließend einzuordnen.
Am einfachsten kann die Effektstärke Cohen’s d für den Einstichproben t-Test in R mit der cohensD()-Funktion des lsr-Pakets berechnet werden. Die Syntax ist analog zum t-Test – ein- und zweiseitige Testung spielen allerdings keine Rolle.
install.packages("lsr")
library(lsr)
cohensD(df$IQ, mu=105)
Das führt zu einem Cohen’s d von 0.3615.
Effektstärken werden idealerweise mit 1) vergleichbaren Studien eingeordnet. Sollten solche nicht vorhanden sein, können 2) fachspezifische Grenzen herangezogen werden. Sollten auch diese nicht vorhanden sein, kann 3) Cohen (1992) A Power Primer, S. 157 verwendet werden. Die Grenzen sind d > 0.2 (kleiner Effekt), d > 0.5 (mittlerer Effekt) sowie d > 0.8 (großer Effekt).
6 Reporting
Für den zweiseitigen Test:
Probanden der Stichprobe (M = 109.82; SD = 13.34) haben einen vom Vergleichswert 105 verschiedenen IQ, t(50) = 2.58; p = 0.013; d = 0.362.
Nach Cohen (1992) ist dieser Unterschied klein.
7 Videotutorials
8 Literatur
- Cohen, J. (1988). Statistical power analysis for the behavioral sciences. New York, NY: Psychology Press, Taylor & Francis Group
- Cohen, J. (1992). A power primer. Psychological bulletin, 112(1), 155-159.