Inhaltsverzeichnis
1 Grundidee des unabhängigen t-Test
Der Zweistichproben t-Test (auch unabhängiger t-Test, t-Test bei ungepaarten Stichproben) prüft zwei Stichproben hinsichtlich ihrer Mittelwerte auf Unterschiede. Die Stichproben werden aus unterschiedlichen Grundgesamtheiten gezogen und repräsentieren jene entsprechend. Es existieren zwei verschiedene Varianten des t-Tests: zum einen für den Fall gleicher Varianzen und zum anderen für den Fall ungleicher Varianzen. Letzterer ist der sog. Welch-Test oder Welch t-Test.
Da es im Vorfeld bei der Testung auf gleiche Varianzen („Varianzhomogenität“) mit dem Levene’s Test häufig zu Schwierigkeiten kommt, wird empfohlen, pauschal den Welch t-Test zu rechnen (Vgl. Field, A. (2018), S. 456) – später mehr dazu.
2 Hypothesen des unabhängigen t-Test
2.1 Allgemein formuliert
Zunächst können die Nullhypothese und Alternativhypothese allgemein, also unter Verwendung des Begriffes des Erwartungswertes formuliert werden. Die Nullhypothese geht stets von keinen Unterschieden aus.
-
Nullhypothese: Es gibt keine Unterschiede bzgl. der Erwartungswerte zwischen Stichprobe 1 (Gruppe 1) und Stichprobe 2 (Gruppe 2).
![Rendered by QuickLaTeX.com \[ H_{0}:\,\mu _{1}=\mu _{2} \]](https://bjoernwalther.com/wp-content/ql-cache/quicklatex.com-b70acb3194fd3bd4737fc2850e9fb5b7_l3.png)
-
Alternativhypothese: Es gibt Unterschiede bzgl. der Mittelwerte zwischen Stichprobe 1 (Gruppe 1) und Stichprobe 2 (Gruppe 2).
![Rendered by QuickLaTeX.com \[ H_{1}:\,\mu _{1} \neq \mu _{2} \]](https://bjoernwalther.com/wp-content/ql-cache/quicklatex.com-e00441c57530767198bcdd76f57ec98d_l3.png)
-
Die Alternativhypothese kann auch einseitig formuliert werden. Das würde bedeuten, dass im Vorfeld bekannt ist, dass die eine Stichprobe einen größeren Erwartungswert hat als die andere.
Zum Beispiel: Der Erwartungswert der Stichprobe 1 ist kleiner als der Erwartungswert der Stichprobe 2.
![Rendered by QuickLaTeX.com \[ H_{1}:\,\mu _{1} < \mu _{2} \]](https://bjoernwalther.com/wp-content/ql-cache/quicklatex.com-a626172d5c41a1c34d5ca1d892ca0125_l3.png)
Oder, der Erwartungswert der Stichprobe 1 ist größer als der Erwartungswert der Stichprobe 2.
![Rendered by QuickLaTeX.com \[ H_{1}:\,\mu _{1} > \mu _{2} \]](https://bjoernwalther.com/wp-content/ql-cache/quicklatex.com-af7350df02bbe6b675c87b124e9fdf48_l3.png)
2.2 Spezifisch formuliert
Die Hypothesen können außerdem spezifisch für den Mittelwert formuliert werden, was verständlicher sein dürfte.
-
Nullhypothese:
![Rendered by QuickLaTeX.com \[ H_{0}:\,\overline {x}_{1}=\overline {x}_{2} \]](https://bjoernwalther.com/wp-content/ql-cache/quicklatex.com-6a4f249050ed0a97e8b4448cf38a65bf_l3.png)
-
Alternativhypothese:
![Rendered by QuickLaTeX.com \[ H_{1}:\,\overline {x}_{1}\neq \overline {x}_{2} \]](https://bjoernwalther.com/wp-content/ql-cache/quicklatex.com-e923c5e5e9f5705a2203d55c11297730_l3.png)
-
Einseitig formulierte Alternativhypothese: Der Mittelwert der Stichprobe 1 ist kleiner als der Mittelwert der Stichprobe 2.
![Rendered by QuickLaTeX.com \[ H_{1}:\,\overline {x}_{1} < \overline {x}_{2} \]](https://bjoernwalther.com/wp-content/ql-cache/quicklatex.com-25ecffdcc822ceae07c586940cfb5453_l3.png)
Oder, der Mittelwert der Stichprobe 1 ist größer als der Mittelwert der Stichprobe 2.
![Rendered by QuickLaTeX.com \[ H_{1}:\,\overline {x}_{1} > \overline {x}_{2} \]](https://bjoernwalther.com/wp-content/ql-cache/quicklatex.com-50f3987145d44b514f5e716213967e15_l3.png)
- Die beiden Stichproben 1 und 2 sind unabhängig voneinander.
- Die beiden Stichproben entstammen einer in etwa normalverteilten Grundgesamtheit. Dafür werden die Stichproben selbst auf Normalverteilung geprüft.
- Ab 30 Beobachtungen pro Stichprobe greift der zentrale Grenzwertsatz – der Stichprobenmittelwert ist dann näherungsweise (standard)normalverteilt. Eine Prüfung ist dann entbehrlich.
- Bei ungleichen Stichprobengrößen (vgl. Field (2018), S. 259) in etwa gleiche Varianzen der beiden Stichproben 1 und 2 (Varianzhomogenität) – sonst Welch t-Test. Es empfiehlt sich ungleiche Varianzen anzunehmen und infolge dessen eine gepoolte Berechnung vorzunehmen, wie ich unten zeige.
-
Stichprobe 1:
![Rendered by QuickLaTeX.com \[ \overline {x}_{1} = 61, s_1 = 9.823, n_1 = 13 \]](https://bjoernwalther.com/wp-content/ql-cache/quicklatex.com-cc18dca894bb86d164efc5e597d73fab_l3.png)
-
Stichprobe 2:
![Rendered by QuickLaTeX.com \[ \overline {x}_{2} = 52, s_2 = 9.870, n_2 = 16 \]](https://bjoernwalther.com/wp-content/ql-cache/quicklatex.com-e78d320f82c0ca7eef1b13d77f91dbb3_l3.png)
-
Berechnung von s – gepoolte Standardabweichung:
![Rendered by QuickLaTeX.com \[ s={\sqrt {\frac {(n_1-1)s_{1}^{2}+(n_2-1)s_{2}^{2}}{n_1 + n_2-2}}}} = {\sqrt {\frac {(13-1)9.823^{2}+(16-1)9.870^{2}}{13 + 16-2}}}} = 9.850 \]](https://bjoernwalther.com/wp-content/ql-cache/quicklatex.com-43e09e57f426af23cf8b2411337cfa82_l3.png)
-
Berechnung der Teststatistik/Prüfgröße T:
![Rendered by QuickLaTeX.com \[ T={\sqrt {\frac {n_1 \cdot n_2}{n_1 + n_2}}} \cdot {\frac {{\overline {x}_1}-{\overline {x}_2}}{s}}} = {\sqrt {\frac {13 \cdot 16}{13 + 16}}} \cdot \frac{61-52}{9.850}}} = 2.45\]](https://bjoernwalther.com/wp-content/ql-cache/quicklatex.com-cae139563ff634fd7a886ef83775c787_l3.png)
-
Ablehnungsbereich der Nullhypothese bei zweiseitigem Test (ungerichtete/zweiseitige Hypothese) und einem Alphaniveau von 5%:
![Rendered by QuickLaTeX.com \[ {t|T< -t_{1-\alpha /2;n+m-2}\}\,} = {t|T< -t_{1-(0.05/2); 13+16-2}\}\,} = {t|T< -t_{0.975; 27}\}\,} \]](https://bjoernwalther.com/wp-content/ql-cache/quicklatex.com-3438db5c98df85eb29b8397a87b51919_l3.png)
bzw.
![Rendered by QuickLaTeX.com \[ {t|T< t_{1-\alpha /2;n+m-2}\}\,} = {t|T< t_{1-(0.05/2); 13+16-2}\}\,} = {t|T< t_{0.975; 27}\}\,} \]](https://bjoernwalther.com/wp-content/ql-cache/quicklatex.com-0f4e04fa0f9392d5e8f42da70c1ec1a1_l3.png)
Der kritische t-Wert ist demnach das 0.975-Quantil der t-Verteilung mit 27 Freiheitsgraden (degrees of freedom – df). Schreibweise t (0.975; 27) = 2.052.
Die Freiheitsgrade sind beim unabhängigen t-Test immer die Beobachtungen der Gruppen addiert, abzüglich 2 (n1 + n2 – 2). Im Beispiel: 13 + 16 – 2 = 27.
Die Ermittlung des kritischen t-Wertes 2.052 erfolgt entweder über das Ablesen aus der t-Tabelle bei zweiseitigem Test mit Alpha = 0.05 und df = 27 oder in Excel/Google Sheets mit der Funktion „=T.INV.2S(0,05;27)“ – Dezimaltrennzeichen beachten!
- Die Teststatistik T sollte für die Verwerfung der Nullhypothese den positiven t-Wert übersteigen oder den negativen t-Wert unterschreiten.
- Da T = 2.45 > 2.052 ist, wird der positive kritische t-Wert überstiegen und entsprechend die Nullhypothese abgelehnt. Es ist ein (statistischer) Unterschied zwischen Stichprobe 1 und Stichprobe 2 auf dem Alphaniveau 5% erkennbar.
- ab d = 0.2 klein,
- ab d = 0.5 mittel und
- ab d = 0.8 stark.
- Cohen, J. (1988). Statistical power analysis for the behavioral sciences. New York, NY: Psychology Press, Taylor & Francis Group
- Cohen, J. (1992). A power primer. Psychological bulletin, 112(1), 155-159.
- Field, A. P. (2018). Discovering statistics using IBM SPSS statistics. London; Thousand Oaks, Kapitel 10.5.3, S. 448-462.
- Sedlmeier, P., Renkewitz, F. (2024), Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler, Kapitel 13.1.1 sowie 13.3.3, S. 409-414, 423-424.
- Warner, R. M. (2012). Applied Statistics: From Bivariate Through Multivariate Techniques. USA: SAGE Publications, Kapitel 5, S. 185-214.
3 Voraussetzungen des unabhängigen t-Test
4 Berechnung Teststatistik
4.1 Allgemeine Darstellung
Die Teststatistik T wird wie folgt berechnet:
![Rendered by QuickLaTeX.com \[ T={\sqrt {\frac {n_1 \cdot n_2}{n_1 + n_2}}} \cdot {\frac {{\overline {x}_1}-{\overline {x}_2}}{s}}} \]](https://bjoernwalther.com/wp-content/ql-cache/quicklatex.com-6d4c877b0c89786e672730fce5793fe6_l3.png)
Hierbei ist n die jeweilige Anzahl der Beobachtungen der Stichprobe 1 und 2 und x̄ der Mittelwert der Stichprobe 1 und 2.
s ist die gepoolte Standardabweichung, welche zusätzlich zu berechnen ist:
![Rendered by QuickLaTeX.com \[ s={\sqrt {\frac {(n_1-1)s_{1}^{2}+(n_2-1)s_{2}^{2}}{n_1 + n_2-2}}}} \]](https://bjoernwalther.com/wp-content/ql-cache/quicklatex.com-4536625647dee83b139bc34874188f83_l3.png)
Wenn die Standardabweichungen der beiden Stichproben identisch sind (Spoiler: in der Realität sehr unwahrscheinlich!), ist die Berechnung natürlich unnötig und s kann direkt in die Berechnung bei T eingesetzt werden.
Berechnung des Ablehnungsbereiches der Nullhypothese bei zweiseitigem Test (ungerichtete/zweiseitige Hypothese)
![]()
sowie
![]()
Das Signifikanzniveau Alpha ist im Vorfeld festzulegen und beträgt in der Regel 5% (0.05) oder 1% (0.01). Für die Folgerechnungen verwende ich ein Alpha von 5%.
Bei einseitiger Testung wird jeweils nur die „eine Seite“ des Ablehnungsbereiches zugrunde gelegt. Geht man im Vorfeld von einem größeren Mittelwert bei der Stichprobe 1 aus, wird nur der positive Ablehnungsbereich verwendet – die Differenz zwischen Stichprobe 1 und Stichprobe 2 ist positiv und somit ist die Teststatistik T > 0 und nur beim positiven Abelhenungsbereich zu prüfen.
4.2 Beispieldaten
Gegeben seien nachfolgende Beispieldaten von zwei unabhängigen Stichproben:
4.3 Beispielrechnung
Die entsprechenden Werte für x̄ , s und n werden dann in die Formeln von s und T eingesetzt:
5 Effektstärkenberechnung
Im Falle einer festgestellten Differenz der Mittelwerte zwischen Stichprobe 1 und Stichprobe 2 ist schließlich noch die Stärke des Unterschiedes (= Effektes) zu quantifizieren. Hinweis: in manchen Disziplinen wird stets eine Effektstärke berechnet, unabhängig vom Testergebnis. Dies erfolgt in der Regel mit der Effektstärke Cohen’s d, aus Cohen (1988), S. 20.
![]()
Hierzu wird lediglich die Mittelwertdifferenz durch die gepoolte Standardabweichung (siehe 4.3) geteilt. Das ist schon bekannt als Teil der Berechnung der Prüfgröße T.
![]()
Cohen’s d wird mit Hilfe vergleichbarer Studien eingeordnet. Behelfsweise werden fachspezifische Grenzen verwendet.
Ist beides nicht vorhanden, kann Cohen (1992), S. 157 herangezogen werden:
Im Beispiel liegt der Wert 0.913 über der Grenze zum starken Effekt. Somit ist der Unterschied zwischen den beiden Gruppen bzw. deren Ruhepulsen stark.
6 Durchführung in statistischen Programmen
Jedes statistische Analyseprogramm verfügt über eine Routine zur Berechnung eines unabhängigen t-Tests. Folgende Blogbeiträge hierzu gibt es:
6.1 Berechnung in SPSS
6.2 Berechnung in R
6.3 Berechnung in Excel
7 Berichten der Ergebnisse des unabhängigen t-Test
Nach der Berechnung des Zweichstichproben t-Tests sowie der Effektstärke werden Ergebnisse nüchtern berichtet.
Gruppenmittelwerte und Standardabweichungen sind zu berichten. Zusätzlich die t-Statistik mit Freiheitsgraden, der p-Wert (je nach Hypothese ein- oder zweiseitig) und die Effektstärke (vorzugsweise Cohen’s d):
t(df) = t-Wert; p-Wert; Effektstärke d.
Bei untrainierten Personen (M = 61; SD = 9.82) ist im Vergleich mit trainierten Personen (M = 52; SD = 9.87) ein höherer Ruhepuls beobachtbar, t(27) = 2.45; p = 0.021; d = 0.913. Nach Cohen (1992) ist dieser Unterschied groß.
Hinweis: Die Ermittlung des p-Wertes kann in Excel oder Google Sheets zweiseitig mit der Funktion „=T.VERT.2S()“ vorgenommen werden. Bei einseitiger Testung wird „=T.VERT.RE()“ verwendet. Als erstes Argument wird jeweils der T-Wert eingesetzt, danach die Freiheitsgrade, die sich aus allen Beobachtungen abzüglich 2 ergibt. Im Beispiel 13 + 16 – 2 = 27.
Außerdem kann der p-Wert der zweiseitigen Testung halbiert werden, um den p-Wert für die einseitge Testung zu erhalten.
8 Literatur
Allgemein zum t-Test:


