Zweistichproben t-Test – verständlich erklärt (unabhängiger t-Test)

von | Zuletzt bearbeitet am: Nov 14, 2024 | t-Test

1 Grundidee des unabhängigen t-Test

Der Zweistichproben t-Test (auch unabhängiger t-Test, t-Test bei ungepaarten Stichproben) prüft zwei Stichproben hinsichtlich ihrer Mittelwerte auf Unterschiede. Die Stichproben werden aus unterschiedlichen Grundgesamtheiten gezogen und repräsentieren jene entsprechend. Es existieren zwei verschiedene Varianten des t-Tests: zum einen für den Fall gleicher Varianzen und zum anderen für den Fall ungleicher Varianzen. Letzterer ist der sog. Welch-Test oder Welch t-Test.

Da es im Vorfeld bei der Testung auf gleiche Varianzen („Varianzhomogenität“) mit dem Levene’s Test häufig zu Schwierigkeiten kommt, wird empfohlen, pauschal den Welch t-Test zu rechnen (Vgl. Field, A. (2018), S. 456) – später mehr dazu.

Der unabhängige t-Test verwendet die Mittelwerte der Stichproben als Approximation für die unbekannten Erwartungswerte der jeweiligen Grundgesamtheiten. Im Grunde werden nämlich die Erwartungswerte der Grundgesamtheiten auf Unterschiede untersucht. Üblicherweise werden die Begriffe „Stichprobe“ und „Gruppe“ als synonyme Ausdrücke verwendet.

 

2 Hypothesen des unabhängigen t-Test

2.1 Allgemein formuliert

Zunächst können die Nullhypothese und Alternativhypothese allgemein, also unter Verwendung des Begriffes des Erwartungswertes formuliert werden. Die Nullhypothese geht stets von keinen Unterschieden aus.

  • Nullhypothese: Es gibt keine Unterschiede bzgl. der Erwartungswerte zwischen Stichprobe 1 (Gruppe 1) und Stichprobe 2 (Gruppe 2).

        \[ H_{0}:\,\mu _{1}=\mu _{2} \]

  • Alternativhypothese: Es gibt Unterschiede bzgl. der Mittelwerte zwischen Stichprobe 1 (Gruppe 1) und Stichprobe 2 (Gruppe 2).

        \[ H_{1}:\,\mu _{1} \neq \mu _{2} \]

  • Die Alternativhypothese kann auch einseitig formuliert werden. Das würde bedeuten, dass im Vorfeld bekannt ist, dass die eine Stichprobe einen größeren Erwartungswert hat als die andere.

    Zum Beispiel: Der Erwartungswert der Stichprobe 1 ist kleiner als der Erwartungswert der Stichprobe 2.

        \[ H_{1}:\,\mu _{1} < \mu _{2} \]

    Oder, der Erwartungswert der Stichprobe 1 ist größer als der Erwartungswert der Stichprobe 2.

        \[ H_{1}:\,\mu _{1} > \mu _{2} \]

 

2.2 Spezifisch formuliert

Die Hypothesen können außerdem spezifisch für den Mittelwert formuliert werden, was verständlicher sein dürfte.

  • Nullhypothese:

        \[ H_{0}:\,\overline {x}_{1}=\overline {x}_{2} \]

  • Alternativhypothese:

        \[ H_{1}:\,\overline {x}_{1}\neq \overline {x}_{2} \]

  • Einseitig formulierte Alternativhypothese: Der Mittelwert der Stichprobe 1 ist kleiner als der Mittelwert der Stichprobe 2.

        \[ H_{1}:\,\overline {x}_{1} < \overline {x}_{2} \]

    Oder, der Mittelwert der Stichprobe 1 ist größer als der Mittelwert der Stichprobe 2.

        \[ H_{1}:\,\overline {x}_{1} > \overline {x}_{2} \]

  •  

    3 Voraussetzungen des unabhängigen t-Test

    • Die beiden Stichproben 1 und 2 sind unabhängig voneinander.
    • Die beiden Stichproben entstammen einer in etwa normalverteilten Grundgesamtheit. Dafür werden die Stichproben selbst auf Normalverteilung geprüft.
    • Ab 30 Beobachtungen pro Stichprobe greift der zentrale Grenzwertsatz – der Stichprobenmittelwert ist dann näherungsweise (standard)normalverteilt. Eine Prüfung ist dann entbehrlich.
    • Bei ungleichen Stichprobengrößen (vgl. Field (2018), S. 259) in etwa gleiche Varianzen der beiden Stichproben 1 und 2 (Varianzhomogenität) – sonst Welch t-Test. Es empfiehlt sich ungleiche Varianzen anzunehmen und infolge dessen eine gepoolte Berechnung vorzunehmen, wie ich unten zeige.

     

    4 Berechnung Teststatistik

    4.1 Allgemeine Darstellung

    Die Teststatistik T wird wie folgt berechnet:

        \[ T={\sqrt {\frac {n_1 \cdot  n_2}{n_1 + n_2}}} \cdot  {\frac {{\overline {x}_1}-{\overline {x}_2}}{s}}} \]

    Hierbei ist n die jeweilige Anzahl der Beobachtungen der Stichprobe 1 und 2 und der Mittelwert der Stichprobe 1 und 2.
    s ist die gepoolte Standardabweichung, welche zusätzlich zu berechnen ist:

        \[ s={\sqrt {\frac {(n_1-1)s_{1}^{2}+(n_2-1)s_{2}^{2}}{n_1 + n_2-2}}}} \]

    Wenn die Standardabweichungen der beiden Stichproben identisch sind (Spoiler: in der Realität sehr unwahrscheinlich!), ist die Berechnung natürlich unnötig und s kann direkt in die Berechnung bei T eingesetzt werden.

     

    Berechnung des Ablehnungsbereiches der Nullhypothese bei zweiseitigem Test (ungerichtete/zweiseitige Hypothese)

        \[ {t|T< -t_{1-\alpha /2;n+m-2}\}\,} \]

    sowie

        \[ {t|T>t_{1-\alpha /2;n+m-2}\}\,} \]

    Das Signifikanzniveau Alpha ist im Vorfeld festzulegen und beträgt in der Regel 5% (0.05) oder 1% (0.01). Für die Folgerechnungen verwende ich ein Alpha von 5%.

    Bei einseitiger Testung wird jeweils nur die „eine Seite“ des Ablehnungsbereiches zugrunde gelegt. Geht man im Vorfeld von einem größeren Mittelwert bei der Stichprobe 1 aus, wird nur der positive Ablehnungsbereich verwendet – die Differenz zwischen Stichprobe 1 und Stichprobe 2 ist positiv und somit ist die Teststatistik T > 0 und nur beim positiven Abelhenungsbereich zu prüfen.

     

    4.2 Beispieldaten

    Gegeben seien nachfolgende Beispieldaten von zwei unabhängigen Stichproben:

    • Stichprobe 1:

          \[ \overline {x}_{1} = 61, s_1 = 9.823, n_1 = 13 \]

    • Stichprobe 2:

          \[ \overline {x}_{2} = 52, s_2 = 9.870, n_2 = 16 \]

     

    4.3 Beispielrechnung

    Die entsprechenden Werte für x̄ , s und n werden dann in die Formeln von s und T eingesetzt:

    • Berechnung von s – gepoolte Standardabweichung:

          \[ s={\sqrt {\frac {(n_1-1)s_{1}^{2}+(n_2-1)s_{2}^{2}}{n_1 + n_2-2}}}} =  {\sqrt {\frac {(13-1)9.823^{2}+(16-1)9.870^{2}}{13 + 16-2}}}} = 9.850 \]

    • Berechnung der Teststatistik/Prüfgröße T:

          \[ T={\sqrt {\frac {n_1 \cdot  n_2}{n_1 + n_2}}} \cdot  {\frac {{\overline {x}_1}-{\overline {x}_2}}{s}}} = {\sqrt {\frac {13 \cdot  16}{13 + 16}}} \cdot \frac{61-52}{9.850}}} = 2.45\]

    • Ablehnungsbereich der Nullhypothese bei zweiseitigem Test (ungerichtete/zweiseitige Hypothese) und einem Alphaniveau von 5%:

          \[ {t|T< -t_{1-\alpha /2;n+m-2}\}\,}  = {t|T< -t_{1-(0.05/2); 13+16-2}\}\,} = {t|T< -t_{0.975; 27}\}\,} \]

      bzw.

          \[ {t|T< t_{1-\alpha /2;n+m-2}\}\,}  = {t|T< t_{1-(0.05/2); 13+16-2}\}\,} = {t|T< t_{0.975; 27}\}\,} \]

      Der kritische t-Wert ist demnach das 0.975-Quantil der t-Verteilung mit 27 Freiheitsgraden (degrees of freedom – df). Schreibweise t (0.975; 27) = 2.052.

      Die Freiheitsgrade sind beim unabhängigen t-Test immer die Beobachtungen der Gruppen addiert, abzüglich 2 (n1 + n2 – 2). Im Beispiel: 13 + 16 – 2 = 27.

      Die Ermittlung des kritischen t-Wertes 2.052 erfolgt entweder über das Ablesen aus der t-Tabelle bei zweiseitigem Test mit Alpha = 0.05 und df = 27 oder in Excel/Google Sheets mit der Funktion „=T.INV.2S(0,05;27)“ – Dezimaltrennzeichen beachten!

    • Die Teststatistik T sollte für die Verwerfung der Nullhypothese den positiven t-Wert übersteigen oder den negativen t-Wert unterschreiten.
    • Da T = 2.45 > 2.052 ist, wird der positive kritische t-Wert überstiegen und entsprechend die Nullhypothese abgelehnt. Es ist ein (statistischer) Unterschied zwischen Stichprobe 1 und Stichprobe 2 auf dem Alphaniveau 5% erkennbar.
    Im Falle einer einseitigen Testung wird nur ein Ablehnungsbereich zur Prüfung herangezogen – der positive oder der negative Ablehnungsbereich. Das ist im Vorfeld anhand der Vermutung, welcher Mittelwert größer ist, klar benannt. Das hat in der Regel den Vorteil, dass die Prüfgröße kleiner ist und wäre für ein Alpha mit 5% und 27 Freiheitsgrade: t(0.95; 27) = 1.703, was aus der t-Tabelle beim einseitigen Test ablesbar ist oder mit „=T.INV(0,95;27)“ in Excel/Google Sheets errechenbar ist. Folglich sind einseitige Hypothesen vorteilhafter, weil man damit einen niedrigeren kritischen Wert/Prüfgröße erreichen muss. Salopp gesagt, kann man damit auch etwas kleinere Unterschiede als nichtzufällig beobachten.

     

    5 Effektstärkenberechnung

    Im Falle einer festgestellten Differenz der Mittelwerte zwischen Stichprobe 1 und Stichprobe 2 ist schließlich noch die Stärke des Unterschiedes (= Effektes) zu quantifizieren. Hinweis: in manchen Disziplinen wird stets eine Effektstärke berechnet, unabhängig vom Testergebnis. Dies erfolgt in der Regel mit der Effektstärke Cohen’s d, aus Cohen (1988), S. 20.

        \[  d = \frac{\overline{x}_{1}-\overline{x}_{2}}{s}} \]

     

    Hierzu wird lediglich die Mittelwertdifferenz durch die gepoolte Standardabweichung (siehe 4.3) geteilt. Das ist schon bekannt als Teil der Berechnung der Prüfgröße T.

        \[ d = \frac{61-52}{9.850}} = 0.913 \]

    Cohen’s d wird mit Hilfe vergleichbarer Studien eingeordnet. Behelfsweise werden fachspezifische Grenzen verwendet.

    Ist beides nicht vorhanden, kann Cohen (1992), S. 157 herangezogen werden:

    • ab d = 0.2 klein,
    • ab d = 0.5 mittel und
    • ab d = 0.8 stark.

    Im Beispiel liegt der Wert 0.913 über der Grenze zum starken Effekt. Somit ist der Unterschied zwischen den beiden Gruppen bzw. deren Ruhepulsen stark.

     

    6 Durchführung in statistischen Programmen

    Jedes statistische Analyseprogramm verfügt über eine Routine zur Berechnung eines unabhängigen t-Tests. Folgende Blogbeiträge hierzu gibt es:

    6.1 Berechnung in SPSS

    6.2 Berechnung in R

    6.3 Berechnung in Excel

     

    7 Berichten der Ergebnisse des unabhängigen t-Test

    Nach der Berechnung des Zweichstichproben t-Tests sowie der Effektstärke werden Ergebnisse nüchtern berichtet.

    Gruppenmittelwerte und Standardabweichungen sind zu berichten. Zusätzlich die t-Statistik mit Freiheitsgraden, der p-Wert (je nach Hypothese ein- oder zweiseitig) und die Effektstärke (vorzugsweise Cohen’s d):

    t(df) = t-Wert; p-Wert; Effektstärke d.

    Bei untrainierten Personen (M = 61; SD = 9.82) ist im Vergleich mit trainierten Personen (M = 52; SD = 9.87) ein höherer Ruhepuls beobachtbar, t(27) = 2.45; p = 0.021; d = 0.913. Nach Cohen (1992) ist dieser Unterschied groß.

     

    Hinweis: Die Ermittlung des p-Wertes kann in Excel oder Google Sheets zweiseitig mit der Funktion=T.VERT.2S()“ vorgenommen werden. Bei einseitiger Testung wird „=T.VERT.RE()“ verwendet. Als erstes Argument wird jeweils der T-Wert eingesetzt, danach die Freiheitsgrade, die sich aus allen Beobachtungen abzüglich 2 ergibt. Im Beispiel 13 + 16 – 2 = 27.

    Außerdem kann der p-Wert der zweiseitigen Testung halbiert werden, um den p-Wert für die einseitge Testung zu erhalten.

     

    8 Literatur

    • Cohen, J. (1988). Statistical power analysis for the behavioral sciences. New York, NY: Psychology Press, Taylor & Francis Group
    • Cohen, J. (1992). A power primer. Psychological bulletin, 112(1), 155-159.

    Allgemein zum t-Test:

    • Field, A. P. (2018). Discovering statistics using IBM SPSS statistics. London; Thousand Oaks, Kapitel 10.5.3, S. 448-462.
    • Sedlmeier, P., Renkewitz, F. (2024), Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler, Kapitel 13.1.1 sowie 13.3.3, S. 409-414, 423-424.
    • Warner, R. M. (2012). Applied Statistics: From Bivariate Through Multivariate Techniques. USA: SAGE Publications, Kapitel 5, S. 185-214.

     

Hat dir der Beitrag geholfen?

Dann würde ich mich über eine kleine Spende freuen, die es mir erlaubt, weiterhin kostenfreie Inhalte zu veröffentlichen.
Alternativ kannst du über meinen Amazon Affiliate-Link einkaufen – ohne Zusatzkosten.

Vielen Dank und viel Erfolg!

Über mich

Björn Walther

Ein 💚 für Statistik & Datenanalyse

Excel Online-Kurs

YouTube-Kanal

Inhalt