Abhängiger t-Test – verständlich erklärt

von | 14 Nov, 2024 | t-Test

1 Grundidee des abhängigen t-Test

Der abhängige t-Test (auch t-Test bei gepaarten oder verbundenen Stichproben) prüft zwei wiederholte Messungen (zu verschiedenen Zeitpunkten) derselben Untersuchungsobjekte auf Unterschiede. Typischerweise wird vor und nach einer Intervention ein bestimmtes Merkmal erfasst und die Mittelwerte miteinander verglichen.

Beispiele:

  • der Wert des Eisens im Blut wird vor und nach einer Ernährungsumstellung gemessen und soll verglichen werden.
  • Die Anzahl Wiederholungen einer Kraftübung wird vor und nach einem zweiwöchigen Krafttraining gemessen und verglichen.
Der abhängige t-Test verwendet die Mittelwerte zu den beiden Messzeitpunkten derselben Untersuchungsobjekte als Approximation für die unbekannten Erwartungswerte der jeweiligen Grundgesamtheiten.

 

2 Hypothesen des abhängigen t-Test

2.1 Allgemein formuliert

Zunächst können die Nullhypothese und Alternativhypothese allgemein, also unter Verwendung des Begriffes des Erwartungswertes formuliert werden. Die Nullhypothese geht stets von keinen Unterschieden aus.

  • Nullhypothese: Es gibt keine Unterschiede bzgl. der Erwartungswerte zwischen Zeitpunkt 1 und Zeitpunkt 2.

        \[ H_{0}:\,\mu _{t1}=\mu _{t2} \]

  • Alternativhypothese: Es gibt Unterschiede bzgl. der Mittelwerte zwischen zwischen Zeitpunkt 1 und Zeitpunkt 2.

        \[ H_{1}:\,\mu _{t1} \neq \mu _{t2} \]

  • Die Alternativhypothese kann auch einseitig formuliert werden. Das würde bedeuten, dass im Vorfeld bekannt ist, dass zu einem Zeitpunkt ein größere Erwartungswert vorliegt, als zum anderen Zeitpunkt.

    Zum Beispiel: Der Erwartungswert zum Zeitpunkt 1 ist kleiner als der Erwartungswert zum Zeitpunkt 2.

        \[ H_{1}:\,\mu _{t1} < \mu _{t2} \]

    Oder, der Erwartungswert zum Zeitpunkt 1 ist größer als der Erwartungswert zum Zeitpunkt 2.

        \[ H_{1}:\,\mu _{t1} > \mu _{t2} \]

 

2.2 Spezifisch formuliert

Die Hypothesen können außerdem spezifisch für den Mittelwert formuliert werden, was verständlicher sein dürfte.

  • Nullhypothese:

        \[ H_{0}:\,\overline {x}_{t1}=\overline {x}_{t2} \]

  • Alternativhypothese:

        \[ H_{1}:\,\overline {x}_{t1}\neq \overline {x}_{t2} \]

  • Einseitig formulierte Alternativhypothese: Der Mittelwert zum Zeitpunkt 1 ist kleiner als der zum Zeitpunkt Stichprobe 2.

        \[ H_{1}:\,\overline {x}_{t1} < \overline {x}_{t2} \]

    Oder, der Mittelwert zum Zeitpunkt 1 ist größer als der Mittelwert zum Zeitpunkt 2.

        \[ H_{1}:\,\overline {x}_{t1} > \overline {x}_{t2} \]

  •  

    3 Voraussetzungen des abhängigen t-Test

    • Die beiden Messungen zu den Zeitpunkten 1 und 2 sind abhängig, i.d.R. stellen sie Messwiederholungen bei denselben Untersuchungsobjekten vor und nach einer Intervention dar.
    • Die Differenzen der Werte zwischen den beiden Messzeitpunkten sind in der Grundgesamtheit in etwa normalverteilt.
    • Ab 30 gepaarten Beobachtungen verteilten sich die Differenzen typischerweise symmetrisch um den Mittelwert der Differenz.
    • Bzgl. Normalverteilung kann im Zweifel auch mit Bootstrap-Konfidenzintervallen gearbeitet werden (vgl. Field (2018), S. 470-471).

     

    4 Berechnung Teststatistik

    4.1 Allgemeine Darstellung

    Die Teststatistik T wird wie folgt berechnet:

        \[ T={\sqrt{n} {\frac {\bar{d}}{s_{d}}}}  \]

    Hierbei ist n die Anzahl der gepaarten Beobachtungen und der Mittelwert der Differenzen zwischen Zeitpunkt 1 und 2 sowie sd die Standardabweichung der Differenzen zwischen Zeitpunkt 1 und 2.

    Mit

        \[ \bar{d}=\frac{1}{n}\sum_{i=1}^{n}x_{i}^{t1} - x_{i}^{t2} \]

    sowie

        \[ s_{d}={\sqrt {\frac {1}{n - 1}\sum_{i=1}^{n}(d_{i}-\bar{d})^2}} \]

     

    Berechnung des Ablehnungsbereiches der Nullhypothese bei zweiseitigem Test (ungerichtete/zweiseitige Hypothese)

        \[ ({-\infty, -t_{1-\frac{\alpha}{2}; n-1}}] \]

    sowie

        \[ [t_{1- \frac{\alpha}{2};n-1},\infty)\]

    Das Signifikanzniveau Alpha ist im Vorfeld festzulegen und beträgt in der Regel 5% (0.05) oder 1% (0.01). Für die Folgerechnungen verwende ich ein Alpha von 5%.

    Bei einseitiger Testung wird jeweils nur die „eine Seite“ des Ablehnungsbereiches zugrunde gelegt. Geht man im Vorfeld von einem größeren Mittelwert zum Zeitpunkt 1 aus, wird nur der positive Ablehnungsbereich verwendet – der Mittelwert der Differenz zwischen Zeitpunkt 1 und Zeitpunkt 2 ist positiv und somit ist die Teststatistik T > 0 und nur beim positiven Abelhenungsbereich zu prüfen.

     

    4.2 Beispieldaten

    Gegeben seien nachfolgende Beispieldaten derselben n = 17 Untersuchungsobjekte zu zwei Zeitpunkten:

    • Zeitpunkt 1:

          \[ \overline {x}^{t1} = 18.76 , {sd}^{t1} = 9.11 \]

    • Zeitpunkt 2:

          \[ \overline {x}^{t2} = 27.64, {sd}^{t1} = 13.28 \]

    • Daraus ergibt sich:

          \[ {x}^{t1} - {x}^{t2} = 18.76 - 27.64 = -8.88 \]

      sowie mit obiger Formel für sd (Berechnung hier nicht gezeigt)

          \[ s_d = 5.43 \]

     

    4.3 Beispielrechnung

    Die entsprechenden Werte für , s und n werden dann in die Formeln von T eingesetzt:

    • Berechnung der Teststatistik/Prüfgröße T:

          \[ T={\sqrt{n} {\frac {\bar{d}}{s_{d}}}} = \sqrt{17} \cdot {\frac  {-8.88}{5.43}} = -6.744 \]

    • Ablehnungsbereich der Nullhypothese bei zweiseitigem Test (ungerichtete/zweiseitige Hypothese) und einem Alphaniveau von 5%:

          \[ {t|T< -t_{1-\alpha /2;n-1}\}\,}  = {t|T< -t_{1-(0.05/2); 17-1}\}\,} = {t|T< -t_{0.975; 16}\}\,} \]

      bzw.

          \[ {t|T< t_{1-\alpha /2;n-1}\}\,}  = {t|T< t_{1-(0.05/2); 17-1}\}\,} = {t|T< t_{0.975; 16}\}\,} \]

      Der kritische t-Wert ist demnach das 0.975-Quantil der t-Verteilung mit 16 Freiheitsgraden (degrees of freedom – df). Schreibweise t (0.975; 16) = 2.120.

      Die Freiheitsgrade sind beim abhängigen t-Test immer die Anzahl der Beobachtungen, abzüglich 1 (n – 1). Im Beispiel: 17 – 1 = 16.

      Die Ermittlung des kritischen t-Wertes 2.120 erfolgt entweder über das Ablesen aus der t-Tabelle bei zweiseitigem Test mit Alpha = 0.05 und df = 16 oder in Excel/Google Sheets mit der Funktion „=T.INV.2S(0,05;16)“ – Dezimaltrennzeichen beachten!

    • Die Teststatistik T sollte für die Verwerfung der Nullhypothese den positiven t-Wert übersteigen oder den negativen t-Wert unterschreiten.
    • Da T = -6.744 < -2.120 ist, wird der negative kritische t-Wert unterschritten und entsprechend die Nullhypothese abgelehnt. Es ist ein (statistischer) Unterschied zwischen Zeitpunkt 1 und Zeitpunkt 2 auf dem Alphaniveau 5% erkennbar.
    Im Falle einer einseitigen Testung wird nur ein Ablehnungsbereich zur Prüfung herangezogen – der positive oder der negative Ablehnungsbereich. Das ist im Vorfeld anhand der Vermutung, welcher Mittelwert größer ist, klar benannt. Das hat in der Regel den Vorteil, dass die Prüfgröße kleiner ist und wäre für ein Alpha mit 5% und 16 Freiheitsgraden: t(0.95; 16) = 1.746, was aus der t-Tabelle beim einseitigen Test ablesbar ist oder mit „=T.INV(0,95;16)“ in Excel/Google Sheets errechenbar ist. Folglich sind einseitige Hypothesen vorteilhafter, weil man damit einen niedrigeren kritischen Wert/Prüfgröße erreichen muss. Salopp gesagt, kann man damit auch etwas kleinere Unterschiede als nichtzufällig beobachten.

     

    5 Effektstärkenberechnung

    Im Falle einer festgestellten Differenz der Mittelwerte zwischen Zeitpunkt 1 und Zeitpunkt 2 ist schließlich noch die Stärke des Unterschiedes (= Effektes) zu quantifizieren. Hinweis: in manchen Disziplinen wird stets eine Effektstärke berechnet, unabhängig vom Testergebnis. Dies erfolgt in der Regel mit der Effektstärke Cohen’s d, aus Cohen (1988), S. 20.

    Da es inhaltlich zumeist sinnvoller ist, eine Effektstärke als stets positiven Wert anzugeben, wird jene betragsmäßig ermittelt.

        \[  d = \left| \frac {{\bar{x}}^{t1} - {\bar{x}}^{t2}} {s_d} \right| \]

    Hierzu wird lediglich die Mittelwertdifferenz durch die Standardabweichung der Mittelwertdifferenz (siehe 4.2) geteilt. Das ist schon bekannt als Teil der Berechnung der Prüfgröße T.

        \[ d = \left| \frac {18.76 - 27.64} {5.43}\right| = \left| \frac{-8.88}{5.43} \right|= 1.64 \]

    Cohen’s d wird vorzugsweise mit Hilfe vergleichbarer Studien eingeordnet. Behelfsweise werden fachspezifische Grenzen verwendet.

    Ist beides nicht vorhanden, kann Cohen (1992), S. 157 herangezogen werden:

    • ab d = 0.2 klein,
    • ab d = 0.5 mittel und
    • ab d = 0.8 stark.

    Im Beispiel liegt der Wert 1.64 über der Grenze zum starken Effekt. Somit ist der Unterschied zwischen den beiden Zeitpunkten bzgl. des gemessenen Parameters stark.

     

    6 Durchführung in statistischen Programmen

    Jedes statistische Analyseprogramm verfügt über eine Routine zur Berechnung eines abhängigen t-Tests. Folgende Blogbeiträge hierzu gibt es:

     

    7 Berichten der Ergebnisse des abhängigen t-Test

    Nach der Berechnung des abhängigen t-Tests sowie der Effektstärke werden Ergebnisse nüchtern berichtet.

    Mittelwerte und Standardabweichungen zu den Zeitpunkten sind zu berichten. Zusätzlich die t-Statistik (Betrag angeben!) mit Freiheitsgraden, der p-Wert (je nach Hypothese ein- oder zweiseitig) und die Effektstärke (vorzugsweise Cohen’s d):

    t(df) = t-Wert; p-Wert; Effektstärke d.

    Verglichen mit vor dem Training (M = 18.76; SD = 9.11) schaffen Personen nach dem zweiwöchigen Training (M = 27.64; SD = 13.28) mehr Wiederholungen, t(16) = 6.744; p < 0.001; d = 1.64. Nach Cohen (1992) ist dieser Unterschied groß.

     

    Hinweis 1:
    Die Ermittlung des p-Wertes kann in Excel oder Google Sheets zweiseitig mit der Funktion=T.VERT.2S()“ vorgenommen werden. Bei einseitiger Testung wird „=T.VERT.RE()“ verwendet. Als erstes Argument wird jeweils der Betrag des T-Werts eingesetzt, danach die Freiheitsgrade, die sich aus den n paarweisen Beobachtungen abzüglich 1 ergeben. Im Beispiel 17 – 1 = 16.

    Excel, Google Sheets: =T.VERT.2S(ABS(t);df)

    – ABS() ist die Betragsfunktion, die den stets positiven t-Wert ermittelt.

    Außerdem kann der p-Wert der zweiseitigen Testung halbiert werden, um den p-Wert für die einseitge Testung zu erhalten.

    Hinweis 2:
    Der p-Wert wird in der Regel verkürzt mit < 0.001 bzw. < .001 dargestellt. Der exakte p-Wert beträgt im Beispiel bei zweiseitiger Testung 4.71E-06 bzw. bei einseitiger Testung 2.35E-6. E-6 ist die wissenschaftliche Schreibweise, dass das Komma um 6 Stellen nach links verschoben wird. 2.35E-06 = 0,00000235.

     

    8 Literatur

    • Cohen, J. (1988). Statistical power analysis for the behavioral sciences. New York, NY: Psychology Press, Taylor & Francis Group
    • Cohen, J. (1992). A power primer. Psychological bulletin, 112(1), 155-159.

    Allgemein zum abhängigen t-Test:

    • Field, A. P. (2018). Discovering statistics using IBM SPSS statistics. London; Thousand Oaks, Kapitel 10.5.2, S. 447-448.
    • Sedlmeier, P., Renkewitz, F. (2024), Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler, Kapitel 13.1.2 sowie 13.3.4, S. 414-418, 424-426.
    • Warner, R. M. (2012). Applied Statistics: From Bivariate Through Multivariate Techniques. USA: SAGE Publications, Kapitel 5, S. 960-973.

     

Hat dir der Beitrag geholfen?

Dann würde ich mich über eine kleine Spende freuen, die es mir erlaubt, weiterhin kostenfreie Inhalte zu veröffentlichen.
Alternativ kannst du über meinen Amazon Affiliate-Link einkaufen – ohne Zusatzkosten.

Vielen Dank und viel Erfolg!

Über mich

Björn Walther

Ein 💚 für Statistik & Datenanalyse

Excel Online-Kurs

YouTube-Kanal

Inhalt