Website-Icon Björn Walther

Stichprobengröße beim Zweistichproben-t-Test mit G*Power


Im Vorfeld jeder statistischen Untersuchung sollte mittels einer Poweranalyse sichergestellt werden, dass eine hinreichend große Menge an Probanden/Beobachtungen vorliegt. Warum? Kurz gesagt, damit der Test auch die Chance hat, einen Effekt erkennen zu können. Diese Chance nennt man auch statistische Power.

1 Vorbemerkungen

1.1 Statistische Power (Teststärke)

Teststärke (sog. statistische Power) beschreibt die Fähigkeit eines Tests, einen in der Stichprobe tatsächlich vorhandenen Effekt auch erkennen zu können und ist essenziell – nur leider ist das zu wenig bekannt. Beim t-Test ist der Effekt offensichtlich ein Unterschied zwischen den Gruppen.

Die Power berechnet sich aus 1 abzüglich des Beta-Fehlers.
Der Beta-Fehler beschreibt das fälschliche Beibehalten der Nullhypothese. Hier kann man gut erkennen, dass Power und Beta-Fehler (auch Fehler 2. Art) direkt zusammenhängen. Ich erhöhe die Power, wenn ich den Beta-Fehler minimiere. Hier sind 5% Fehlerwahrscheinlichkeit erstrebenswert, somit ist die Power 1 – 0,05 = 0,95 (95%). Mehr ist kaum praktikabel. Als Kompromiss findet man als Untergrenze 0,8 – also 80%. Eine geringere Power im Vorfeld anzunehmen, ist kaum rechtfertigbar. Auch 0,8 muss begründet sein.

 

1.2 Alpha-Fehler

Der Alpha-Fehler (auch Fehler 1. Art) ist das fälschliche Ablehnen der Nullhypothese. Typisch ist als Grenze für Alpha 5% (0,05). Man akzeptiert also eine maximale Alpha-Fehlerwahrscheinlichkeit von 5%. Weitere typische Grenzen sind 1%, 0,1% oder sogar 10%. Achtung, es kommt hier häufig auf den Kontext an. Niedriger kann pauschal als besser erachtet werden – es geht ja um die Fehlervermeidung.

 

1.3 Effektstärke

Im Vorfeld benötigt man die Effektstärke, also wie stark der beobachtete Effekt wohl sein wird bzw. vermutet wird. Im Kontext des Zweistichproben-t-Tests verwendet man Cohens d nach Cohen (1988)/Cohen (1992)
Es gibt hierzu verschiedene Herangehensweisen zur Festlegung im Rahmen der Poweranalyse:

Die Konventionen nach Cohen sind folgende:

 

1.4 Gerichtetheit der Hypothese

Typischerweise testet man ungerichtet, also zweiseitig. Man weiß also nicht, welche Gruppe einen höheren mittleren Wert der Testvariable aufweist (Gruppe A und B unterscheiden sich). Testet man einseitig, vermutet man im Vorfeld, dass Gruppe A einen höheren Wert der Testvariable hat als Gruppe B (oder umgekehrt).

 

2 Die Mindeststichprobengröße mit G*Power

Zunächst ist der richtige Test auszuwählen, was am einfachsten über das obere Menü funktioniert.

Means -> Two Independent Groups

 

Bei Type of Power Analysis ist zwingend a priori auszuwählen.
Entsprechend sind nun Gerichtetheit des Tests, Effektstärke (vermutetes Cohens d, siehe oben), Alphafehler (typisch 5%), statistische Power (typisch 95%) und Allocation Ratio einzutragen. Letzteres kann man mit 1 annehmen oder wenn man die Aufteilung der Grundgesamtheit kennt, kann man diese hier eintragen.

Bei einem zweiseitigen Test mit mittlerer Effektstärke von d = 0,5, Alpha 5%, Power 95% und Allocation Ratio von 1 ergibt dies einen mindestens notwendigen Stichprobenumfang von n = 210 Beobachtungen. Je Gruppe also 105 Beobachtungen.

 

3 Powertabellen

3.1 Zweiseitiges Testen

Hier eine Übersicht für verschiedene Effektstärken bei unterschiedlichen Power-Niveaus bei zweiseitigem Test:


Zweistichproben t-Test (2-seitig)					
Cohens d  Alpha	 Power (1-Beta)    n1	 n2	N
0,8	  0,05	        0,95	   42	 42	84
0,5	  0,05	        0,95	   105	 105	210
0,2	  0,05	        0,95	   651	 651	1302
0,8	  0,05	        0,8	   26	 26	52
0,5	  0,05	        0,8	   64	 64	128
0,2	  0,05	        0,8	   394	 394	788
0,2       0,01          0,95       893   893    1786

Es ist recht deutlich erkennbar, dass mit sinkender Effektstärke bei gleichbleibender Power die notwendige Stichprobengröße (N) stark steigt. Der “worst case” wäre eine kleine Effektstärke von 0,2 bei einem Alphafehler von 1% sowie einer Power von 95%. Hier wären insgesamt 1786 Beobachtungen notwendig.

 

3.2 Einseitiges Testen

Die Übersicht für verschiedene Effektstärken bei unterschiedlichen Power-Niveaus bei einseitigem Test:


Zweistichproben t-Test (1-seitig)					
Cohens d  Alpha	 Power (1-Beta)    n1	 n2	N
0,8	  0,05	        0,95	   35	 35	70
0,5	  0,05	        0,95	   88	 88	176
0,2	  0,05	        0,95	   542	 542	1084
0,8	  0,05	        0,8	   21	 21	42
0,5	  0,05	        0,8	   51	 51	102
0,2	  0,05	        0,8	   310	 310	620
0,2       0,01          0,95       790   790    1580

Man kann hier gut erkennen, dass man bei einseitigen Tests ein wenig an der Mindeststichprobengröße “sparen” kann. Es hilft also im Vorfeld gerichtete Hypothesen aufzustellen.

 

4 Videotutorial

https://www.youtube.com/watch?v=IuTUDqpDcuM

 

5 Literatur

 

Die mobile Version verlassen