Mindeststichprobengröße bei der multiplen linearen Regression (G*Power)

Björn Walther

vor 5 Jahren

Im Vorfeld jeder statistischen Untersuchung, auch der multiplen linearen Regression sollte mittels einer Poweranalyse sichergestellt werden, dass eine hinreichend große Menge an Probanden/Beobachtungen vorliegt. Warum? Kurz gesagt, damit der Test auch die Chance hat, einen Effekt erkennen zu können. Diese Chance nennt man auch statistische Power.

1 Vorbemerkungen

1.1 Statistische Power (Teststärke)

Teststärke (sog. statistische Power) beschreibt die Fähigkeit eines Tests, einen in der Stichprobe tatsächlich vorhandenen Effekt auch erkennen zu können und ist essenziell – nur leider ist das zu wenig bekannt. Bei der multiplen linearen Regression ist dieser zu maximierende Effekt das Bestimmtheitsmaß R². Es ist der Prozentsatz der Varianzaufklärung der abhängigen Variable durch das Modell, also die aufgenommenen Prädiktoren.

Die Power berechnet sich stets aus 1 abzüglich des Beta-Fehlers.
Der Beta-Fehler beschreibt das fälschliche Beibehalten der Nullhypothese. Hier kann man gut erkennen, dass Power und Beta-Fehler (auch Fehler 2. Art) direkt zusammenhängen. Ich erhöhe die Power, wenn ich den Beta-Fehler minimiere und umgekehrt. Hier sind 5% Fehlerwahrscheinlichkeit erstrebenswert, somit ist die Power 1 – 0,05 = 0,95 (95%). Mehr ist kaum praktikabel. Als Kompromiss findet man als Untergrenze 0,8 – also 80%. Eine geringere Power im Vorfeld anzunehmen, ist kaum rechtfertigbar. Auch eine Power von 0,8 muss begründet sein.

1.2 Alpha-Fehler

Der Alpha-Fehler (auch Fehler 1. Art) ist das fälschliche Ablehnen der Nullhypothese. Die typische Festsetzung für Alpha ist 5% (0,05). Man akzeptiert damit eine maximale Alpha-Fehlerwahrscheinlichkeit von 5%. Weitere typische Grenzen sind 1%, 0,1% oder sogar 10%. Achtung, es kommt hier häufig auf den Kontext an. Explorative Studien lassen eher einen höheren Alpha-Fehler zu. Studien in etablierten Forschungsbereichen sind hier restriktiver. Niedriger kann jedoch pauschal als besser erachtet werden – es geht ja um die Fehlervermeidung.

1.3 Effektstärke

Im Vorfeld benötigt man die Effektstärke, also wie stark der beobachtete Effekt wohl sein wird bzw. vermutet wird. Im Kontext der multiplen linearen Regression verwendet man f² nach Cohen (1988)/Cohen (1992). Dies kann aus dem Bestimmtheitsmaß R² abgeleitet werden:

Es gibt hierzu verschiedene Herangehensweisen zur Festlegung im Rahmen der Poweranalyse:

Der einfachste Weg ist eine Orientierung an Vergleichsstudien und Verwendung der dort angegebenen Effektstärke. Sollte keine angegeben sein, kann man die mitunter nachträglich mit den angegebenen Populationsparametern ermitteln.
Der praktische Weg ist das Festlegen auf Basis der Erfahrung des Forschers. Dies ist aber subjektiv und eine Begründung mit persönlicher Erfahrung kann bei Gutachtern schnell zu einer ablehnenden Haltung führen.
Der pragmatische Weg ist die Annahme eines Effektes, z.B. eines mittleren Effektes (f² = 0.15). Auch hier ist eine Begründung notwendig und kann nicht einfach so getroffen werden – nicht selten findet man aber keine.

Die Konventionen nach Cohen sind folgende:

f² > 0,02 – kleiner Effekt
f² > 0,15 – mittlerer Effekt
f² > 0,35 – großer Effekt

1.4 Anzahl Prädiktoren

Dies spricht für sich und jede unabhängige Variable (= Prädiktor), inklusive Kontrollvariablen zählt hier. Hat man 3 Prädiktoren aus Hypothesen und 3 Kontrollvariablen, sind dies 6 Prädiktoren, die zu beachten sind.

2 Die Mindeststichprobengröße mit G*Power

Zunächst ist der richtige Test auszuwählen, was am einfachsten über das obere Menü funktioniert.

Correlation and regression -> Linear multipe regression: Fixed model, R², deviation from zero

Bei Type of Power Analysis ist zwingend a priori auszuwählen.
Entsprechend sind nun Effektstärke (vermutetes f², siehe oben), Alphafehler (typisch 5%), statistische Power (typisch 95%) und Number of Predictors einzutragen.

Bei einer multiplen linearen Regression mit mittlerer Effektstärke von f² = 0,15, Alpha 5%, Power 95% und 6 Prädiktoren ergibt dies einen mindestens notwendigen Stichprobenumfang von N = 146 Beobachtungen.

3 Powertabellen

Hier eine Übersicht für verschiedene Effektstärken bei unterschiedlichen Power-Niveaus und die notwendigen Stichprobenumfänge für die exemplarischen 6 Prädiktoren:


Multiple lineare Regression (6 Prädiktoren)			
f²	Alpha	"Power"	  N
                (1-Beta)
0,35	0,05	0,95	  67
0,15	0,05	0,95	  146
0,02	0,05	0,95	  1050
0,35	0,05	0,8	  46
0,15	0,05	0,8	  98
0,02	0,05	0,8	  688
0,02    0,01    0,95      1361

Es ist recht deutlich erkennbar, dass mit sinkender Effektstärke bei gleichbleibender Power die notwendige Stichprobengröße (N) stark steigt. Der „worst case“ (letzte Zeile) wäre eine kleine Effektstärke von 0,02 bei einem Alphafehler von 1% sowie einer Power von 95%. Hier wären insgesamt 1361 Beobachtungen notwendig.

4 Videotutorial

https://www.youtube.com/watch?v=0pE0hRfyx1c

5 Literatur

Cohen, J. (1988). Statistical power analysis for the behavioral sciences. New York, NY: Psychology Press, Taylor & Francis Group
Cohen, J. (1992). A power primer. Psychological bulletin, 112(1), 155-159.