p-Hacking

von Björn Walther | Zuletzt bearbeitet am: Oct 13, 2022 | Wissenschaftliches Arbeiten

P-hacking hat viele Synonyme, darunter data dredging, data snooping, fishing for significance und viele mehr.

Inhaltsverzeichnis

1 Was ist p-Hacking?

Generell beschreibt P-Hacking die Verzerrung und Manipulation von Forschungsergebnissen, mit dem Ziel den p-Wert, also die Signifikanz, unter eine gewisse Grenze zu drücken. Diese Grenze kennen wir typischerweise als Alpha mit 0,05, also 5 %. Dies ist die tolerierte Wahrscheinlichkeit einen Fehler 1. Art zu begehen, also die Nullhypothese fälschlicherweise abzulehnen. Das Problem des p-Hacking ist in der Wissenschaft weit verbreitet, wie Studien zeigen konnten (z.B. Head, M.L. et al. (2015)).

2 Formen des p-Hacking

Kommen wir nun zu den verschiedenen Formen von P-Hacking. Achtung: Pauschal sind die folgenden Praktiken nicht verboten, sie mit dem Ziel der Senkung des p-Wertes anzuwenden gilt jedoch als unwissenschaftlich.

Ganz klassisch ist das Entfernen sogenannter Ausreißer also das Verringern der Stichprobengröße. Die Hoffnung dabei ist, einen für die Stichprobe ungewöhnlichen Wert auszuschließen und damit, je nach Untersuchungsmethodik, einen Zusammenhang oder Unterschied deutlicher im Sinne von signifikanter werden zu lassen. Die Stichprobe zurechtzubiegen ist also bereits eine unwissenschaftliche Praxis, die unter p-Hacking fällt.
Eine weitere unwissenschaftliche Praxis ist das Transformieren von Daten mit dem Ziel der Senkung des p-Werts. Besonders beliebt ist die Reduktion des Skalenniveaus. Statt des Alters verwendet man also Altersklassen. Auch beliebt ist das Aggregieren von zwei verschiedenen Variablen in eine, beispielsweise durch die Bildung einer Relativgröße.
Die dritte Form von p-Hacking ist das nachträgliche Verändern des Modells. Es werden also Variablen hinzugenommen, ausgetauscht oder weggelassen, was einen stark explorativen Charakter hat. Es sollte daher klar sein, dass im Vorfeld durch eine theoretisch-konzeptionelle Hypothesenherleitung das Modell feststeht und nicht mehr geändert werden darf. Das Aufnehmen und Weglassen von Variablen ist insbesondere deswegen kritisch, weil damit die im Vorfeld getroffenen Überlegungen wieder über Bord geworfen werden. Daher mein Appell: die im Vorhinein hergeleiteten Hypothesen und das daraus resultierende Modell werden statistisch geprüft und die Ergebnisse berichtet. Findet sich eine Signifikanz, gut. Findet sich keine Signifikanz, ist das auch kein Problem. Wissenschaftliche Arbeiten werden nicht nach Signifikanz, sondern nach wissenschaftlicher Arbeitsweise, also vor allem Nachvollziehbarkeit und Transparenz beurteilt.
Die vierte Form des p-Hacking ist das Nutzen eines anderen statistischen Verfahrens. Hierbei muss man ganz klar sagen, dass Hypothesen bisweilen mit verschiedenen Verfahren geprüft werden können. Daher ist es umso wichtiger, im Vorfeld die Methodik zu benennen und diese und nur diese zu verwenden. Das ist deswegen essenziell, weil im Vorfeld einer Datenerhebung eine Poweranalyse erfolgt. Die Mindeststichprobengröße, die man als Ergebnis der Poweranalyse erhält, gilt nur für das eine vorher festgelegte Verfahren. Im schlimmsten Falle kann beim Wechsel des Verfahrens die statistische Power sinken und damit die Wahrscheinlichkeit für einen Fehler 2. Art steigen.
Die letzte sehr beliebte Form des p-Hacking ist die Erhöhung der Stichprobengröße. Hiermit macht man sich das Phänomen zunutze, dass mit steigender Anzahl an Beobachtungen, p-Werte automatisch sinken. Um diesen Phänomenen entgegenzutreten, verwendet man Effektstärken. Häufig zeigen sich für Regressionsmodelle mit sehr kleinen Signifikanzen oft nur geringe Bestimmtheitsmaße, was vor allem an einer extrem hohen Anzahl an Beobachtungen liegt. Auch hier unterliegt man meist dem Denkfehler, das Signifikanz, um im Beispiel der Regression zu bleiben, für die Stärke eines Zusammenhangs zwischen X und Y variable steht.

3 Verwandte Praktiken

Ähnlich und mit p-Hacking verwandte Praktiken sind das sogenannte HARKING also “hypothesizing after the results are known”. Mit diesem Vorgehen werden statistische Tests gerechnet und signifikante Ergebnisse im Nachhinein in Hypothesen formuliert. Somit kann man viele Hypothesen scheinbar bekräftigen. Dieses Vorgehen gilt als höchst unwissenschaftlich.
Das zweite Vorgehen ist die selektive Publikation von Ergebnissen, nämlich nur statistisch signifikanter Ergebnisse. Wenn man “selective publication” in Verbindung mit p-Hacking sieht, werden zum einen nur signifikante Ergebnisse publiziert, die zum anderen aber auf Basis höchsten wissenschaftlicher Vorgehensweisen zustande gekommen sind. Im Endeffekt sind die wissenschaftlichen Erkenntnisse hieraus schlicht nichts wert, weil das Zustandekommen der Ergebnisse vollkommen beliebig ist.

Somit führt p-Hacking dazu, dass zu viele falsch positive Ergebnisse und zu wenig richtig negative Ergebnisse publiziert werden und somit der Wissenschaftscommunity sowie letztlich der Gesellschaft Effekte vermittelt werden, die eigentlich gar nicht da sind.

4 Gegenmaßnahmen

Im Vorfeld der Datenerhebung sollten Hypothesen unbedingt spezifiziert werden. In vielen Bereichen der Geistes- und Sozialwissenschaften ist eine theoretisch-konzeptionelle Herleitung unabdingbar. In Naturwissenschaften reichen mitunter auch Vermutungen oder anekdotische Evidenz, um eine Hypothese zu formulieren. In jedem Falle sollten sie vor der Datenerhebung feststehen, besonders weil in Verbindung mit der verwendeten Methodik im Vorfeld eine Poweranalyse zur Ermittlung der Mindeststichprobengröße durchzuführen ist.
Die statistische Methodik muss bereits im Vorfeld der Datenerhebung feststehen und registriert werden. Das heißt in Form eines Exposés bei wissenschaftlichen Abschlussarbeiten oder bei einer übergeordneten Instanz bei wissenschaftlichen Publikationen.
Wie bereits gesagt, sollte eine Poweranalyse durchgeführt werden. Hierbei wird a-priori, also noch bevor überhaupt ein einziger Proband befragt oder vermessen wird, die Mindeststichprobengröße bei gewünschter statistischer Power ermittelt. Das hat zur Folge, dass man sich recht sicher sein kann, dass die Signifikanz nicht aufgrund fehlender statistischer Power zu hoch ist. Das bedeutet allerdings nicht, dass man im Nachhinein einer Untersuchung eine Poweranalyse rechnet und das Nichtfinden eines Effektes auf zu geringe Power schiebt.
Transparenz! Das Datenmaterial sollte veröffentlicht werden, damit andere Wissenschaftler mit der gleichen Methode das Ergebnis replizieren können. Gelingt dies nicht, scheint Salopp formuliert, etwas faul zu sein.

5 Videotutorial

Dieses Video auf YouTube ansehen.

6 Literatur

Head, M. L., Holman, L., Lanfear, R., Kahn, A. T., & Jennions, M. D. (2015). The extent and consequences of p-hacking in science. PLoS Biol, 13(3), e1002106.
Hirschauer, N., Mußhoff, O., Grüner, S., Frey, U., Theesfeld, I., & Wagner, P. (2016). Grundsätzliche Missverständnisse bei der Interpretation des p-Werts. WiSt-Wirtschaftswissenschaftliches Studium, 45(8), 407-412.



Hat dir der Beitrag geholfen?

Dann würde ich mich über eine kleine Spende freuen, die es mir erlaubt, weiterhin kostenfreie Inhalte zu veröffentlichen.
Alternativ kannst du über meinen Amazon Affiliate-Link einkaufen – ohne Zusatzkosten.

Vielen Dank und viel Erfolg!

Jetzt spenden

Über mich

Björn Walther

Ein 💚 für Statistik & Datenanalyse