Warum „signifikant“ unwissenschaftlich ist

Björn Walther

vor 1 Jahr

Auch ich habe lange Zeit den Begriff „signifikant“ genutzt. Einerseits aus Unwissenheit (worüber dieser Beitrag im Wesentlichen aufklärt), andererseits aus Bequemlichkeit. Dieser Beitrag soll dafür schärfen, eben nicht mehr von „signifikanten“ oder „statistisch signifikanten“ Ergebnissen zu sprechen oder zu schreiben. Dazu muss ich zunächst ein wenig ausholen – es lohnt sich aber fürs Verständnis durchzuhalten. 😉

1 Der Begriff „signifikant“

Allein über den Begriff „signifikant“ lassen sich ganze Bücher schreiben und die meisten, die mit (Inferenz-)Statistik in Berührung kommen, wird dieser Begriff ziemlich früh eingehämmert – meist in Verbindung mit dem Wort „statistisch“, also das Wortpaar „statistisch signifikant“. Signifikant bedeutet (bestenfalls umgangssprachlich) nichts anderes als das Verwerfen der Nullhypothese des Tests und damit das Annehmen der Alternativhypothese. Es wird bisweilen auch als „Beweis“ der aufgestellten Wirkungsvermutung gesehen. Nebenbei: Beweise gibt es bestenfalls in der Mathematik, nicht in der Statistik. Wir können im Bereich der Inferenzstatistik bestenfalls im Rahmen von Analysen Hinweise für die Existenz der unterstellten Wirkung sammeln, aber NIEMALS einen Beweis hierfür erbringen.

Um wieder auf den Ausgangspunkt zurückzukommen: „signifikant“ wurde und wird immer gerne dann verwendet, wenn der p-Wert des statistischen Tests unter der Alphagrenze liegt. Die am häufigsten zu findende Alphagrenze ist 5%. Alpha beschreibt die Wahrscheinlichkeit einen Alphafehler (auch Fehler 1. Art) zu begehen. Alphafehler = Fälschliches Ablehnen der Nullhypothese. Wenn also p < Alpha, wurde sich gefreut, da man (i. d. R.) hypothesenkonforme Ergebnisse erzielt hat. Wenn das der Fall war, wurde von „statistisch signifikanten Ergebnissen“ gesprochen – wie wir sehen werden, ein großes Problem.

2 Warum ist p < 0,05 und "signifikant" ein Problem?

2.1 Eine künstliche Grenze (p < 0,05) überdauert Generationen

Der Artikel von Wasserstein/Lazar aus 2016 hat das bestehende Problem um die künstlich geschaffene („magische“) Grenze von p < 0,05 auch in mein Sichtfeld gehoben. Die Einleitung (von S. 129) hieraus:
„In February 2014, George Cobb, Professor Emeritus of Mathematics and Statistics at Mount Holyoke College, posed these questions to an ASA (American Statistical Association, [Anm. d. Autors]) discussion forum:
Q: Why do so many colleges and grad schools teach p = 0.05?
A: Because that’s still what the scientific community and journal editors use.

Q: Why do so many people still use p = 0.05?
A: Because that’s what they were taught in college or grad school.

Cobb’s concern was a long-worrisome circularity in the sociology of science based on the use of bright lines such as p < 0.05: “We teach it because it’s what we do; we do it because it’s what we teach.” This concern was brought to the attention of the ASA Board.“

Auch in meinem Studium und zu Beginn meiner Promotion wurden immer großer Wert darauf gelegt, dass p-Werte unter 0,05 sein sollten – ansonsten seien Ergebnisse nicht brauchbar – ein völliger Irrglaube, wie später noch gezeigt wird.

Lange Zeit war das Streben nach p < 0,05 schlicht Ergebnis eines unreflektierten Vorgehens von Menschen im Forschungsbetrieb, welches über Generationen stets (unreflektiert) weitergegeben und wiederum angewandt und weitergegeben wurde: [...] it’s what we do […].

2.2 Falsche Anreize infolge p < 0,05 und "signifikant"

Der thematische Folgeartikel aus 2019 von Wasserstein et al. geht noch einen entscheidenden Schritt weiter und verknüpft den Begriff „signifikant“ konkret mit p < 0,05 und schließt mit der Erkenntnis, dass die Verwendung des Begriffs „signifikant“ problembehaftet ist. „Signifikant“, ursprünglich als „bedeutsam“ gemeint, wird inzwischen fast ausschließlich als Abkürzung für „statistisch signifikant“ ge- und missbraucht, was wiederum mit p < 0,05 gleichgesetzt bzw. hieraus gefolgert wurde. Eine unangenehme Folge hieraus ist, dass nicht nur, aber überwiegend "statistisch signifikante" Ergebnisse als berichtenswert angesehen wurden und z. T. auch noch werden. Sehr zum Leidwesen der gesamten Forschungscommunity!

Hierzu im Original von S. 2:
„And so the tool has become the tyrant. The problem is not simply use of the word “significant,” although the statistical and ordinary language meanings of the word are indeed now hopelessly confused (Ghose 2013); the term should be avoided for that reason alone. The problem is a larger one, however: using bright-line rules for justifying scientific claims or conclusions can lead to erroneous beliefs and poor decision making (ASA statement, Principle 3). A label of statistical significance adds nothing to what is already conveyed by the value of p; in fact, this dichotomization of p-values makes matters worse. For example, no p-value can reveal the plausibility, presence, truth, or importance of an association or effect.
Therefore, a label of statistical significance does not mean or imply that an association or effect is highly probable, real, true, or important. Nor does a label of statistical nonsignificance lead to the association or effect being improbable, absent, false, or unimportant. Yet the dichotomization into “significant” and “not significant” is taken as an imprimatur of authority on these characteristics. In a world without bright lines, on the other hand, it becomes untenable to assert dramatic differences in interpretation from inconsequential differences in estimates. As Gelman and Stern (2006) famously observed, the difference between “significant” and “not significant” is not itself statistically significant.
Furthermore, this false split into “worthy” and “unworthy” results leads to the selective reporting and publishing of results based on their statistical significance—the so-called “file drawer problem” (Rosenthal 1979). And the dichotomized reporting problem extends beyond just publication, notes Amrhein, Trafimow, and Greenland (2019): when authors use p-value thresholds to select which findings to discuss in their papers, “their conclusions and what is reported in subsequent news and reviews will be biased… Such selective attention based on study outcomes will therefore not only distort the literature but will slant published descriptions of study results—biasing the summary descriptions reported to practicing professionals and the general public.” For the integrity of scientific publishing and research dissemination, therefore, whether a p-value passes any arbitrary threshold should not be considered at all when deciding which results to present or highlight.

2.3 Zwischenfazit

p < 0,05 und die gleichzeitige Verwendung von „statistisch signifikant“ ist eine Dichotomisierung von Forschungsergebnissen, die nicht nur nicht wünschenswert, sondern stark problembehaftet ist. In der „statistisch signifikanten“ Welt ist p = 0,04999 ein „guter“ p-Wert und p = 0,050001 ein „schlechter“ p-Wert.

Folgende Probleme sind hieraus erwachsen:

p-Hacking, also das „Herumschrauben“ an Datensatz und Tests, bis der gewünschte p-Wert (< 0,05) erzielt wurde.
Gleichzeitig, wenn dies nicht gelang oder aus ethischen Gründen nicht vorgenommen wurde, verschwanden „nicht signifikante“ Forschungsergebnisse bzw. wurden nicht veröffentlicht, weil es „keine Ergebnisse“ bzw. keine „berichtenswerten (hypothesenkonformen) Ergebnisse“ waren („file drawer problem“ – die Ergebnisse verschwanden im Schrank (Rosenthal (1979)).
Die Nichtkenntnis dieser durchgeführten Studien führte mitunter auch dazu, dass (aussichtslose) Folgestudien aufgesetzt und knappe Ressourcen verschwendet wurden. Es gab ja eine vermeintliche Forschungslücke, dies es zu füllen galt.
Eine sinnvollere Stichprobenplanung im Vorfeld für (Folge-)Studien wäre möglich gewesen – gewisse Effekte sind so klein, dass „typische“ Stichprobengrößen nicht ausreichen, Effekte beobachten zu können.
Mit der Veröffentlichung auch „nicht signifikanter“ Ergebnisse ist die Möglichkeit gegeben, Metastudien durchzuführen.

Merke: p-Werte sind immer eine Funktion der Stichprobengröße, sofern ein Effekt verschieden von Null existiert.
Umgekehrt formuliert: Je größer eine Stichprobe ist, desto höher ist die Teststärke („Power“), was wiederum zu kleineren p-Werten führt.

Final formuliert: Kleinere p-Werte lassen sich mit größer werdenden Stichproben erzielen, sofern Effekte tatsächlich vorhanden sind. Oder: mit einer unendlich großen Stichprobe wird der p-Wert unendlich klein – sofern der untersuchte Effekt nicht exakt 0 beträgt.

3 Ausblick

3.1 Was war/ist ein p-Wert denn nun?

Ergänzend zu den obigen Ausführungen sei erwähnt, dass ein p-Wert nicht das ausdrückt, was viele denken, dass er ausdrückt. Er zeigt weder die Größe eines Effektes (hierfür gibt es Effektgrößenmaße) noch die Wichtigkeit eines beobachtbaren Ergebnisses (vgl. Wasserstein (2016), S. 132)).

Im Original: „A p-value, or statistical significance, does not measure the size of an effect or the importance of a result. Statistical significance is not equivalent to scientific, human, or economic significance. Smaller p-values do not necessarily imply the presence of larger or more important effects, and larger p-values do not imply a lack of importance or even lack of effect. Any effect, no matter how tiny, can produce a small p-value if the sample size or measurement precision is high enough, and large effects may produce unimpressive p-values if the sample size is small or measurements are imprecise. Similarly, identical estimated effects will have different p-values if the precision of the estimates differs.„

3.2 Richtiger Umgang mit p-Werten

Zu Recht kommt nun die Frage auf, wie fortan mit p-Werten umgegangen werden sollte.
Die Antwort ist simpel: p-Werte werden berichtet, ausnahmslos für jeden durchgeführten statistischen Test und ungerundet – es sei denn, sie unterschreiten ein gewisses Niveau wie 0,001 – Wasserstein et al. (2019), S. 12:
„Replace any statements about statistical significance of a result with the p-value from the test, and present the p-value as an equality, not an inequality. For example, if p = 0.03 then “…was statistically significant” would be replaced by “…had p = 0.03,” and “p < 0.05” would be replaced by “p = 0.03.” (An exception: If p is so small that the accuracy becomes very poor then an inequality reflecting that limit is appropriate; e.g., depending on the sample size, p-values from normal or χ2 approximations to discrete data often lack even 1-digit accuracy when p < 0.0001.) In parallel, if p = 0.25 then “...was not statistically significant” would be replaced by “...had p = 0.25,” and “p > 0.05” would be replaced by “p = 0.25.”“

Forschung sollte durchdacht sein, was mit der Klassifikation von guten und schlechten Ergebnissen anhand eines p-Wertes definitiv nicht gegeben ist: „Thoughtful research considers the scientific context and prior evidence. In this regard, a declaration of statistical significance is the antithesis of thoughtfulness: it says nothing about practical importance, and it ignores what previous studies have contributed to our knowledge.“ (Wasserstein et al. (2019), S. 4)

4 Fazit und Empfehlung

Fazit: Jede Person, die wissenschaftliche Artikel/Aufsätze/Arbeiten liest, sollte für sich selbst einordnen können, ob ein p-Wert als hinreichend klein eingestuft wird bzw. werden kann. Kontext und vorherige Evidenz sowie Effektgrößen sind hierbei die eigentlichen Gradmesser (Vgl. Betensky (2019), S. 115). Der Blick und die Einordnung im Lichte vergleichbarer Studien (im Hinblick auf Untersuchungsgegenstand, Stichprobengröße und -zusammensetzung) ist hierbei wesentlich.

Feste Grenzen für Alpha, p, Effektstärken usw. sind hinderlich, weil sie o.g. Probleme verursachen und den Prozess der Wissensgenerierung aktiv behindern. Und schließlich: Vermeiden der Nutzung des Begriffs „signifikant“ bzw. „statistisch signifikant“ – das zeigt, dass das Konzept was p-Werte (nicht) sind, missverstanden wurde und sind ein Zeichen unzureichenden Wissens bzgl. wissenschaftlichen, insbesondere statistischen Arbeitens.

p-Werte kleiner Alpha und die damit verbundene Verwendung von „statistisch signifikant“ geben vermeintliche Sicherheit, wo keine existiert.
Forschung bedeutet ATOM: „Accept uncertainty. Be thoughtful, open, and modest.“ (Wasserstein et al. (2019), S. 2).

5 Literatur

Amrhein, V., Trafimow, D., & Greenland, S. (2019). Inferential statistics as descriptive statistics: There is no replication crisis if we don’t expect replication. The American Statistician, 73(sup1), 262-270.
Betensky, R. A. (2019). The p-value requires context, not a threshold. The American Statistician, 73(sup1), 115-117.
Gelman, A., and Stern, H.S. (2006), “The Difference Between ‘Significant’ and ‘Not Significant’ is not Itself Statistically Significant,” The American Statistician, 60, 328–331.
Rosenthal, R. (1979), „File Drawer Problem and Tolerance for Null Results,“ Psychological Bulletin 86, 638–641.
Wasserstein, R. L.; Lazar, N. A. (2016): The ASA’s Statement on p -Values: Context, Process, and Purpose. In: The American Statistician 70 (2), S. 129-133.
Wasserstein, R. L., Schirm, A. L., & Lazar, N. A. (2019). Moving to a world beyond “p< 0.05”. The American Statistician, 73(sup1), 1-19.