Website-Icon Björn Walther

Gründe für nicht-signifikante Ergebnisse

1 Einleitung

Nahezu jeder hat sich schon mal gefragt, warum statistische Tests keine signifikanten Ergebnisse haben.
Anstatt auf Krampf so lange Variablen zu transformieren, vermeintliche Ausreißer auszuschließen oder das Modell anzupassen (alles Maßnahmen des sog. p-Hacking), sollte man eher mögliche Gründe für die vorliegenden Ergebnisse diskutieren. In diesem Beitrag gebe ich sechs Anregungen diesbezüglich. Die Liste ist nicht vollständig, bietet aber einen ersten Ansatz.

 

2 Effekt existiert in der Realität nicht

Der erste mögliche Grund für Nichtsignifikanz wird meist ignoriert, ist aber offensichtlich. Zwar ist eine theoretisch-konzeptionell fundierte Hypothesenherleitung idealerweise die Grundlage, in der Realität hingegen muss dieser unterstellte Effekt aber nicht zwingend existieren. Andersherum ist aber vor nicht fundierten beobachteten Effekten zu warnen – Das können Scheinzusammenhänge sein, die zudem zu oft überinterpretiert werden. Zusammengefasst: die Sinnhaftigkeit der Hypothese ist zu hinterfragen – gibt es in der Literatur keine empirischen Erkenntnisse, ist das zumeist ein erster Indikator für Nichtexistenz eines Effektes.

 

3 Stichprobenauswahl

Ein zweiter möglicher Grund für Nichtsignifikanz ist die Stichprobenauswahl. Es kann sein, dass sich die hergeleiteten Hypothesen nicht bei allen Untersuchungsobjekten gleichermaßen zeigen werden. Zumeist wird pragmatisch Homogenität der Untersuchungsobjekte unterstellt. Häufig wird vergessen, dass Effekte womöglich nur für gewisse Untersuchungsobjekte beobachtbar sind. Ein klassisches Beispiel sind kulturelle Unterschiede zwischen Amerika, Westeuropa oder fernöstlichen Ländern. Zwar kann auch, um beim Beispiel Kultur zu bleiben, innerhalb eines Kulturkreises mit der Erfassung und Einbeziehung von soziodemografischen Daten wie Geschlecht, Alter oder Bildungsgrad für mögliche weitere Einflussfaktoren kontrolliert werden, das schließt aber eine Über- oder Unterrepräsentierung von gewissen Untersuchungsobjekten nicht aus. Wenn zum Beispiel fast nur Rentner befragt werden, aber ein Effekt eher bei Jugendlichen erwartet wird, passt dies offensichtlich nicht zusammen. Eine im Vorfeld gezielte Gewinnung relevanter Probanden ist daher anzustreben. Zusammengefasst: ist die Stichprobe überhaupt geeignet, vermutete Effekte zu untersuchen?

 

4 Stichprobengröße

Ein dritter möglicher Grund ist die Stichprobengröße und kann auch in Verbindung mit Grund 2 gebracht werden. Grundlegend gilt: je mehr Untersuchungsobjekte, desto besser. Dies erhöht die sog. statistische Power, auch Teststärke, von analytischen Tests. Je höher sie ist, desto eher ist ein Test in der Lage, tatsächlich vorhandene Effekte auch erkennen zu können. Das bedeutet, kleine Effekte sind eher in größeren Stichproben beobachtbar. Denn in größeren Stichproben wird der Beta-Fehler (auch Fehler 2. Art), stärker begrenzt. Das heißt, die Nullhypothese (Es liegt kein Effekt vor) fälschlicherweise beizubehalten ist in großen Stichproben also weniger wahrscheinlich. Um zu wissen, wie groß eine ausreichende Stichprobe sein sollte, ist im Vorfeld eine Poweranalyse zu rechnen.

 

5 Operationalisierung von Konstrukten

Ein vierter möglicher Grund für Nichtsignifikanz ist die Operationalisierung von latenten Konstrukten. Latent bedeutet nicht direkt messbar und heißt, dass z.B. die Glücklichkeit/Zufriedenheit eines Menschen nicht einfach so gemessen oder direkt mit einer einzigen Antwort vollständig ist. Diesem Problem wird mittels valider Skalen versucht zu begegnen. Diese finden sich bspw. in Skalenhandbüchern oder bei der GESIS. Im Falle der genannten Glücklichkeit z.B. mit der Subjective Happiness Scale. Diese umfasst 4 Items, die zusammengenommen dieses Konstrukt hinreichend valide messen. Zusammengefasst: die Validität der Konstrukte ist zu hinterfragen. Wenn nicht das empirisch gemessen wird, was gemessen werden soll (das logische Konstrukte), kann sich eben auch der vermutete Zusammenhang/Unterschied nicht entdecken lassen.

 

6 (Un)bewusstes Antwortverhalten

Ein fünfter möglicher Grund ist ein (un)bewusstes Antwortverhalten von Befragten. Bewusst ist v.a. soziale Erwünschtheit von Antworten bzw. gezieltes „vernünftiges“ Antworten. Zum Beispiel werden sehr viele die etwas plump gestellte Frage: „Wie wichtig ist Ihnen Umweltschutz?“ mit wichtig bis sehr wichtig antworten, weil es die Gesellschaft quasi von einem erwartet oder man es „für richtig hält“. Dagegen hilft natürlich eine subtilere Erfragung von Einstellungen usw. mithilfe der eben genannten validen Konstruktmessungen.
Es können neben bewusst auch unbewusst verzerrte Antworten gegeben werden, wenn das Thema in den Medien, der Politik oder im sozialen Umfeld diskutiert wird. Argumentationsmuster und Meinungen werden übernommen und bei einer Befragung wiedergegeben.
Dem kann zwar auch mit den eben genannten validen Skalen begegnet werden, vollständig wird man aber leicht verzerrte Antworten mancher Teilnehmer niemals ausschließen können – auch bei mehreren Items und einer subtileren Erfragung der z.B. Einstellungen.

 

7 Methodenwahl

Ein sechster möglicher Grund ist die Methodenwahl. Zum Beispiel kann es sein, dass man mit einem linearen Modell nichtlineare Zusammenhänge der Realität untersucht. Zwar sind lineare Approximationen von nichtlinearen Zusammenhängen häufig ausreichend gut, es mag aber bessere z.B. logarithmische oder dergleichen geben, die allerdings wiederum weitaus schwieriger zu rechnen sind. Zusammengefasst: Gibt es adäquatere Untersuchungsmethoden?

 

8 Schlussbemerkung

Die von mir genannten Gründe formen keine abschließende Liste. Sie sind nur auf Basis meiner langjährigen Erfahrung häufige Gründe für nicht signifikante Ergebnisse. Wer empirische Studien etwas genauer liest, findet ein paar der genannten Gründe meist auch als Hinweise in den Shortcomings – manche Gründe kann man also im Vorfeld bereits vermeiden.

 

9 Video

https://www.youtube.com/watch?v=tmRUTeW-hTc

 

10 Weiterführende Literatur

 

Die mobile Version verlassen