Website-Icon Björn Walther

Wie gelingt eine empirische Studie in (nur) 6 Schritten?


In diesem Artikel geht es um den idealtypischen Ablauf einer empirischen Studie. Es kann mitunter sein, dass einige der von mir hier vorgeschlagenen Punkte anders heißen, in eurem Falle nicht zutreffend sind oder sogar noch weitere Punkte notwendig sind. Die grundlegenden Überlegungen, die für das Schreiben notwendig sind, werden häufig auch Forschungsmethodologie genannt und füllen ganze Bücherregale. Daher zeige ich in diesem Artikel einen bewährten best-practice-Ansatz.

1 Vorüberlegungen

Bei jeder empirischen Studie oder wissenschaftlichen Arbeit steht ein Problem im Mittelpunkt. Es muss also ganz klar benannt werden, was das Problem ist. Im selben Atemzug muss auch dargelegt werden, warum es überhaupt ein Problem ist. Gleichzeitig muss dem Leser klargemacht werden, für wen es ein Problem ist. Wenn es keinen Adressaten gibt, profitiert natürlich auch niemand von der Lösung des Problems.
Schließlich muss methodisch dargestellt werden, wie das Problem gelöst werden soll.
Die Vorüberlegungen werden in der Regel in einem Exposé niedergeschrieben und bilden gleichzeitig mit ein paar Ergänzungen auch den Hauptteil der Einleitung der letztendlichen Arbeit.

Aus den Vorüberlegungen muss also folgendes klar werden:

 

2 Hypothesen

Der Ausgangspunkt der Hypothesen sind Wirkungsvermutungen. Sie ergeben sich natürlich aus dem Problem und dessen Beschreibung. Hypothesen müssen zwingend begründet sein. Es reicht also nicht einfach Behauptungen aufzustellen. Vielmehr sollte man sich auf bereits in anderen (empirischen) Studien beobachtete, bisweilen auch ähnliche Phänomene stützen oder besser noch, eine theoretisch-konzeptionelle Grundlage heranziehen.

Bei den Hypothesen und deren Formulierung ist es wichtig, dass es verschiedene Formen von Hypothesen gibt. Es gibt 1) Unterschiedshypothesen, 2) Zusammenhangshypothesen und 3) Veränderungshypothesen. An dieser Stelle muss ganz klar betont werden, dass die Art der Hypothese immer den statistischen Test, also das Analyseverfahren bestimmt. Gleichzeitig bestimmt es natürlich auch, wie im Falle einer noch durchzuführenden Datenerhebung, das sogenannte Setting bzw. Untersuchungsdesign sein muss. Speziell im experimentellen Bereich mit Interventions- und Kontrollgruppen ist das von sehr großer Bedeutung.

Für diejenigen, die sich jetzt nichts unter den genannten Hypothesenarten vorstellen, hier eine kleine Übersicht.

 

2.1 Unterschiedshypothesen

Unterschiedshypothesen untersuchen zwei oder mehr Gruppen auf Unterschiede hinsichtlich eines Merkmals. Dieses Merkmal ist die sog. abhängige Variable genannt. Bei jenen kann, wie bei nahezu jeder Hypothesenart eine ungerichtete und eine gerichtete Wirkungsvermutung existieren. Ein Beispiel einer ungerichteten Hypothese wäre, dass Männer und Frauen unterschiedlich schwer sind. Wenn man aber im Vorfeld weiß, dass Männer aufgrund ihrer durchschnittlich höheren Körpergröße wohl schwerer sein werden, formuliert man konkret: Männer sind schwerer als Frauen.

 

2.2 Zusammenhangshypothesen

Zusammenhangshypothesen untersuchen einen Einfluss einer unabhängigen Variable auf eine abhängige Variable. Bei Zusammenhangshypothesen wäre eine ungerichtete Hypothese, dass Rauchen das kardiovaskuläre Risiko beeinflusst. Eine gerichtete Hypothese, wäre, dass Rauchen das kardiovaskuläre Risiko erhöht.

 

2.3 Veränderungshypothesen

Veränderungshypothesen untersuchen eine Veränderung bei denselben Probanden, basieren also auf Messwiederholungen. Das betreffende Merkmal wird vor und mindestens einmal nach einer Intervention gemessen und verglichen. Eine ungerichtete Hypothese wäre, dass Sport den Ruhepuls verändert. Eine gerichtete Form der Veränderungshypothese wäre, dass regelmäßiger Sport den Ruhepuls senkt.

 

3 Untersuchungsdesign

3.1 Datenerhebung im Rahmen der Untersuchung

Streng genommen beschreibt das Untersuchungsdesign, wie die Untersuchung (an Probanden) geplant ist. Das heißt, ob es z.B. eine Art Experiment gibt und das Personal Messungen usw. vornimmt, ob lediglich (online) Fragen beantwortet werden usw. Letztlich ist die Datenerhebung eine Folge des Untersuchungsdesigns, weswegen die verschiedenen Möglichkeiten der Erhebung an dieser Stelle diskutiert werden. Die wichtigsten Erhebungsmethoden infolge einer Untersuchung sind Fragebogen, Beobachtung und Interview.
Zumeist werden bei Abschlussarbeiten im empirischen Bereich Fragebögen (“Umfragen”) verwendet. Im experimentellen Setting sind es meist Beobachtungen/Messungen durch Versuchspersonal. Interviews sind meist qualitativ, können aber bei Verwendung eines strengen Leitfadens auch standardisierte quantiative Daten für empirische Folgeanalysen produzieren. Es kann je nach Untersuchung auch eine Mischung aus den verschiedenen Erhebungsmethoden verwendet werden. Solltet ihr selbst keine Daten erheben, z.B. wenn ihr auf schon “fertige” Datensätze oder Datenbanken zugreift, ist zumindest die Erhebungsmethode eurer Datenquelle kurz zu diskutieren.
Wichtig ist in jedem Falle, dass die erhobenen Daten an den Gütekriterien Objektivität, Reliabilität und Validität gespiegelt werden.

 

3.2 Der (Online-)Fragebogen als die Allzweckwaffe

Gerade im Bereich akademischer Abschlussarbeiten fehlt es an (v.a. zeitlichen und monetären) Ressourcen, umfängliche Experimentalstudien durchzuführen. Demzufolge wird sich meist auf die Verwendung einer “Online-Umfrage” beschränkt. Da dies in vielen Arbeiten vergessen wird, hier noch mal der Hinweis, das im Methodenteil der Arbeit die Vorteile (und Nachteile) dieses Vorgehens zu erwähnen sind. Das Vorgehen ist ja zu begründen und gerade die folgenden Vorteile sprechen meist eine deutliche Sprache.

 

3.3 Durchführung von Messungen

Beim Untersuchungsdesign gibt es schließlich noch Folgendes zu bedenken: mit den formulierten Hypothesen und dem daraus folgenden statistische Test im Hinterkopf wird die Untersuchungsmethode (Befragung, Experiment usw.) ausgewählt sowie speziell im Falle des Fragebogens die Fragen gewählt. Besonders wichtig ist beim Fragebogen die Messung latenter Konstrukte. Latente Konstrukte sind Dinge, die nicht einfach mit einem Lineal oder einer Waage gemessen werden können.
Zum Beispiel ist die kristalline Intelligenz einer Person nicht direkt messbar. Hierzu sind unbedingt bereits existierende valide Skalen aus sogenannten Skalenhandbüchern zu verwenden! Diese bestehen aus mehreren Fragen (sog. Items), die verdichtet werden und damit schließlich das Konstrukt messen. Ein guter Startpunkt für Konstrukte ist die GESIS-Datenbank.
Wichtig: Skalen in englischer Sprache auf Deutsch zu übersetzen, erfordert streng genommen eine erneute (sehr aufwändige) Validierung. Deswegen sollte immer zuerst nach deutschsprachigen und bereits validierten Skalen gesucht werden. Nur im äußersten Notfall und in enger Absprache mit dem Betreuer sollte eine Übersetzung einer englischsprachigen Skala in Betracht gezogen werden.

 

3.4 Teststärke – statistische Power – Stichprobengröße

Die Berechnung einer Mindeststichprobengröße – häufig unbekannt oder bewusst ignoriert. Dabei ist es am wahrscheinlichsten signifikante Testergebnisse zu erzielen, wenn im Vorfeld eine sogenannte Poweranalyse durchgeführt und auf ihr aufgebaut wird. Kurz erklärt: im Rahmen der Poweranalyse (z.B. mit G*Power) ermittelt man die Mindeststichprobengröße. Hierzu trifft man im Vorfeld verschiedene Annahmen. Die wichtigsten beiden sind die Teststärke (=Power) und die Effektstärke.

Zu betonen ist an dieser Stelle, dass man im Vorfeld und nur im Vorfeld eine Poweranalyse rechnet. Gutachter, die im Anschluss eine Poweranalyse verlangen, haben leider Statistik nicht verstanden. “[…] when used to indicate power for outcomes already observed, it is not only conceptually flawed but also analytically misleading.” (Zhang et al. (2019)). Einfach heruntergebrochen, ist die post-hoc-Power (zu niedrig) ein Spiegel des p-Werts (zu hoch). Daher ist eine Poweranalyse nur vor der Datenerhebung sinnvoll.

 

4 Datenerhebung

Das ist nun recht flott erklärt, da zumeist ein Fragebogen online gestellt wird. Es gibt verschiedene Tools und Anbieter, z.B. SosciSurvey, Uni Park, Limesurvey Google Forms und so weiter. Zumeist besitzen Hochschulen Zugänge bzw Lizenzen, die man im Rahmen der Erhebung nutzen kann und sollte. Euer Betreuer sollte da Bescheid wissen.

Bei der Datenerhebung sollte man wenn möglich einen Pretest machen. Dieser Pretest ist eine im Vorfeld der eigentlichen Untersuchung durchgeführte Ministudie mit dem Fragebogen. Hier sollen vor allem Probleme beim Ablauf gefunden werden, Verständnisprobleme aufgedeckt werden sowie eine erste Auswertung vorgenommen werden können. Nach dem Pretest wird der Fragebogen final angepasst und anschließend startet die Befragung.

Entweder läuft die Befragung bis zum im vorhinein festgelegten Datum oder bis eine gewisse Anzahl vollständig ausgefüllter Fragebögen vorliegt. Generell ist es empfehlenswert so viele Antworten wie möglich zu erhalten, denn die Effektstärke könnte im Rahmen der Poweranalyse überschätzt worden sein. Ein erste Daumenregel ist, dass nur zwischen 50% und 70% (Ausnahmen möglich!) der Fragebögen überhaupt beendet werden, also vollständig ausgefüllt sind. Als zweite Daumenregel sollte man zusätzlich damit rechnen, dass einige Fragebögen zwar vollständig aber nicht verwertbar sind. Mitunter sind unplausible Antworten dabei; der Fragebogen wurde z.B. einfach durchgeklickt und ist damit nutzlos. Um auf Nummer sicher zu gehen, sollte die Zahl vollständig ausgefüllter Fragebögen daher ~10% über der anvisierten Mindeststichprobengröße liegen. So hat man noch ein wenig Reserve. Nicht vollständig ausgefüllte Fragebögen werden nicht in die Auswertung übernommen.

Zusammengefasst: Sollten z.B. 4 Wochen für die Befragung geplant sein und die Mindeststichprobengröße ist bereits vor Ablauf erfüllt, empfiehlt sich dennoch das Laufenlassen bis zum geplanten Ende, um möglichst viele Fälle und damit eine möglichst hohe Power zu erhalten.

 

5 Datenauswertung

5.1 Vorarbeit

Der Teil der Datenauswertung wird zumeist massiv unterschätzt, zeitliche Probleme bei der Auswertung sind sehr häufig die Folge. Wichtig ist zunächst, das gewisse Vorarbeiten notwendig sind. Insbesondere die Bereinigung der Daten um unplausible Fälle wird gerne vergessen. Weiterhin und unter dem Wort Skalenarbeit zusammengefasst, ist die Aggregation von Items zu Skalen (s.o. latente Konstrukte). Hier sind eventuelle Kontrollfragen der Skalen zu rekodieren, eine Reliabilitätsprüfung (z.B. Cronbachs Alpha) durchzuführen und letztlich ein Mittelwert oder Summenscore zu errechnen.

Für die Stichprobe sollte zudem eine deskriptive Analyse erfolgen. Hierzu empfiehlt sich die grafische/tabellarische Darstellung der Stichprobenzusammensetzung – Geschlecht, Alter usw. Mit dieser Beschreibung kann sich der Leser ein erstes Bild machen. Zudem sollte eine Vergleichbarkeit der Stichprobe mit der Grundgesamtheit kurz erörtert werden. Im Idealfall entsprechen sie sich ungefähr.

 

5.2 Normalverteilung der Daten?

Weil ich es zu häufig lese hier noch der Hinweis zur Normalverteilung. Nein, Variablen müssen nicht per se normalverteilt sein. Eigentlich ist es ziemlich egal, welche Verteilung die Variablen haben. Im Rahmen von z.B. parametrischen Tests spielt nicht die Normalverteilung der Variablen eine Rolle, sondern ob die Residuen des Modells in etwa einer Normalverteilung folgen. Residuen sind kurz gesagt die Abweichungen von geschätzten und beobachteten Werten.

 

5.3 Auswertung

Als Nächstes sind im Rahmen der Auswertung statistische Tests durchzuführen. Analytische Tests besitzen eine Signifikanz (“p-Wert”) zur Verwerfung der Nullhypothese, welches am Wert Alpha zu spiegeln ist. Achtung: In der Poweranalyse muss die Festlegung des Alpha-Niveaus bereits erfolgt sein! Alpha ist die Signifikanzgrenze, zu dem Nullhypothesen statistischer Tests verworfen werden und gleichzeitig der Fehler 1. Art (Alpha Fehler) begrenzt wird. Meist ist Alpha = 5%, es kann aber auch kleiner sein (1% oder 0,1%). Größer (z.B. 10%) ist eher unüblich und maximal in explorativen Studien statthaft. In jedem Falle ist ein akzeptierter Alpha-Fehler von 10% zu begründen.

Weiterhin muss bei statistischen Tests geprüft werden, ob deren Voraussetzungen erfüllt sind. Speziell ist das bei parametrischen Tests wie dem t-Test bei abhängigen Stichproben oder der linearen Regression durchzuführen. Stichwort: normalverteilte Residuen. 😉

Selbst unter etablierten Wissenschaftlern ein nicht unübliches Phänomen ist das sogenannte p-hacking. Kurz gesagt ist p-Hacking eine nicht wissenschaftliche Praxis die versucht, signifikante Ergebnisse in einer Analyse zu finden oder in irgendeiner Art zu produzieren. Klassische Praktiken umfassen das Verändern des Modells, das Wechseln des Testverfahrens, Datentransformationen u.v.m. (vgl. Hirschauer et al. (2016)). Schließlich sollten die Ergebnisse in Tabellenform präsentiert werden. Hierbei sollte sich am jeweiligen Standard der Disziplin orientiert werden. Ist kein Standard vorgegeben, fährt man mit APA nicht verkehrt.

Beispielhaft hier eine Ergebnistabelle einer multiplen linearen Regression mit zwei unabhängigen Variablen:

 

6 Interpretation und Diskussion

Zunächst muss klar gemacht werden, ob Hypothesen bekräftigt werden konnten oder nicht. Achtung: Beweisen können wir nur in der Mathematik. Wir arbeiten in der Statistik mit Wahrscheinlichkeiten und können Hypothesen nur bekräftigen – oder eben nicht. Das ist Folge des kritischen Rationalismus nach Karl Popper, nach dem zu falsifizierende Hypothesen (konzeptionell) hergeleitet und empirisch dem Scheitern ausgesetzt werden. Kann eine Hypothese nicht falsifiziert werden, ist sie temporär gültig. Auch die Formulierung “eine Hypothese konnte bestätigt werden”, ist eher unangebracht. Hypothesen werden höchstens bekräftigt.

Konnte eine Hypothese bekräftigt werden, ist eine sogenannte Inferenz zu ziehen. Es ist also einzuordnen, was eine vermeintliche “Gültigkeit” der Hypothese bedeutet. Ist dies nicht der Fall, sind mögliche Gründe hierfür zu diskutieren. Es kann auch sein, dass ein Effekt komplett umgedreht ist, also die Hypothese in jedem Falle verworfen wird. Auch das ist entsprechend hinsichtlich möglicher Gründe zu diskutieren.

Schließlich hat jede Analyse auch Limitationen. Gibt es also Aspekte, die die Generalisierbarkeit der Erkenntnisse einschränken?

Die mobile Version verlassen