Website-Icon Björn Walther

Chi-Quadrat-Test in R rechnen

Ziel des Chi-Quadrat-Test in R

Der Chi-Quadrat-Test prüft, ob es zwischen erwarteten und beobachteten Häufigkeiten statistisch signifikante Unterschiede gibt. Hierzu verwendet dieser Test die quadrierten Abweichungen der tatsächlichen von den erwarteten Häufigkeiten und teilt sie durch die erwarteten Häufigkeiten. Er wird auch als Korrelationsersatz verwendet und prüft zwei Variablen auf statistische Unabhängigkeit. Als Grundlage hierfür dienen Kreuztabellen bzw. Kontigenztabellen.

Voraussetzungen des Chi-Quadrat-Test in R

https://www.youtube.com/watch?v=YJUuyaC0x48/

Fragen können unter dem verlinkten Video gerne auf YouTube gestellt werden. Für eine Berechnung in SPSS, schaut euch diesen Artikel an. Für Excel werdet ihr hier fündig.

 

Durchführung des Chi-Quadrat-Tests in R

Beobachtete Häufigkeiten

Nach dem Einlesen der Daten startet man typischerweise mit dem Erstellen einer Kreuztabelle, um sich anzuschauen, wie oft die verschiedenen Ausprägungskombinationen vorkommen. Im Beispiel möchte ich die Schulnote im Sportunterricht und die Motivation auf statistische Unabhängigkeit prüfen.

 

Hierzu verwendet man den Befehl xtabs. Mit ihm wird die Kreuztabelle erstellt. Da ich die Daten nicht attached habe und im Dataframe data_xls belasse, verwende ich „data_xls$“ zur Variablenreferenzierung. Der Code hierfür sieht wie folgt aus:


kreuztabelle <- xtabs (~ data_xls$Geschlecht + data_xls$Sportnote)

 

Hiermit wird in einem Dataframe namens „kreuztabelle“ die Kreuztabelle aus Geschlecht und Sportnote erstellt. Lässt man sich diese ausgeben, sieht das in meinem Beispiel wie folgt aus: 


                   data_xls$Sportnote
data_xls$Geschlecht 1 2 3 4 5 6
                  0 2 7 4 7 4 2
                  1 4 7 7 4 3 0

Die Häufigkeiten habe ich fett markiert. Die Kreuztabelle ist wie folgt zu lesen: Für das Geschlecht 1 (weiblich) kommt die Note 5 dreimal vor. Das Geschlecht 0 (männlich) hat zweimal die Note 6.  

 

Erwartete Häufigkeiten

Die erwarteten Häufigkeiten bei statistischer Unabhängigkeit (auch: „Nichtkorrelation“) kann man sich außerdem ausgeben lassen. Allerdings muss man hier noch etwas manuell rechnen, was in R aber kein Problem darstellt. Hierzu werden zunächst mit der sum()-Funktion alle Fälle aufsummiert. In meinem Fall sind es 51.

Danach definiere ich mir einen neuen Dataframe mit dem Namen „erwartete_häufigkeiten“ und bilde mit der Verknüpfung der outer()-Funktion und rowSums() sowie ColSums() die Zeilen bzw. Spaltensumme. Das ist wichtig, weil für die erwarteten Häufigkeiten die jeweiligen Zeilen- und Spaltensummen addiert und durch die Gesamtzahl der Beobachtungen geteilt werden. Im Detail muss diese Rechnung aber nicht nachvollzogen werden. Der Code hierfür lautet:


n 

 

Lässt man sich die Tabelle mit den erwarteten Häufigkeiten ausgeben, erhält man folgenden Output:


         1        2        3        4        5         6
0 3.058824 7.137255 5.607843 5.607843 3.568627 1.0196078
1 2.941176 6.862745 5.392157 5.392157 3.431373 0.9803922

Die Lesart ist analog zu den beobachteten Häufigkeiten. Für das Geschlecht 1 ist die erwartete Häufigkeit bei der Note 5: 3,43. Zur Erinnerung: sie wurde 3 mal beobachtet. Die Note 6 beim Geschlecht 0 wurde 1,02-mal erwartet. Oben wurde sie zweimal beobachtet. So kann man jetzt zellenweise vorgehen und sich einen Eindruck verschaffen, wo erwartete und beobachtete Häufigkeiten mehr oder weniger stark voneinander abweichen. Eine Faustregel, was eine große Abweichung gibt, existiert nicht. Dies ist immer in Relation zum Stichprobenumfang zu sehen.

Interpretation der Ergebnisse des Chi-Quadrat-Test in R

Die Nullhypothese statistischer Unabhängigkeit wurde mittels des p-Wertes versucht zu verwerfen. Die Alternativhypothese geht von keiner statistischen Unabhängigkeit aus - es liegt also statistische Abhängigkeit vor. Wenn man so will, kann man von einem Zusammenhang, also einer Korrelation sprechen. In meinem Beispiel gibt es keine statistische Abhängigkeit zwischen Sportnote und dem Geschlecht. Demzufolge würde ich nicht davon ausgehen, dass eines der beiden Geschlechter überhäufig eine bestimmte Note erzielt. Oder ganz plump: ich kann nicht zeigen, dass Männer bessere Sportnoten erzielen aus Frauen oder umgekehrt.

 

Ermittlung der Effektstärke des Chi-Quadrat-Tests

Solltet ihr eine Kreuztabelle haben, die mehr als 2 Spalten und Zeilen hat, empfehle ich euch das SPSS-Video auf meinem YouTube-Kanal, da die Menge an Formeln zu einem zu langen Artikel führen würde.

https://www.youtube.com/watch?v=-rnToKtdpWs/

 

Zur Einordnung: Zwischen 0,1 und 0,3 ist es ein schwacher Effekt, zwischen 0,3 und 0,5 ein mittlerer Effekt und ab 0,5 ist es ein starker Effekt.

 

Quellen

Effektstärkengrenzen: Cohen, Jacob (1988): Statistical Power Analysis for the Behavioral Sciences.

Fisher-Test: Fisher, R. A. (1925). Statistical methods for research workers. Edinburgh: Oliver and Boyd.  

 

Weitere nützliche Tutorials findest du auf meinem YouTube-Kanal.

 

Die mobile Version verlassen