Punktbiseriale Korrelation in R rechnen und interpretieren

Björn Walther

vor 1 Jahr

1 Ziel der punktbiserialen Korrelation in R

Die punktbiseriale Korrelation prüft eine metrische und eine dichotome (zweistufige) Variable auf einen Zusammenhang.
Umgekehrt würde man Unterschiede in der metrischen Variable für die verschiedenen Ausprägungen der dichotomen Variable erwarten (Stichwort: t-Test).

Theoretisch kann dies auch im Rahmen einer Regression (je nach Skalenniveau der AV entweder linear oder logistisch) gerechnet werden, wenn Ursache und Wirkung klar definierbar sind.

Beispiel: Ich möchte den Zusammenhang von Gewicht und Krankheit (z.B. Diabetes mellitus) prüfen. Schwerere bzw. übergewichtige Menschen haben ein höheres Risiko für diese Erkrankung – umgekehrt sind übergewichtigere Menschen überdurchschnittlich häufig von der Krankheit betroffen.

2 Voraussetzungen der punktbiserialen Korrelation in R

Wie bereits eingangs erwähnt, muss eine der beiden zu korrelierenden Variablen ein metrisches Skalenniveau besitzen und die andere Variable dichotom, also zweistufig sein.
Es müssen unabhängige Beobachtungen vorliegen.

3 Durchführung der punktbiserialen Korrelation in R

Nach dem Einlesen der Daten in R kann in den meisten Fällen direkt begonnen werden.
Wichtig, die dichotome Variable darf NICHT als Faktor oder Character hinterlegt sein.
Sie muss zwingend numerisch sein. Dies kann mit x <- as.numeric(x) nachträglich umgewandelt werden.

Zur punktbiserialen Korrelation wird die cor.test()-Funktion verwendet. Die beiden Variablen werden mit Komma getrennt hineingegeben. Die Reihenfolge spielt hierbei keine Rolle.

Standardmäßig wird zweiseitig, also ungerichtet getestet. Eine gerichtete Testung wird mit dem Argument “alternative” erreicht. Im Code unten steht jeweils, wie das Argument für positive bzw. negative unterstellte Korrelation lauten muss.


# zweiseitige Testung
cor.test(df$Krankheit, df$Gewicht)

# einseitige Testung - positive Korrelation erwartet
cor.test(df$Krankheit, df$Gewicht, alternative = "greater")

# einseitige Testung - negative Korrelation erwartet
cor.test(df$Krankheit, df$Gewicht, alternative = "less")

4 Interpretation der Ergebnisse der punktbiserialen Korrelation in R

Bei der Interpretation beschränke ich mich auf die zweiseitigen Testergebnisse. Einseitige Testergebnisse werden aber analog interpretiert.


	Pearson's product-moment correlation

data:  df$Krankheit and df$Gewicht
t = 3.8806, df = 49, p-value = 0.0003113
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.2415412 0.6708038
sample estimates:
      cor 
0.4848509

Der erste Blick geht auf die Signifikanz, also den p-Wert (“p-value”):

Dieser ist mit p = 0.0003113 sehr klein und liegt unter den typischen Verwerfungsgrenzen von Alpha = 0.05 bzw. Alpha = 0.01.
Die Nullhypothese (Es existiert KEIN Zusammenhang) wird aufgrund p < Alpha verworfen.
Die Alternativhypothese (Es existiert ein Zusammenhang) wird folglich angenommen.

Der zweite Blick geht auf den punktbiserialen Korrelationskoeffizient:

Der Korrelationskoeffizient (“cor”) beträgt r = 0.4848509, ist also positiv.
Eine Zunahme der einen Variable hängt mit einer Zunahme der anderen Variable zusammen.
In meinem Beispiel ist die Krankheit mit 0 – nicht krank und 1 – krank codiert.
Nimmt also die Variable Krankheit um eine Einheit zu, ist aufgrund des signifikant und positiven r ein höheres Gewicht beobachtbar.
Umgekehrt hat ein höheres Gewicht eine höhere Ausprägung der Variable Krankheit zur Folge.

Optional: Der dritte Blick geht auf das 95%-Konfidenzintervall:

Im Output steht “95 percent confidence interval: 0.2415412, 0.6708038”.
Von allen Konfidenzintervallen, die auf dem 95%-Niveau berechnet werden, enthalten 95% den wahren Wert des Korrelationskoeffizienten.
Einfacher gesagt: Bei wiederholter Berechnung von 100 Konfidenzintervallen, ist der wahre Wert in 5 KI nicht enthalten, in 95 KI enthalten.
Je größer eine Stichprobe, desto besser gelingt eine Schätzung und desto enger ist das Konfidenzintervall.
Mit “conf.level =” können andere Niveaus des Konfidenzintervalls angefordert werden, z.B. 0.99 für das 99% KI.

5 Ermittlung der Effektstärke der punktbiserialen Korrelation

Die Effektstärke zur Einordnung ist im Rahmen von Korrelationen stets der Korrelationskoeffizient r selbst.
Demzufolge wird mit r = 0.48 eine Einordnung vorgenommen. Negative Werte werden stets als Betrag, also positiver Wert verwendet.

Zunächst sind vergleichbare Studien zu suchen und eine Einordnung anhand dessen vorzunehmen.
Existieren keine vergleichbaren Studien, sind fachspezifische Effektstärkengrenzen zur Einordnung zu verwenden.
Sind diese auch nicht vorhanden, kann auf Cohen (1988) bzw. Cohen (1992) zurückgegriffen werden.
Cohen hat die folgenden Grenzen festgelegt: ab 0,1 (= schwach), ab 0,3 (= mittel), ab 0,5 (= stark).

6 Reporting der punktbiserialen Korrelation

Für das Berichten der punktbiserialen Korrelation werden benötigt:

Der Korrelationskoeffizient r (0,48),
die Freiheitsgrade df (49) – wird bei Korrelationen stets berechnet mit = N-2
und der p-Wert (< 0,001) benötigt.
Das Konfidenzintervall ist zumeist optional, kann aber mit 95% KI [0,24; 0,67] einfach an die untere Zeile angehängt werden.

Die Variablen Gewicht und Krankheit zeigen einen nach Cohen (1992) mittleren positiven Zusammenhang, mit r (49) = 0,48; p < 0,001. (Eine Tendenz zu einem starken Effekt ist erkennbar)

7 Videotutorial

https://www.youtube.com/watch?v=dsz0L9KdKyI/

8 Literatur

Cohen, J. (1988): Statistical Power Analysis for the Behavioral Sciences.
Cohen, J. (1992): A Power Primer, Psychological Bulletin, 1992, Vol. 112. No. 1, 155-159.