Biseriale Rangkorrelation in R rechnen und interpretieren

von Björn Walther | Zuletzt bearbeitet am: Apr 20, 2024 | Korrelation, R

Inhaltsverzeichnis

1 Ziel der biserialen Rangkorrelation in R

Die biseriale Rangkorrelation prüft eine ordinale und eine dichotome (zweistufige) Variable auf einen Zusammenhang und kann in R leicht berechnet werden (Alternativ auch in SPSS).
Umgekehrt würde man Unterschiede in der ordinalen Variable für die verschiedenen Ausprägungen der dichotomen Variable erwarten (Stichwort: Mann-Whitney-U-Test).

Beispiel: Ich möchte den Zusammenhang von Motivation und einer hier nicht näher definierten Krankheit prüfen. Das Vorhandensein einer Krankheit kann mit weniger Motivation zusammenhängen. Kranke Menschen sind evtl. weniger motiviert, etwas zu tun. Umgekehrt, kann weniger Motivation bzgl. körperlicher Bewegung ein Indikator für Krankheit sein kann.

2 Voraussetzungen der biserialen Rangkorrelation in R

Wie bereits eingangs erwähnt, muss eine der beiden zu korrelierenden Variablen ein ordinales Skalenniveau besitzen und die andere Variable dichotom, also zweistufig sein.
Es müssen unabhängige Beobachtungen vorliegen.

3 Durchführung der biserialen Rangkorrelation in R

Nach dem Einlesen der Daten in R kann in den meisten Fällen direkt begonnen werden.
Wichtig, die dichotome Variable darf NICHT als Faktor oder Character hinterlegt sein.
Sie muss zwingend numerisch sein. Dies kann mit x <- as.numeric(x) nachträglich umgewandelt werden.

Zur biserialen Rangkorrelation wird die cor.test()-Funktion verwendet. Die beiden Variablen werden mit Komma getrennt hineingegeben. Die Reihenfolge spielt hierbei keine Rolle.
Zusätzlich ist zwingend mit method=“spearman“ anzugeben, dass eine Rangkorrelation gerechnet werden soll.
Standardmäßig wird zweiseitig, also ungerichtet getestet. Eine gerichtete Testung wird mit dem Argument „alternative“ erreicht. Im Code unten steht jeweils, wie das Argument für positive bzw. negative unterstellte Korrelation lauten muss.
Bei Bindungen, also mehrfach vorkommenden Ausprägungskombinationen, kann kein exakter p-Wert berechnet werden, was R mit einer Warnmeldung anzeigt. Bei größeren Datensätzen oder zumeist schon ab 20 Beobachtungen, kommt es zwangsweise dazu. Allerdings ist eine exakte Ermittlung des p-Wertes überhaupt nur bei kleinen Datensätzen notwendig. Bei großen Stichproben reicht eine approximative Ermittlung des p-Wertes vollkommen aus. Das kann mit exact=FALSE angefordert werden.


# zweiseitige Testung
cor.test(df$Krankheit, df$Motivation, method = "spearman", exact = FALSE)

# einseitige Testung - positive Korrelation erwartet
cor.test(df$Krankheit, df$Motivation, method = "spearman", 
         exact = FALSE, alternative = "greater")

# einseitige Testung - negative Korrelation erwartet
cor.test(df$Krankheit, df$Motivation, method = "spearman", 
         exact = FALSE, alternative = "less")

4 Interpretation der Ergebnisse der biserialen Rangkorrelation in R

Bei der Interpretation beschränke ich mich auf die zweiseitigen Testergebnisse. Einseitige Testergebnisse werden analog interpretiert.


	Spearman's rank correlation rho

data:  df$Krankheit and df$Motivation
S = 24268, p-value = 0.4933
alternative hypothesis: true rho is not equal to 0
sample estimates:
       rho 
-0.0981209

Der erste Blick geht auf die Signifikanz, also den p-Wert („p-value“):

Dieser ist mit p = 0,493 angegeben. Er liegt in jedem Fall über den typischen Verwerfungsgrenzen von Alpha = 0,05 bzw. Alpha = 0,01.
Die Nullhypothese (Es existiert KEIN Zusammenhang) wird aufgrund p > Alpha NICHT verworfen.
Folglich existiert in diesem Beispiel kein Zusammenhang zwischen den beiden Variablen
Das weitere Vorgehen ist daher nicht möglich, für den Fall einer Signifikanz zu Illustrationszwecken aber ausgeführt.

Der zweite Blick – nur im Falle der Verwerfung der Nullhypothese – geht auf den biserialen Rangkorrelationskoeffizient:

Der Rangkorrelationskoeffizient beträgt r = -0,098, ist also negativ.
Eine Zunahme der einen Variable hängt mit einer Abnahme der anderen Variable zusammen.
In meinem Beispiel ist die Krankheit mit 0 – nicht krank und 1 – krank codiert. Im Zweifel in der „Variablenansicht“ unter „Werte“ prüfen.
Wenn die Variable Krankheit folglich um eine Einheit höher ist, ist aufgrund des negativen r eine niedrigere Motivation beobachtbar.
Umgekehrt hat eine höhere Motivation eine niedrigere Ausprägung der Variable Krankheit zur Folge.
ACHTUNG, die eben gezeigte Interpretation ist nur möglich, wenn p < Alpha. In meinem Beispiel ist dies nicht der Fall. Die Interpretation dient nur zu Illustrationszwecken für ein signifikantes Ergebnis.

Optional: Der dritte Blick geht auf das z.B. 95%-Konfidenzintervall:
Dies kann nicht über cor.test() angefordert werden. Jedoch über corr.test() aus dem psych-Paket mit dem 1-Alpha-KI.


library(psych)
c <- corr.test(df$Krankheit, df$Motivation, method = "spearman", 
               ci = TRUE, alpha = 0.05)
print(c, short=FALSE, digits=3)

Output:


      raw.lower  raw.r raw.upper raw.p lower.adj upper.adj
NA-NA    -0.364 -0.098     0.182 0.493    -0.364     0.182

Im Output stehen die Grenzen (raw.lower und raw.upper) -0,364 und 0,182.
Von allen Konfidenzintervallen, die auf dem 95%-Niveau berechnet werden, enthalten 95% den wahren Wert des Rangkorrelationskoeffizienten.
Einfacher gesagt: Bei wiederholter Berechnung von 100 Konfidenzintervallen, ist der wahre Wert in 5 KI nicht enthalten, in 95 KI enthalten.
Je größer eine Stichprobe, desto besser gelingt eine Schätzung und desto enger ist das Konfidenzintervall.
Der wahre Wert liegt im o.g. KI. Da die 0 zwischen den Intervallgrenzen ist, ist eine 0-Korrelation nicht ausgeschlossen.
Das Konfidenzintervall korrespondiert stets mit der Signifikanz. Ein p-Wert < 0,05 geht immer mit einem KI einher, das die 0 NICHT beinhaltet.
In meinem Beispiel ist p > 0,05 und folglich beinhaltet das KI die 0.

5 Ermittlung der Effektstärke der biserialen Rangkorrelation

Die Effektstärke zur Einordnung ist im Rahmen von Korrelationen stets der Rangkorrelationskoeffizient r selbst.
Eine Effektstärke wird i.d.R. nur für signifikante Effekt vorgenommen. Im Beispiel ist p > 0,05 und der folgende Absatz nur zur Illustration für das weitere Vorgehen gedacht.
Die Einordnung wird mit r = -0,098 vorgenommen. Negative Werte werden stets als Betrag, also positiver Wert, verwendet.

Zunächst sind vergleichbare Studien zu suchen und eine Einordnung anhand dessen vorzunehmen.
Existieren keine vergleichbaren Studien, sind fachspezifische Effektstärkengrenzen zur Einordnung zu verwenden.
Sind diese auch nicht vorhanden, kann auf Cohen (1988) bzw. Cohen (1992) zurückgegriffen werden.
Cohen hat die folgenden Grenzen festgelegt: ab 0,1 (= schwach), ab 0,3 (= mittel), ab 0,5 (= stark).

6 Reporting der biserialen Rangkorrelation

Für das Berichten der biserialen Rangkorrelation werden benötigt:

Der Rangkorrelationskoeffizient r (-0,098),
die Freiheitsgrade df (49) - wird bei Korrelationen stets berechnet mit = N-2 (hier 51-2 = 49)
und der p-Wert (0,493) benötigt.
Im Falle eines signifikanten Zusammenhanges wird zusätzlich die Effektstärke angegeben bzw. eingeordnet.
Das Konfidenzintervall ist zumeist optional, kann aber mit 95% KI [-0,36; 0,18] einfach an die untere Zeile angehängt werden.

Die Variablen Motivation und Krankheit zeigen keinen Zusammenhang, mit r (49) = -0,098; p = 0,493.

7 Videotutorial

Dieses Video auf YouTube ansehen.

8 Literatur

Cohen, J. (1988): Statistical Power Analysis for the Behavioral Sciences.
Cohen, J. (1992): A Power Primer, Psychological Bulletin, 1992, Vol. 112. No. 1, 155-159.



Hat dir der Beitrag geholfen?

Dann würde ich mich über eine kleine Spende freuen, die es mir erlaubt, weiterhin kostenfreie Inhalte zu veröffentlichen.
Alternativ kannst du über meinen Amazon Affiliate-Link einkaufen – ohne Zusatzkosten.

Vielen Dank und viel Erfolg!

Jetzt spenden

Über mich

Björn Walther

Ein 💚 für Statistik & Datenanalyse