Website-Icon Björn Walther

Cook Distanz in R ermitteln und interpretieren – Ausreißer erkennen


Mit der Cook-Distanz in R (folgend manchmal auch Cook’s Distance) kann man einflussreiche Fälle im Rahmen einer multiplen linearen Regression identifizieren. Mitunter sind diese Fälle auch Ausreißer. In R kann die Cook Distanz auf zwei Arten ermittelt und dargestellt werden.

Als Grundlage der Cook-Distanz dienen die Residuen im Rahmen einer (multiplen) linearen Regression. Sie beschreiben den Abstand von geschätzten und tatsächlichen Werten der abhängigen Variablen. Die Voraussetzungsprüfung der Regression zeige ich hier nicht, dazu habe ich ausführliche Informationen im eben verlinkten Beitrag stehen.

 

Ermitteln der Cook-Distanz in R

Zunächst wird ganz normal eine (multiple) lineare Regression gerechnet.

Im Beispiel möchte ich den Abiturschnitt mit den unabhängigen Variablen Motivation und Intelligenzquotient prognostizieren.


model 

Auf Basis dieses Modells und dessen Berechnung sind schon alle weiteren Grundlagen für die nächsten Schritte vorhanden.
 

Grafische Darstellung der Cook-Distanzen in R

Hierzu verwendet man das berechnete Modell in Verbindung mit der plot()-Funktion und dem Argument "4" wie folgt:


plot(model, 4)

 
Im Ergebnis erhält man bereits einen sehr aufschlussreichen Plot. Auf der x-Achse werden die Fallnummern abgetragen und auf der y-Achse die Cook-Distanzen.

 

Hier sticht bereits hervor, dass einige Fälle sehr große Cook-Distanzen haben. Diese sind auch beschriftet und lauten absteigend nach der Cook-Distanz: 15, 7 und 35. Aufgrund dessen mag es bereits hilfreich sein, sich diese Fälle genauer anzuschauen. Interessant sind dabei nur die entsprechenden unabhängigen Variablen sowie die abhängige Variable. Dazu komme ich aber später noch. Vorher zeige ich die exakte Berechnung der Cook-Distanzen.

 

Berechnung der Cook-Distanzen in R

Die Cook-Distanzen lassen sich in R mit der cooks.distance()-Funktion berechnen und mit der View()-Funktion anzeigen:


cd 



Ich habe hier bereits eine absteigende Sortierung vorgenommen und man kann die drei Fälle mit den höchsten Cook-Distanzen ganz oben erkennen. Die Fall-Nummern sind zudem mit angegeben: 15 (0,5032), 7 (0,1761) und 35 (0,0933).

 

Interpretation der Cook-Distanzen

Die Cook-Distanz dient zur Identifikation von einflussreichen Fällen. Mitunter sind diese auch Ausreißer. Ab welcher Cook-Distanz spricht man aber von Ausreißern oder einflussreichen Fällen? Hierzu gibt es 3 verschiedene Zugänge.

 

Zugang 1 und 2 - feste und halbfeste Grenzen

  1. Cook, R., & Weisberg, S. (1982). Criticism and Influence Analysis in Regression. Sociological Methodology, 13, 313-361. sprechen von einer Grenze von 1. Sind also Cook Distanzen unter 1, existieren keine einflussreichen Fälle.
  2. Hardin, J. W., & Hilbe, J. M. (2007). Generalized linear models and extensions, S. 49. bezeichnen Werte, die über 4/n liegen als problematisch. n ist hierbei die Stichprobengröße. Im Falle meiner Stichprobe mit 51 Fällen wäre der errechnete Grenzwert 0,078. Offensichtlich wird mit einer zunehmenden Stichprobengröße diese Grenze immer kleiner. Das kann zu Problemen führen, weswegen man die unten beschriebene dritte Variante in Betracht ziehen sollte.

Zunächst noch der Code für die beiden eben beschriebenen Methoden:


#Feste Grenze
View(cd

Im nachfolgenden Output wird mit TRUE und FALSE angegeben, ob die Werte unter der Grenze liegen. Hier zeige ich nur für die zweite Methode (halbfeste Grenze) einen Ausschnitt. (Methode 1 zeigt nur TRUE):

Fall 7 wird mit FALSE beschriftet. Die gesetzte Grenze von (4/51 = 0,078) wird überschritten. Ein Grund für Ausschluss ist das allerdings nicht unbedingt, wie wir noch sehen werden.

 

Zugang 3 - Verhältnismäßigkeit

Bei diesem Zugang gibt es keine festen oder variablen Grenzen. Vielmehr betrachtet man die Cook-Distanzen in Relation zueinander. Hierbei hilft der erneute Blick auf obiges Streudiagramm deutlich mehr als auf die nackten Zahlen zu schauen.

 

Hier ist erkennbar, dass Fall 7 und besonders Fall 15 eine verhältnismäßig große Cook-Distanz haben. Das war auch anhand der Werte schon erkennbar, dass die Distanzen 0,17614 (Fall 7) und 0,53382 (Fall 15) deutlich größer als der Rest sind. Diese Fälle stechen aber nun sehr deutlich hervor und sollten noch mal etwas näher betrachtet werden, anstatt sie direkt blind auszuschließen. Schüler 15 scheint etwas zu schlecht, Schüler 7 etwas zu gut.

 

Die Werte sind folgende:

ID Abitur
Tatsächlich
Motivation IQ
15 3,4 8 97
7 2 8 100

 

Beim Durchscrollen des Datensatzes fällt insbesondere auf, dass Schüler mit einer hohen Motivation ab 7 häufig einen deutlich besseren Abiturschnitt haben. Unser einer Schüler (ID 15) hat einen Schnitt von 3,4. Der "zweitschlechteste" Schüler mit einer Motivation von 8 hat einen Abiturschnitt von 2,2. Zwar spielt die Intelligenz auch eine nicht vernachlässigbare Rolle, allerdings haben im Datensatz motivierte Schüler mindestens einen IQ von 115 und damit per se eine bessere Grundveranlagung für gute schulische Leistungen.

Warum ist unser zweiter Schüler (ID 7) aber auch ein Ausreißer? Hier ist die Motivation ebenfalls hoch, das Abitur entsprechend gut. Hier spielt vor allem der IQ eine Rolle. Die Grundveranlagung ist mit einem IQ von 100 zwar prinzipiell gegeben, allerdings schätzt das Modell auf Basis der vorliegenden Daten mit einem eher durchschnittlichen IQ die tatsächliche Note deutlich niedriger ein. Somit ist die tatsächliche Note besonders aufgrund des IQ's zu hoch.

 

Fazit - Ausreißer oder nicht?

Bevor diese Frage beantwortet werden kann, muss die Frage gestellt werden, ob bei der Messung und Datenerfassung kein Fehler vorliegt. Vielleicht hat der erste Schüler ja ein Abitur von 2,4 statt 3,4 - ein Vertipper ist denkbar. Oder aber Schüler 2 hat einen IQ von 110 und demzufolge wäre das gute Abitur für das Modell auch wieder plausibler. Wie aber nun weiter?

Aufgrund der vorliegenden Daten und der deutlichen Abweichung der tatsächlichen und geschätzten Werte können die zwei obigen Fälle sicherlich als Ausreißer klassifiziert werden. Ist das ein Grund sie auszuschließen? Nicht unbedingt. Sind keine Mess- oder Erhebungsfehler ersichtlich bzw. wurden die Werte erneut auf Plausibilität geprüft und es konnte kein Fehler festgestellt werden, dann ist ein Ausschluss sehr schwer möglich, weil hierfür schlicht keine Argumente existieren. Weil die Beobachtungen anders als die Masse sind, ist das kein Grund sie einfach auszuschließen - das Motto "was nicht passt, wird passend gemacht" ist hier fehl am Platz. Eine Diskussion, warum diese Fälle Ausreißer sind, ist viel zielführender, besonders im Hinblick auf Folgeuntersuchungen, wo auch Ausreißer auftreten können.

 

Videotutorial

https://www.youtube.com/watch?v=RFl7O6OOcKA/

Literatur

 

Datensatz zum Download

Download

 

Die mobile Version verlassen