Website-Icon Björn Walther

Cook Distanz in SPSS ermitteln und interpretieren – Ausreißer erkennen


Mit der Cook-Distanz in SPSS (folgend manchmal auch Cook’s Distance) kann man einflussreiche Fälle im Rahmen einer multiplen linearen Regression identifizieren. Mitunter sind diese Fälle auch Ausreißer. Wie die Ermittlung der Cook-Distanz in SPSS funktioniert und wie man sie interpretiert, erklärt dieser Blogbeitrag.

Als Grundlage der Cook-Distanz dienen die Residuen im Rahmen einer (multiplen) linearen Regression (SPSS, Excel). Sie beschreiben den Abstand von geschätzten und tatsächlichen Werten der abhängigen Variablen. Die Voraussetzungsprüfung der Regression zeige ich hier nicht, dazu habe ich ausführliche Informationen im eben verlinkten Beitrag stehen.

 

1 Ermitteln der Cook-Distanz in SPSS

Zunächst wird ganz normal eine (multiple) lineare Regression vorbereitet. Über “Analysieren” -> “Regression” -> “Linear”:

Im Beispiel möchte ich den Abiturschnitt mit den unabhängigen Variablen Motivation und Intelligenzquotient prognostizieren.

 

Nun ist lediglich über die Schaltfläche Speichern folgendes Dialogfeld aufzurufen:

 

Wie recht leicht zu erkennen ist, ist nur ein einziger Haken zu setzten. Nämlich im Abschnitt “Distanzen” bei “Cook”. Über “weiter” und “OK” wird die Regression berechnet und die Cook-Distanz in einer neuen Variable gespeichert. Diese befindet sich in der Datenansicht am Ende und hat folgende Form:

Mit einem Rechtsklick auf COO_1 und einer absteigenden Sortierung sieht man die größten Werte am Beginn der Tabelle. Diese sollte man sich genauer anschauen.

 

2 Interpretation der Cook-Distanz

Die Cook-Distanz dient zur Identifikation von einflussreichen Fällen. Mitunter sind diese auch Ausreißer. Ab welcher Cook-Distanz spricht man aber von Ausreißern oder einflussreichen Fällen? Hierzu gibt es 3 Zugänge

2.1 Zugang 1 und 2 – feste und halbfeste Grenzen

  1. Cook, R., & Weisberg, S. (1982). Criticism and Influence Analysis in Regression. Sociological Methodology, 13, 313-361. sprechen von einer Grenze von 1. Sind also Cook-Distanzen unter 1, existieren keine einflussreichen Fälle.
  2. Hardin, J. W., & Hilbe, J. M. (2007). Generalized linear models and extensions, S. 49. sprechen von Werten die über 4/n liegen von problematisch. n ist hierbei die Stichprobengröße. Im Falle meiner Stichprobe mit 51 Fällen wäre 0,078 der Grenzwert. Offensichtlich ist mit einer zunehmenden Stichprobengröße diese Grenze immer kleiner werdend. Das kann zu Problemen führen, weswegen man die dritte Variante in Betracht ziehen sollte.

 

2.2 Zugang 3 – Verhältnismäßigkeit

Hierbei gibt es keine festen oder variablen Grenzen. Vielmehr betrachtet man die Cook-Distanzen in Relation zueinander. Hierbei hilft ein einfaches Streudiagramm deutlich mehr als auf die nackten obigen Zahlen zu blicken. Über “Grafik” -> “Diagrammerstellung…” wird Streu-Punktdiagramm (1) gewählt und hier das einfache Streudiagramm (2) ausgewählt. Auf die y-Achse kommt die Cook’s Distance (3) und auf die x-Achse eine laufende Nummer oder die Fallnummer, die man sich zur Not generieren kann.

 

Das Streudiagramm sieht in meinem Fall wie folgt aus:

 

Hier ist erkennbar, dass Fall 7 und besonders Fall 15 eine große Cook-Distanz haben. Das war auch oben in der Tabelle schon erkennbar, dass die Distanzen 0,53382 und 0,19609 deutlich größer als der Rest sind. Diese Fälle stechen aber nun sehr deutlich hervor und sollten noch mal etwas näher betrachtet werden, anstatt sie direkt blind auszuschließen. Der tatsächliche Abiturschnitt und der prognostizierte weichen stark voneinander ab. Der 1. Schüler ist deutlich zu schlecht, der 2. Schüler etwas besser als erwartet.

 

Die Werte sind folgende:

ID Abitur
Tatsächlich
Motivation IQ Abitur
Prognose
15 3,4 3 97 2,64861
7 2 3 100 2,51618

 

Beim Durchscrollen des Datensatzes fällt insbesondere auf, dass Schüler mit einer hohen Motivation von 3 häufig einen deutlich besseren Abiturschnitt haben. Unser einer Schüler (ID 15) hat einen Schnitt von 3,4. Der “zweitschlechteste” Schüler mit einer Motivation von 3 hat einen Abiturschnitt von 2,2. Zwar spielt die Intelligenz auch eine nicht vernachlässigbare Rolle, allerdings haben im Datensatz motivierte Schüler mindestens einen IQ von 115 und damit per se eine bessere Grundveranlagung für gute schulische Leistungen.

Warum ist unser zweiter Schüler (ID 7) aber auch ein Ausreißer? Hier ist die Motivation ebenfalls hoch, das Abitur entsprechend gut. Hier spielt vor allem der IQ eine Rolle. Die Grundveranlagung ist mit einem IQ von 100 zwar prinzipiell gegeben, allerdings schätzt das Modell auf Basis der vorliegenden Daten mit einem eher durchschnittlichen IQ die tatsächliche Note deutlich niedriger ein. Somit ist die tatsächliche Note besonders aufgrund des IQ’s zu hoch.

 

3 Fazit – Ausreißer, oder nicht?

Bevor diese Frage beantwortet werden kann, muss die Frage gestellt werden, ob bei der Messung und Datenerfassung kein Fehler vorliegt. Vielleicht hat der erste Schüler ja ein Abitur von 2,4 statt 3,4 – ein Vertipper ist denkbar. Oder aber Schüler 2 hat einen IQ von 110 und demzufolge wäre das gute Abitur für das Modell auch wieder plausibler. Wie aber nun weiter?

Aufgrund der vorliegenden Daten und der deutlichen Abweichung der tatsächlichen und geschätzten Werte können die zwei obigen Fälle sicherlich als Ausreißer klassifiziert werden. Ist das ein Grund, sie auszuschließen? Nicht unbedingt. Sind keine Mess- oder Erhebungsfehler ersichtlich bzw. wurden die Werte erneut auf Plausibilität geprüft und es konnte kein Fehler festgestellt werden, dann ist ein Ausschluss sehr schwer möglich, weil hierfür schlicht keine Argumente existieren. Weil die Beobachtungen anders als die Masse sind, ist das kein Grund sie einfach auszuschließen – das Motto “was nicht passt, wird passend gemacht” ist hier fehl am Platz. Eine Diskussion, warum diese Fälle Ausreißer sind, ist viel zielführender, besonders im Hinblick auf Folgeuntersuchungen, wo auch Ausreißer auftreten können.

 

4 Videotutorial

https://www.youtube.com/watch?v=g0PxGwG44aQ/

 

Die mobile Version verlassen