Website-Icon Björn Walther

Dummy Variablen in SPSS erstellen


Nominale bzw. kategoriale Variablen können nicht ohne weiteres in eine (multiple) lineare Regression aufgenommen werden. Hierzu bedarf es einer Dummykodierung. Dieser Beitrag beantwortet die Frage: Wie erstelle ich Dummies in SPSS?

Ist die kategoriale Variable dichotom, hat also nur zwei Ausprägungen, braucht man keine Kodierung von Dummyvariablen vornehmen, weil dies implizit schon geschehen ist. Dann kann direkt eine lineare Regression gerechnet und interpretiert werden. Die Besonderheiten hierbei erkläre ich im Artikel Lineare Regression mit binären Variablen (Dummies) rechnen.
 

1 Voraussetzungen der Dummykodierung

Die Variable, die als Dummy kodiert werden soll, muss lediglich nominal bzw. kategorial skaliert sein. Das sind z.B. Farben, Länder oder die Wohnsituation. Eine bereits dichotome Variable muss nicht als Dummy kodiert werden und kann direkt in das Regressionsmodell eingeführt werden.
 

2 Prinzip der Dummykodierung kurz erklärt

Für eine kurze Erklärung des Prinzips nehme ich das Beispiel der Wohnsituation. Vereinfacht nehme ich drei Ausprägungen der Wohnsituation an. (1) Wohnung, (2) Reihenhaus, (3) Einfamilienhaus.

Aus der einen Variable “Wohnsituation” erstelle ich nun drei separate Variablen: (1) Dummy_Wohnung, (2) Dummy_Reihenhaus, (3) Dummy_Einfamilienhaus. Diese haben jeweils immer dann die Ausprägung 1, wenn in der Ausgangsvariable das in den Dummy umgewandelte Merkmal auftritt. Beispiel: Dummy_Wohnung hat den Wert “1”, wenn die Wohnsituation “Wohnung” ist. Der Dummy_Einfamilienhaus ist “1” wenn die Wohnsituation “Einfamilienhaus” ist.

Das sieht dann wie folgt aus:

Dummy_Wohnung Dummy_Reihenhaus Dummy_Einfamilienhaus
Wohnung 1 0 0
Reihenhaus 0 1 0
Einfamilienhaus 0 0 1

 

ACHTUNG: Man kann n Ausprägungen der Ausgangsvariable bereits mit n-1 binären Variablen darstellen. Im Beispiel reichen demzufolge bereits zwei Dummyvariablen. Das würde dann wie folgt aussehen:

Dummy_Reihenhaus Dummy_Einfamilienhaus
Wohnung 0 0
Reihenhaus 1 0
Einfamilienhaus 0 1

Hier ist erkennbar, dass der Proband immer dann in einer Wohnung wohnen muss, wenn “Dummy_Reihenhaus” und “Dummy_Einfamilienhaus” jeweils 0 sind.

HINWEIS: Beim Durchführen der Regression ist es häufig sehr empfehlenswert, wie oben gezeigt, alle Ausprägungen der Originalvariable als separaten Dummy vorliegen zu haben. Dies ermöglicht den Austausch der Referenzkategorie beim Rechnen der Regression und ist meiner Meinung nach aufschlussreicher. Zudem werden wir sehen, dass auch SPSS dies so handhabt, also für jede Ausprägung der Originalvariable einen extra Dummy erstellt.

 

3 Durchführung der Dummykodierung in SPSS

3.1 Der manuelle Weg – zum Verständnis

Die manuelle Kodierung funktioniert in SPSS über “Transformieren” -> “Umcodieren in andere Variablen…”

 

Im erscheinenden Dialogfeld wird (1) die Ausgangsvariable gesucht und in das mittlere Feld geschoben. In meinem Falle ist dies “Wohnsituation”. In Schritt (2) wird die erste Dummyvariable als Ausgabevariable erstellt. Ich fange mit der Dummyvariable für Wohnung an und nenne sie “Dummy_Wohn”. und klicke auf “Ändern“.

 

In Schritt (3) definiere ich alte und neue Werte. Hierzu öffnet sich ein weiteres Dialogfeld.


 

In dem Dialogfeld “Alte und neue Werte” gebe ich (1) zunächst “Alter Wert” ein. Dies ist die Ausprägung, die in der Ausgangsvariable für Wohnung steht. In meinem Beispiel ist die Wohnung mit “1” hinterlegt. (2) Da Dummyvariablen immer mit 0 und 1 kodiert werden und 1 für das Vorhandensein der Ausprägung steht, wird bei “Neuer Wert” eine 1 eingegeben. (3) Beim Klick auf Hinzufügen wird die Ausgangsvariable “Wohnsituation” mit der Ausprägung Wohnung (=1) zur Dummyvariable “Dummy-Wohn” mit der Ausprägung 1.

 

Als nächstes muss die Ausprägung 0 der Dummy-Variable definiert werden. Hierzu wird (1) als alter Wert “alle anderen Werte” ausgewählt und (2) als neuer Wert wird 0 eingegeben. Mit Klick auf (3) Hinzufügen und (4) Weiter wird die Wertezuweisung abgeschlossen.

 

Nun sollte eine Dummyvariable mit dem Namen Dummy_Wohn fertig umcodiert sein und es kann mit OK abgeschlossen werden.

 

Dieser Vorgang ist nun für alle anderen Ausprägungen der Ausgangsvariable zu wiederholen. Das heißt, das Name und Beschriftung der Ausgabevariable geändert werden müssen und bei alten und neuen Werten entsprechend für den neuen Wert 1 der alte Wert angepasst werden muss. Für das Reihenhaus mit der Ausprägung 2 würde man also als “alter Wert” die 2 auswählen, sonst aber keine Änderungen vornehmen. Analog wäre das die 3 für das Einfamilienhaus. Im Ergebnis sollten nun 3 neue Variablen existieren, die allesamt mit 0 und 1 codiert sind:

Mit eingeblendeten Wertelabels Ohne eingeblendete Wertelabels

 

ACHTUNG: Sollten fehlende Werte existieren, sind diese ebenso “umzukodieren”. Demnach sollte bei “Alter Wert” entsprechend “Systemdefiniert fehlend” bzw. “System- oder benutzerdefiniert fehlende Werte” und bei “Neuer Wert” sollte “Systemdefiniert fehlend” ausgewählt werden.

 

3.2 Der automatische Weg

Die automatische Kodierung funktioniert in SPSS über “Transformieren” -> “Dummy-Variablen erstellen”. ACHTUNG: Es kann sein, dass ihr eine SPSS-Version habt, die dieses Paket nicht beinhaltet. In dem Falle müsst ihr zwingend wie oben gezeigt manuell vorgehen.

 

Hier ist (1) lediglich in das Feld “Dummy-Variable erstellen für” die Ausgangsvariable zu schieben. Erneut handelt es sich um das Beispiel “Wohnsituation”. Als nächstes ist (2) ein Stammnamen zu vergeben. Er wird sämtlichen Dummyvariablen, die von SPSS erstellt werden, vorangestellt. In meinem Fall habe ich einfach “D” als Stamm gewählt. Mit (3) einem Klick auf OK werden nun drei Dummyvariablen erstellt.

Das sieht dann wie folgt aus:

Mit eingeblendeten Wertelabels Ohne eingeblendete Wertelabels

 

Wie man eine Regression mit Dummies rechnet und interpretiert, seht ihr hier.
 

4 Videotutorial

https://www.youtube.com/watch?v=znYq9_HrzvU
 

Die mobile Version verlassen