Doppelte Zeilen/Fälle in SPSS löschen (Duplikate entfernen)

von | Mrz 14, 2022 | Daten aufbereiten, SPSS | 0 Kommentare


Beim Digitalisieren von Papierfragebögen kann es vorkommen, dass sich doppelte Fälle (sog. Duplikate) einschleichen, also eine Mehrfacherfassung desselben Fragebogens stattfindet. Aber auch digitale Erfassungen arbeiten leider nicht immer fehlerfrei, sodass Duplikate im Datensatz sein können. In diesem Beitrag zeige ich, wie man doppelte Fälle findet und entfernt.

 

Doppelte Fälle finden

Voreinstellungen

Über das Menü in SPSS: Ansicht > Doppelte Fälle ermitteln
Duplikate SPSS

 

Anschließend erhält man ein Dialogfeld, in dem einige Einstellungen vorzunehmen sind.
Duplikate SPSS

  1. Zuerst werden die auf Duplikate zu prüfenden Variablen in das Feld „Übereinstimmende Fälle definieren durch“ verschoben. Möchte man auf 100%ige Duplikate prüfen, werden alle Variablen ausgewählt. Achtung: systemgeneriert und somit eindeutige Variablen wie z.B. eine laufende Nummer sollten hier nicht aufgenommen werden. Meist reichen wenige Variablen aus, die in ihrer Kombination so eher selten vorkommen.

     

  2. In meinem Beispiel habe ich eine systemgenerierte laufende Nummer und schiebe diese in „Innerhalb der übereinstimmenden Gruppen sortieren nach„. Damit werden die Fälle, sofern sie doppelt vorkommen, anhand der laufenden Nummer aufsteigend sortiert.

     

  3. Indikator für primäre Fälle“ erstellt eine neue Variable, die im ausgewählten Fall immer eine 1 als Ausprägung hat, wenn der Fall anhand der obigen Auswahl eindeutig ist. Duplikate erhalten eine 0.

     

  4. Zusätzlich empfehle ich den Haken bei „Sequenzielle Zählung der übereinstimmenden Fälle in jeder Gruppe“ zu setzen. Dadurch wird eine weitere Variable erstellt, die anzeigt, wie oft der Fall vorkommt.

     

  5. Die unteren beiden Optionen sind standardmäßig angehakt und erleichtern die Identifikation sowohl im Datensatz, wenn Duplikate nach oben verschoben werden, als auch in einer kleiner Auswertungstabelle über die beiden Variablen, die erstellt werden.

     

 

Identifikation von Duplikaten

Über die Ausgabe erhält man mit obigen Einstellungen drei Tabellen.
Duplikate SPSS

  1. Die Tabelle Statistiken gibt lediglich Auskunft über die Anzahl der verarbeiteten Fälle.
  2. Die Tabelle „Indikator jeder letzten Fallübereinstimmung als Primär“ zeigt die Anzahl doppelter Fälle an. Hier sind es 3.
  3. Die Tabelle „Sequenzielle Zählung der Fallübereinstimmungen“ zeigt, wie oft ein identischer Fall vorkommt. Das geschieht über die Zählung der erzeugten Variable „MatchSequence„. Dies kann falsch interpretiert werden, wie wir weiter unten noch sehen werden.

     

    In der Datenansicht sieht man für meinen Beispieldatensatz folgendes:
    Duplikate SPSS

    Die Markierung in Gelb und Blau habe ich vorgenommen und zeigen anhand der Variable „MatchSequence“, welche Fälle identisch sind. Hier sind es die ersten 3 Fälle (in Gelb) und danach die nächsten 2 Fälle (hellblau).

     

    In den letzten beiden Spalten stehen die neuen Variablen „PrimaryLast“ und „MatchSequence„.

    • PrimaryLast gibt mit 1 an, dass dieser Fall eindeutig ist. 0 ist ein doppelter Fall.
    • MatchSequence ordnet gleiche Fälle untereinander an und zeigt mit Werten verschieden von 0, dass es eine Reihe von identischen Fällen gibt.

     

    Doppelte Fälle entfernen

    Hier gibt es zwei Möglichkeiten, löschen oder filtern.

     

    Doppelte Fälle löschen

    Fälle zu löschen, ist NICHT die vorzuziehende Option. Falls ihr dennoch sicher seid, dass ihr die Fälle löschen könnt, markiert ihr einfach die Fallnummer, Rechtsklick und wählt Löschen.

     

    Doppelte Fälle filtern

    Die elegantere Variante ist natürlich das Filtern. Hierzu geht ihr über das SPSS-Menü:

    Daten > Fälle auswählen

    Anschließend wählt ihr die Variable „PrimaryLast“ aus und setzt die Bedingung auf 1, also PrimaryLast=1.
    Alternativ kann auch mit „MatchSequence“ gearbeitet werden. Die Bedingung wäre hier MatchSequence<2.

    Duplikate SPSS

     

    Das Ergebnis der Filterung ist identisch:
    Duplikate SPSS

     

    Anschließend kann ganz normal weitergerechnet werden.

     

    Videotutorial

    Dieses Video ansehen auf YouTube.

     

Hat dir der Beitrag geholfen?

Dann würde ich mich über eine kleine Spende freuen, die es mir erlaubt, weiterhin kostenfreie Inhalte zu veröffentlichen.

Vielen Dank und viel Erfolg!

Über mich

Björn Walther

Excel- und SPSS-Experte

YouTube-Kanal

Excel Online-Kurs

YouTube-Kanal