Website-Icon Björn Walther

Daten filtern in R (Variablen filtern)

1 Die Grundidee von Variablen filtern

Neben dem Ausschließen bzw. Filtern von Fällen, kann es mitunter notwendig oder wünschenswert sein, Variablen auszuwählen oder auszuschließen – beides wird gezeigt. Ein Datensatz, der 200 Variablen hat, von denen mich nur 20 interessieren, wäre so ein typischer Anwendungsfall.  

2 Zwei Möglichkeiten: Variablen “behalten” und Variablen entfernen

Generell empfehle ich, mit sog. subsets zu arbeiten, was auch für das Filtern von Fällen anhand bestimmter Variablenausprägungen funktioniert.
Man hat prinzipiell die Möglichkeit entweder a) nur bestimmte Variablen aus einem Ausgangsdatensatz zu entnehmen bzw. zu verwenden. Oder b) man entfernt Variablen aus einem Ausgangsdatensatz. Je nachdem, was weniger Schreibaufwand ist, kann die eine oder andere Vorgehensweise angewandt werden.  

2.1 Zu behaltende Variablen benennen

Prinzipiell ist es empfehlenswert, einen neuen Data Frame zu definieren und nicht den Originaldatensatz zu überschreiben. Der neue Data Frame ist folglich der reduzierte und künftige Arbeitsdatensatz. Wenn aus dem Originaldatensatz nur die Variablen, Alter, Gewicht und Größe beibehalten werden sollen, wird mit der subset()-Funktion gearbeitet. In sie wird der Ausgangsdatensatz eingegeben und die entsprechenden Variablen mit der select=c()-Funktion angehängt.

data1 <- subset(data, select=c(Alter, Geschlecht, Größe, Gewicht))
Das Ergebnis ist nun ein Datensatz, der nur noch aus den Variablen Alter, Geschlecht, Größe und Gewicht besteht. Alle anderen Variablen sind im neuen Datensatz bzw. Data Frame "data1" nicht mehr enthalten.  

2.2 Zu entfernende Variablen benennen

Den anderen Weg geht man, indem man nur die Variablen auflistet, die man nicht mehr im Datensatz haben möchte. Es kann ja sein, dass nur 3-4 Variablen uninteressant sind bzw. beim Export und Versenden des Datensatzes nicht mehr auftauchen sollen. Zum Beispiel, weil es Hilfsvariablen sind oder aus Datenschutzgründen nicht mitgeliefert werden sollen.   Erneut wird mit der subset()-Funktion gearbeitet. In sie wird auch wieder der Ausgangsdatensatz eingegeben, diesmal aber werden die zu entfernenden Variablen in der select=c()-Funktion mit einem "-" davor versehen.

data2 <- subset(data, select=c(-Alter, -Geschlecht, -Größe, -Gewicht))
Im Beispiel übernehme ich alle Variablen aus dem Datensatz, bis auf Alter, Geschlecht, Größe und Gewicht, um z.B. keine personenbezogenen Daten und damit verbundene Rückschlüsse ziehen zu können.  

3 Videotutorial

https://www.youtube.com/watch?v=j74wYtWA4Uo   Weitere nützliche Tutorials findest du auf meinem YouTube-Kanal.    
Die mobile Version verlassen