Daten filtern in R (Variablen filtern)

von | Zuletzt bearbeitet am: Sep 29, 2022 | Filter, R

1 Die Grundidee von Variablen filtern

Neben dem Ausschließen bzw. Filtern von Fällen, kann es mitunter notwendig oder wünschenswert sein, Variablen auszuwählen oder auszuschließen – beides wird gezeigt. Ein Datensatz, der 200 Variablen hat, von denen mich nur 20 interessieren, wäre so ein typischer Anwendungsfall.

 

2 Zwei Möglichkeiten: Variablen “behalten” und Variablen entfernen

Generell empfehle ich, mit sog. subsets zu arbeiten, was auch für das Filtern von Fällen anhand bestimmter Variablenausprägungen funktioniert.
Man hat prinzipiell die Möglichkeit entweder a) nur bestimmte Variablen aus einem Ausgangsdatensatz zu entnehmen bzw. zu verwenden. Oder b) man entfernt Variablen aus einem Ausgangsdatensatz. Je nachdem, was weniger Schreibaufwand ist, kann die eine oder andere Vorgehensweise angewandt werden.
 

2.1 Zu behaltende Variablen benennen

variablenfilter R
Prinzipiell ist es empfehlenswert, einen neuen Data Frame zu definieren und nicht den Originaldatensatz zu überschreiben. Der neue Data Frame ist folglich der reduzierte und künftige Arbeitsdatensatz. Wenn aus dem Originaldatensatz nur die Variablen, Alter, Gewicht und Größe beibehalten werden sollen, wird mit der subset()-Funktion gearbeitet. In sie wird der Ausgangsdatensatz eingegeben und die entsprechenden Variablen mit der select=c()-Funktion angehängt.


data1 <- subset(data, select=c(Alter, Geschlecht, Größe, Gewicht))

Das Ergebnis ist nun ein Datensatz, der nur noch aus den Variablen Alter, Geschlecht, Größe und Gewicht besteht. Alle anderen Variablen sind im neuen Datensatz bzw. Data Frame "data1" nicht mehr enthalten.
 

2.2 Zu entfernende Variablen benennen

Variablenfilter R
Den anderen Weg geht man, indem man nur die Variablen auflistet, die man nicht mehr im Datensatz haben möchte. Es kann ja sein, dass nur 3-4 Variablen uninteressant sind bzw. beim Export und Versenden des Datensatzes nicht mehr auftauchen sollen. Zum Beispiel, weil es Hilfsvariablen sind oder aus Datenschutzgründen nicht mitgeliefert werden sollen.
 
Erneut wird mit der subset()-Funktion gearbeitet. In sie wird auch wieder der Ausgangsdatensatz eingegeben, diesmal aber werden die zu entfernenden Variablen in der select=c()-Funktion mit einem "-" davor versehen.


data2 <- subset(data, select=c(-Alter, -Geschlecht, -Größe, -Gewicht))

Im Beispiel übernehme ich alle Variablen aus dem Datensatz, bis auf Alter, Geschlecht, Größe und Gewicht, um z.B. keine personenbezogenen Daten und damit verbundene Rückschlüsse ziehen zu können.
 

3 Videotutorial

 

Weitere nützliche Tutorials findest du auf meinem YouTube-Kanal.

 

 

Hat dir der Beitrag geholfen?

Dann würde ich mich über eine kleine Spende freuen, die es mir erlaubt, weiterhin kostenfreie Inhalte zu veröffentlichen.
Alternativ kannst du über meinen Amazon Affiliate-Link einkaufen – ohne Zusatzkosten.

Vielen Dank und viel Erfolg!

Über mich

Björn Walther

Ein 💚 für Statistik & Datenanalyse

Excel Online-Kurs

YouTube-Kanal

Inhalt