1 Ziel der deskriptiven Statistik
Deskriptiv heißt beschreibend und darum soll es auch gehen. Die Stichprobe – oder einige ihrer Variablen – werden mithilfe verschiedener Lageparameter und Streuparameter beschrieben. Es ist unbedingt notwendig, im Rahmen einer Stichprobenbeschreibung relevante Merkmale/Variablen darzustellen. Typische Lagemaße sind Mittelwert, Median und Quantile. Sie beschrieben die zentrale Tendenz der Variable. Typische Streumaße sind Standardabweichung, Varianz und (Inter-)Quartilsabstand. Sie drücken wiederum aus, wie stark die Variable streut bzw. wie weit die Ausprägungen auseinander liegen. In diesem Artikel erkläre ich noch mal detailliert, wie sie aufgebaut und zu lesen sind.
2 Deskriptive Statistik in R – Methode I
In R gibt es mehrere Wege, an die relevanten Lage- und Streuparameter zu gelangen. Der einfachste ist über die summary()-Funktion. Allerdings werden hier nur Minimum, Maximum, sowie die Quartile ausgegeben. Für meine Beispielvariable Gewicht sieht der Code wie folgt aus:
summary (Gewicht)
Die Ausgabe ergibt dann folgendes:
Min. 1st Qu. Median Mean 3rd Qu. Max.
50.00 57.00 61.00 66.06 70.50 105.00
Zusätzlich kann man mit mean(), sd(), var(), IQR() noch Mittelwert, Standardabweichung, Varianz und Interquartilsabstand.
mean(Gewicht)
sd(Gewicht)
var(Gewicht)
IQR(Gewicht)
Das führt zu folgendem Output:
> mean(Gewicht)
[1] 66.05882
> sd(Gewicht)
[1] 13.92754
> var(Gewicht)
[1] 193.9765
> IQR(Gewicht)
[1] 13.5
3 Deskriptive Statistik in R – Methode II
3.1 Ausgabe für alle vorhandenen Fälle
Die 2. Möglichkeit ist die von mir vorgezogene, weil sie zusätzliche Maße ausgibt. Die wichtigsten zusätzlichen sind Anzahl, Mittelwert und dessen Standardfehler, Standardabweichung, Schiefe und Kurtosis. Allerdings braucht es hierzu ein zusätzliches Paket, das nicht standardmäßig in R implementiert ist. Die Rede ist von pysch, das über die install.packages()-Funktion installiert und mit library geladen wird:
install.packages("psych")
library(psych)
Im Rahmen des psych-Paketes kann man mit describe() die deskriptiven Statistiken erzeugen.
describe(Gewicht)
Die Ausgabe gibt dann folgendes zurück:
vars n mean sd median trimmed mad min max range skew kurtosis se
1 51 66.06 13.93 61 64.24 8.9 50 105 55 1.13 0.31 1.95
3.2 Ausgabe nach Gruppen
Praktisch ist im Rahmen des psych-Pakets auch die Möglichkeit hat, die deskriptiven Statistiken für Gruppen ausgeben zu lassen. Hierzu verwendet man die describeBy()-Funktion. In meinem Falle lasse ich mir das Gewicht nun pro Geschlecht ausgeben.
describeBy(Gewicht, Geschlecht)
Die Ausgabe gibt dann folgendes zurück:
Descriptive statistics by group
group: 0
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 26 73.27 15.53 67.5 72.18 17.79 55 105 50 0.45 -1.2 3.05
------------------------------------------------------------------------
group: 1
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 25 58.56 6.16 58 58.19 7.41 50 72 22 0.37 -0.92 1.23
Einzig die Codierung des in meinem Falle Geschlechtes muss man wissen.
0 steht hier für Männer, 1 für Frauen.
4 Videotutorial auf YouTube
5 Beispieldatensatz zum Download
Datensatz als .xlsx downloaden