Website-Icon Björn Walther

Deskriptive Statistik in R

1 Ziel der deskriptiven Statistik

Deskriptiv heißt beschreibend und darum soll es auch gehen. Die Stichprobe – oder einige ihrer Variablen – werden mithilfe verschiedener Lageparameter und Streuparameter beschrieben. Es ist unbedingt notwendig, im Rahmen einer Stichprobenbeschreibung relevante Merkmale/Variablen darzustellen. Typische Lagemaße sind Mittelwert, Median und Quantile. Sie beschrieben die zentrale Tendenz der Variable. Typische Streumaße sind Standardabweichung, Varianz und (Inter-)Quartilsabstand. Sie drücken wiederum aus, wie stark die Variable streut bzw. wie weit die Ausprägungen auseinander liegen. In diesem Artikel erkläre ich noch mal detailliert, wie sie aufgebaut und zu lesen sind.


 

2 Deskriptive Statistik in R – Methode I

In R gibt es mehrere Wege, an die relevanten Lage- und Streuparameter zu gelangen. Der einfachste ist über die summary()-Funktion. Allerdings werden hier nur Minimum, Maximum, sowie die Quartile ausgegeben. Für meine Beispielvariable Gewicht sieht der Code wie folgt aus:


summary (Gewicht) 

Die Ausgabe ergibt dann folgendes:


   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  50.00   57.00   61.00   66.06   70.50  105.00 

Zusätzlich kann man mit mean(), sd(), var(), IQR() noch Mittelwert, Standardabweichung, Varianz und Interquartilsabstand.


mean(Gewicht)
sd(Gewicht)
var(Gewicht)
IQR(Gewicht)

Das führt zu folgendem Output:


> mean(Gewicht)
[1] 66.05882
> sd(Gewicht)
[1] 13.92754
> var(Gewicht)
[1] 193.9765
> IQR(Gewicht)
[1] 13.5

 

3 Deskriptive Statistik in R – Methode II

3.1 Ausgabe für alle vorhandenen Fälle

Die 2. Möglichkeit ist die von mir vorgezogene, weil sie zusätzliche Maße ausgibt. Die wichtigsten zusätzlichen sind Anzahl, Mittelwert und dessen Standardfehler, Standardabweichung, Schiefe und Kurtosis. Allerdings braucht es hierzu ein zusätzliches Paket, das nicht standardmäßig in R implementiert ist. Die Rede ist von pysch, das über die install.packages()-Funktion installiert und mit library geladen wird:


install.packages("psych")
library(psych)

Im Rahmen des psych-Paketes kann man mit describe() die deskriptiven Statistiken erzeugen.


describe(Gewicht)

Die Ausgabe gibt dann folgendes zurück:


   vars  n  mean    sd median trimmed mad min max range skew kurtosis   se
      1 51 66.06 13.93     61   64.24 8.9  50 105    55 1.13     0.31 1.95 

 

3.2 Ausgabe nach Gruppen

Praktisch ist im Rahmen des psych-Pakets auch die Möglichkeit hat, die deskriptiven Statistiken für Gruppen ausgeben zu lassen. Hierzu verwendet man die describeBy()-Funktion. In meinem Falle lasse ich mir das Gewicht nun pro Geschlecht ausgeben.


describeBy(Gewicht, Geschlecht)

Die Ausgabe gibt dann folgendes zurück:


 Descriptive statistics by group 
group: 0
   vars  n  mean    sd median trimmed   mad min max range skew kurtosis   se
X1    1 26 73.27 15.53   67.5   72.18 17.79  55 105    50 0.45     -1.2 3.05
------------------------------------------------------------------------ 
group: 1
   vars  n  mean   sd median trimmed  mad min max range skew kurtosis   se
X1    1 25 58.56 6.16     58   58.19 7.41  50  72    22 0.37    -0.92 1.23

Einzig die Codierung des in meinem Falle Geschlechtes muss man wissen.

0 steht hier für Männer, 1 für Frauen.


 

4 Videotutorial auf YouTube

https://www.youtube.com/watch?v=2oJxL-ImcOM/

 

5 Beispieldatensatz zum Download

Datensatz als .xlsx downloaden

 

Die mobile Version verlassen