Kapitel 2 · Univariate deskriptive Statistik
Streuungsmaße
Warum Streuung?
Ein Lagemaß allein sagt wenig: Zwei Datensätze mit identischem Mittel können völlig unterschiedlich streuen. Streuungsmaße erfassen die Variabilität und zeigen, wie repräsentativ das Zentrum ist.
Spannweite, IQR und Box-Plot
Die Spannweite nutzt nur die Extremwerte (sehr ausreißerempfindlich), der IQR nur die Quartile (robust). Der Box-Plot visualisiert die Fünf-Punkte-Zusammenfassung: Box von bis , Strich am Median, Whisker zu den Extremwerten (nach Tukey maximal , Werte darüber als Ausreißer separat).
Varianz: empirisch vs. Stichprobe
Hier liegt eine zentrale Klausurfalle — zwei Varianten mit unterschiedlichem Nenner:
Die Stichprobenvarianz () ist erwartungstreu und wird in der induktiven Statistik bevorzugt. Die Standardabweichung ist — gleiche Dimension wie die Daten.
Durchgerechnet: »Maßkrug Bier«
Mit und (n = 10):
Dieser Wert wird in den Tests gegen den Rechenkern reproduziert
(tests/fixtures/kapitel-2).
Relative Streuung und nominale Merkmale
- Variationskoeffizient : dimensionslos, vergleicht Streuungen unterschiedlicher Größenordnung. Normiert .
- Gini-Simpson-Index : Streuungsmaß für nominale Merkmale (0 bei maximaler Konzentration).
Übung: Alle Streuungsmaße aus der Verteilungsfunktion
Diese Aufgabe verbindet das ganze Kapitel — von der empirischen Verteilungsfunktion über Quantile bis zu Varianz, Variationskoeffizient, Gini-Simpson-Index und Box-Plot:
Übungsaufgabe Verteilungsfunktion ablesen — Streuung, Box-Plot & Gini-Simpson
Gegeben ist die empirische Verteilungsfunktion eines diskreten Merkmals mit Beobachtungen (Treppenfunktion mit Sprüngen bei auf , bei auf und bei auf ).
Löse mithilfe der Verteilungsfunktion: a) Berechne das arithmetische Mittel . b) Bestimme grafisch das 25 %-, 50 %- und 75 %-Quantil. c) Berechne Spannweite , Interquartilsabstand , Varianz , Standardabweichung , den normierten Variationskoeffizienten und den Gini-Simpson-Index . d) Zeichne den zugehörigen Box-Plot.
R R-Lösung anzeigen
# Rohdaten aus den Sprunghöhen rekonstruieren (n = 200)
x <- rep(c(0, 2, 3), times = c(50, 100, 50))
mean(x) # arithmetisches Mittel
quantile(x, c(.25, .5, .75)) # Quartile
diff(range(x)) # Spannweite R
IQR(x) # Interquartilsabstand
var(x); sd(x) # Stichprobenvarianz & Standardabweichung
boxplot(x, horizontal = TRUE) # Box-Plot [1] 1.75
25% 50% 75%
1.0 2.0 2.5
[1] 3
[1] 1.5
[1] 1.193467
[1] 1.092459 Lösung
0/9 aufgedecktÜbersicht: was darf welches Skalenniveau?
| Skala | Lagemaße | Streuungsmaße |
|---|---|---|
| Nominal | Modus | Gini-Simpson |
| Ordinal | + Median, Quantile | + Spannweite, IQR |
| Intervall | + arithm. Mittel | + Varianz, Standardabw. |
| Verhältnis | + geom. Mittel | + Variationskoeffizient |
Klausurfalle: Steht in der Aufgabe »Varianz«, prüfe den geforderten Nenner (n oder n−1). Beide sind im Rechenkern getrennt (
variancePopulationvs.varianceSample).
Abruf-Quiz
Frage 1 / 4Maßkrug Bier (, ). Wie groß ist die empirische Varianz (Teilung durch n)?