Statistik

Kapitel 2 · Univariate deskriptive Statistik

Lagemaße

📄 Folien:alle Materialien →

Das Zentrum einer Verteilung

Lagemaße verdichten die Daten zu einem »typischen« Wert. Setze selbst Punkte und beobachte, wie Mittel und Median auf einen Ausreißer reagieren:

02468101214161820
Mittel x̄ = 4Median x̃ = 4s = 1.41

Klick auf die Achse setzt einen Punkt. Füge einen Ausreißer hinzu: Das Mittel wandert mit, der Median bleibt fast stehen.

Arithmetisches Mittel

xˉ=1ni=1nxi=1nj=1kajhj=j=1kajfj\bar x = \frac{1}{n}\sum_{i=1}^{n} x_i = \frac{1}{n}\sum_{j=1}^{k} a_j h_j = \sum_{j=1}^{k} a_j f_j

Es entspricht dem physikalischen Schwerpunkt, ist nur ab Intervallskala sinnvoll und empfindlich gegenüber Ausreißern.

Median

Der Median ist der Wert in der Mitte der geordneten Reihe x(1)x(n)x_{(1)} \le \dots \le x_{(n)}:

xmed={x(n+12)n ungerade12(x(n2)+x(n2+1))n geradex_{med} = \begin{cases} x_{\left(\frac{n+1}{2}\right)} & n \text{ ungerade} \\[4pt] \tfrac{1}{2}\left(x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}\right) & n \text{ gerade} \end{cases}

Er ist robust (ab Ordinalskala) und bei wenigen Werten, Asymmetrie oder Ausreißerverdacht zu bevorzugen.

Modus und geometrisches Mittel

  • Modus xmodx_{mod}: häufigste Ausprägung, bereits für nominale Merkmale.
  • Geometrisches Mittel xgeom=x1xnnx_{geom} = \sqrt[n]{x_1 \cdots x_n}: für Wachstums-/Zinsfaktoren. Beispiel: Faktoren 1,02,1,07,1,051{,}02,\,1{,}07,\,1{,}051,021,071,0531,0466\sqrt[3]{1{,}02\cdot1{,}07\cdot1{,}05}\approx 1{,}0466 (≈ 4,66 % p. a.).

Quantile und Fünf-Punkte-Zusammenfassung

Das p-Quantil xpx_p trennt die Daten so, dass mindestens p100%p\cdot100\% darunter liegen:

xp={x(np)npZ12(x(np)+x(np+1))npZx_p = \begin{cases} x_{(\lceil np\rceil)} & np \notin \mathbb{Z} \\[2pt] \tfrac12\left(x_{(np)} + x_{(np+1)}\right) & np \in \mathbb{Z} \end{cases}

Spezialfälle: x0,5x_{0{,}5} = Median, x0,25x_{0{,}25} = unteres, x0,75x_{0{,}75} = oberes Quartil. Die Fünf-Punkte-Zusammenfassung xmin,x0,25,xmed,x0,75,xmaxx_{min}, x_{0{,}25}, x_{med}, x_{0{,}75}, x_{max} fasst die Verteilung kompakt zusammen (Basis des Box-Plots).

Lageregel als Schiefe-Indikator: Je stärker sich xˉ\bar x, xmedx_{med} und xmodx_{mod} unterscheiden, desto schiefer die Verteilung.

Übungsaufgaben

Übungsaufgabe Geometrisches Mittel als R-Funktion schreiben leicht Übung 9, Aufgabe 2

Schreibe in R eine Funktion geom.Mittel, die für positive Daten x1,,xnx_1,\dots,x_n das geometrische Mittel

xˉgeom=x1x2xnn\bar x_{geom}=\sqrt[n]{x_1\cdot x_2\cdots x_n}

berechnet. Teste deine Funktion anschließend mit den Daten x=2,8,4x=2,8,4.

Rgeometrisches MittelFunktion schreibenprod
R R-Lösung anzeigen
R
geom.Mittel <- function(x){
  n <- length(x)
  prod(x)^(1/n)          # n-te Wurzel aus dem Produkt
}
geom.Mittel(x = c(2, 8, 4))
Ausgabe
[1] 4

Lösung

0/5 aufgedeckt
Quellen:K02 S.65, K02 S.67, K02 S.70, K02 S.75, K02 S.76, K02 S.80, K02 S.83, K02 S.88

Abruf-Quiz

Frage 1 / 3

Median der Werte 1,0,3,4,4,2,0,3,0,51,0,3,4,4,2,0,3,0,5? (n=10, geordnet)