Statistik

Kapitel 2 · Univariate deskriptive Statistik

Häufigkeiten

📄 Folien:alle Materialien →

Von der Urliste zur Verteilung

Ausgangspunkt ist die Messung eines Merkmals XX an nn statistischen Einheiten. Das Ergebnis der ii-ten Messung ist xix_i, die gesamte unsortierte Reihe x1,,xnx_1,\dots,x_n heißt Urliste (oder Beobachtungsreihe, Stichprobe).

Absolute und relative Häufigkeit

Für jede mögliche Ausprägung aja_j aus {a1,,ak}\{a_1,\dots,a_k\}:

hj=h(aj)=#{i:xi=aj},fj=f(aj)=hjnh_j = h(a_j) = \#\{i : x_i = a_j\}, \qquad f_j = f(a_j) = \frac{h_j}{n}
  • Die absoluten Häufigkeiten summieren sich zur Gesamtzahl: jhj=n\sum_{j} h_j = n.
  • Die relativen Häufigkeiten summieren sich zu Eins: jfj=1\sum_{j} f_j = 1.

Die Auflistung der Ausprägungen mit ihren Häufigkeiten ist die Häufigkeitsverteilung — klassisch als Tabelle dargestellt.

Beispiel »Maßkrug Bier«

Urliste 1,0,3,4,4,2,0,3,0,51,0,3,4,4,2,0,3,0,5 (n = 10):

Ausprägung aja_j012345
hjh_j311221
fjf_j0,30,10,10,20,20,1

Kontrolle: hj=10=n\sum h_j = 10 = n und fj=1\sum f_j = 1. ✓

Übung: Häufigkeitsverteilung in R

Die Häufigkeitsverteilung lässt sich in R mit einem einzigen Befehl (table) bestimmen. Probiere es an einem binären Merkmal:

Übungsaufgabe Allergie — Häufigkeiten & Diagramme in R leicht Übung 3, Aufgabe 2

Für das Merkmal „Allergie” mit den Ausprägungen „ja” (1) und „nein” (0) wurden bei einer Befragung folgende Daten erhoben (n=35n=35):

0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1

Löse in R: a) Bestimme die absolute Häufigkeitsverteilung. b) Erstelle ein Kreisdiagramm. c) Erstelle ein Säulendiagramm der relativen Häufigkeiten. Beschrifte beide Grafiken angemessen.

Rabsolute Häufigkeitrelative HäufigkeitKreisdiagrammSäulendiagrammnominales Merkmal
R R-Lösung anzeigen
R
Allergie <- c(0,0,1,0,1,0,0,0,1,0,0,0,0,0,0,0,1,0,0,1,0,0,
              0,0,0,0,0,0,0,0,1,1,1,0,1)
table(Allergie)                       # a) absolute Häufigkeiten
pie(table(Allergie), labels = c("nein","ja"),
    main = "Allergie, n = 35")        # b) Kreisdiagramm
barplot(table(Allergie)/length(Allergie),
        names.arg = c("nein","ja"),
        main = "Allergie, n = 35",
        ylab = "rel. Häufigkeit")     # c) Säulendiagramm
Ausgabe
Allergie
 0  1
26  9

Lösung

0/5 aufgedeckt

Nächster Schritt: Diese Verteilung lässt sich grafisch darstellen — und dabei lauert die häufigste Histogramm-Falle.

Quellen:K02 S.30, K02 S.31, K02 S.33, K02 S.34

Abruf-Quiz

Frage 1 / 2

Eine Ausprägung kommt 12-mal in n=48n=48 Beobachtungen vor. Wie groß ist ihre relative Häufigkeit?