Kapitel 3 · Bivariate deskriptive Statistik

Zusammenhangsmaße für nominale Merkmale

Idee: beobachtet vs. erwartet

Läge kein Zusammenhang vor, sollten sich die gemeinsamen Häufigkeiten allein aus den Randverteilungen ergeben — das Postulat der empirischen Unabhängigkeit:

\tilde h_{ij} = \frac{h_{i.} \cdot h_{.j}}{n}

Die Diskrepanz zwischen beobachteten $h_{ij}$ und erwarteten $\tilde h_{ij}$ misst der χ²-Koeffizient:

\chi^2 = \sum_{i=1}^k \sum_{j=1}^m \frac{(h_{ij} - \tilde h_{ij})^2}{\tilde h_{ij}}, \qquad \chi^2 \in [0, \infty)

Probiere es: Ändere die Zellen und beobachte, wie χ² und Cramérs V reagieren. Setzt du die beobachteten gleich den erwarteten Werten, wird χ² = 0.

	Bier	kein Bier	Σ
Kopfweh	erw. 14.2	erw. 41.8	56
kein Kopfweh	erw. 8.8	erw. 26.2	35
Σ	23	68	91

Normierung: K, K* und Cramérs V

$\chi^2$ allein ist schlecht vergleichbar (es wächst mit $n$ und der Tafelgröße). Daher normiert man mit $M = \min(k, m)$ :

K = \sqrt{\frac{\chi^2}{n + \chi^2}}, \qquad K^* = \frac{K}{\sqrt{\frac{M-1}{M}}}, \qquad V = \sqrt{\frac{\chi^2}{n\,(M-1)}}

$K^*$ und $V$ liegen in $[0, 1]$ . Für »Bier & Kopfweh« ergibt sich $\chi^2 \approx 0{,}84$ , $V \approx 0{,}10$ — also nur ein schwacher Zusammenhang (im Test gegen den Kern reproduziert).

Klausurfalle: Diese Maße messen nur die Stärke, nie die Richtung. Und sie nutzen ausschließlich das Nominalniveau — auch bei höher skalierten Merkmalen. „Positiver Zusammenhang“ ist hier sinnlos.

Übungsaufgaben

Übungsaufgabe Bier & Kopfweh — Kontingenz & χ² mittel Vorlesung K3 (Beispiel mit verdeckter Lösung)

Fiktive Kontingenztafel zu Bierkonsum auf einer Party und Kopfschmerzen am nächsten Tag ( $n = 91$ ):

	Bier	kein Bier	Σ
Kopfweh	16	40	56
kein Kopfweh	7	28	35
Σ	23	68	91

Gibt es einen statistischen Zusammenhang? Berechne den χ²-Koeffizienten und Cramérs V.

KontingenztafelChi-QuadratCramérs V

R R-Lösung anzeigen

tafel <- matrix(c(16, 40, 7, 28), nrow = 2, byrow = TRUE)
chisq.test(tafel, correct = FALSE)$statistic   # chi^2
# Cramérs V:
n <- sum(tafel)
sqrt(chisq.test(tafel, correct = FALSE)$statistic / (n * (min(dim(tafel)) - 1)))

Ausgabe

X-squared
0.8378525
X-squared
0.09595393

Lösung

0/6 aufgedeckt

↗ Aufgabe als Einzelseite öffnen

Abruf-Quiz

Frage 1 / 3

Tafel [[16,40],[7,28]] (n=91). Welche unter Unabhängigkeit erwartete Häufigkeit $\tilde h_{11}$ gehört in die Zelle „Kopfweh & Bier"? (Zeilensumme 56, Spaltensumme 23)

x <- c(3, 1, 4, 1, 5) # Vektor anlegen y <- rep(c(0, 1), times = c(26, 9)) # 26x 0, 9x 1 s <- seq(0, 2*pi, length.out = 100) # gleichmäßige Folge 1:10 # Ganzzahlfolge length(x); sort(x); rev(x) # Länge, sortieren, umkehren x[x > 2] # logische Indizierung

barplot(table(x), main = "Titel", ylab = "h(a)") # Säulen pie(table(x), labels = c("nein", "ja")) # Kreis hist(x) # Histogramm (Auto-Klassen) hist(x, breaks = seq(50, 110, by = 5), # eigene Klassen col = heat.colors(12), xlab = "kg") plot(s, sin(2*s), type = "l", col = "blue", lwd = 2) # Linie lines(s, cos(s)) # weitere Linie ergänzen boxplot(x) # Box-Plot

mean(x) # arithmetisches Mittel median(x) # Median quantile(x, c(.25, .5, .75)) # Quartile quantile(x, 0.9) # 90%-Quantil # Modus: Ausprägung mit größter Häufigkeit names(which.max(table(x)))

var(x) # Stichprobenvarianz (/ (n-1)) sd(x) # Standardabweichung IQR(x) # Interquartilsabstand range(x); diff(range(x)) # Min/Max bzw. Spannweite sd(x) / mean(x) # Variationskoeffizient

dbinom(k, size = n, prob = p) # Binomial P(X = k) pbinom(k, n, p) # P(X <= k) dpois(k, lambda); ppois(k, lambda) dnorm(x, mean, sd); pnorm(x, mean, sd) # Normal qnorm(0.975) # Quantil (z-Wert) rnorm(100, mean = 0, sd = 1) # Zufallszahlen

t.test(x, mu = 0) # t-Test / KI für mu t.test(x, conf.level = 0.95)$conf.int # Konfidenzintervall prop.test(k, n) # Anteilstest chisq.test(table(a, b)) # Unabhängigkeitstest