Statistik

Kapitel 3 · Bivariate deskriptive Statistik

Zusammenhangsmaße für nominale Merkmale

📄 Folien:alle Materialien →

Idee: beobachtet vs. erwartet

Läge kein Zusammenhang vor, sollten sich die gemeinsamen Häufigkeiten allein aus den Randverteilungen ergeben — das Postulat der empirischen Unabhängigkeit:

h~ij=hi.h.jn\tilde h_{ij} = \frac{h_{i.} \cdot h_{.j}}{n}

Die Diskrepanz zwischen beobachteten hijh_{ij} und erwarteten h~ij\tilde h_{ij} misst der χ²-Koeffizient:

χ2=i=1kj=1m(hijh~ij)2h~ij,χ2[0,)\chi^2 = \sum_{i=1}^k \sum_{j=1}^m \frac{(h_{ij} - \tilde h_{ij})^2}{\tilde h_{ij}}, \qquad \chi^2 \in [0, \infty)

Probiere es: Ändere die Zellen und beobachte, wie χ² und Cramérs V reagieren. Setzt du die beobachteten gleich den erwarteten Werten, wird χ² = 0.

Bierkein BierΣ
Kopfweherw. 14.2erw. 41.856
kein Kopfweherw. 8.8erw. 26.235
Σ236891
χ² = 0.838Cramérs V = 0.096K* = 0.135

χ² misst die Abweichung von der Unabhängigkeit (erwartet = Zeilensumme · Spaltensumme / n). Setzt du die beobachteten gleich den erwarteten Werten, wird χ² = 0. Cramérs V ∈ [0,1] normiert auf den Stichprobenumfang.

Normierung: K, K* und Cramérs V

χ2\chi^2 allein ist schlecht vergleichbar (es wächst mit nn und der Tafelgröße). Daher normiert man mit M=min(k,m)M = \min(k, m):

K=χ2n+χ2,K=KM1M,V=χ2n(M1)K = \sqrt{\frac{\chi^2}{n + \chi^2}}, \qquad K^* = \frac{K}{\sqrt{\frac{M-1}{M}}}, \qquad V = \sqrt{\frac{\chi^2}{n\,(M-1)}}

KK^* und VV liegen in [0,1][0, 1]. Für »Bier & Kopfweh« ergibt sich χ20,84\chi^2 \approx 0{,}84, V0,10V \approx 0{,}10 — also nur ein schwacher Zusammenhang (im Test gegen den Kern reproduziert).

Klausurfalle: Diese Maße messen nur die Stärke, nie die Richtung. Und sie nutzen ausschließlich das Nominalniveau — auch bei höher skalierten Merkmalen. „Positiver Zusammenhang“ ist hier sinnlos.

Übungsaufgaben

Übungsaufgabe Bier & Kopfweh — Kontingenz & χ² mittel Vorlesung K3 (Beispiel mit verdeckter Lösung)

Fiktive Kontingenztafel zu Bierkonsum auf einer Party und Kopfschmerzen am nächsten Tag (n=91n = 91):

Bierkein BierΣ
Kopfweh164056
kein Kopfweh72835
Σ236891

Gibt es einen statistischen Zusammenhang? Berechne den χ²-Koeffizienten und Cramérs V.

KontingenztafelChi-QuadratCramérs V
R R-Lösung anzeigen
R
tafel <- matrix(c(16, 40, 7, 28), nrow = 2, byrow = TRUE)
chisq.test(tafel, correct = FALSE)$statistic   # chi^2
# Cramérs V:
n <- sum(tafel)
sqrt(chisq.test(tafel, correct = FALSE)$statistic / (n * (min(dim(tafel)) - 1)))
Ausgabe
X-squared
0.8378525
X-squared
0.09595393

Lösung

0/6 aufgedeckt
Quellen:K03 S.133, K03 S.135, K03 S.136, K03 S.137, K03 S.138, K03 S.139

Abruf-Quiz

Frage 1 / 3

Tafel [[16,40],[7,28]] (n=91). Welche unter Unabhängigkeit erwartete Häufigkeit h~11\tilde h_{11} gehört in die Zelle „Kopfweh & Bier"? (Zeilensumme 56, Spaltensumme 23)