Statistik

Kapitel 3 · Bivariate deskriptive Statistik

Kontingenztafeln & bedingte Häufigkeiten

📄 Folien:alle Materialien →

Bivariate Daten

Werden an jeder statistischen Einheit zwei Merkmale XX und YY gemeinsam erhoben, spricht man von bivariaten Daten (xi,yi)(x_i, y_i). Die Kernfrage: Gibt es einen Zusammenhang? — als Korrelation (XYX \leftrightarrow Y) oder Regression (XYX \to Y).

Die Kontingenztafel

Für diskrete Merkmale mit Ausprägungen a1,,aka_1,\dots,a_k (X) und b1,,bmb_1,\dots,b_m (Y) zählt man die gemeinsamen Häufigkeiten hij=h(ai,bj)h_{ij} = h(a_i, b_j) und ergänzt um die Randhäufigkeiten:

hi.=j=1mhij,h.j=i=1khij,i,jhij=nh_{i.} = \sum_{j=1}^m h_{ij}, \qquad h_{.j} = \sum_{i=1}^k h_{ij}, \qquad \sum_{i,j} h_{ij} = n

Beispiel »Bier & Kopfweh« (n=91n = 91):

Bierkein Bierhi.h_{i.}
Kopfweh164056
kein Kopfweh72835
h.jh_{.j}236891

Bedingte relative Häufigkeiten

Hält man X=aiX = a_i fest, erhält man die bedingte Verteilung von YY:

fY(bjai)=hijhi.f_Y(b_j \mid a_i) = \frac{h_{ij}}{h_{i.}}

So wird die Verteilung innerhalb einer Teilgruppe sichtbar. Beispiel: Von den 56 Personen mit Kopfweh hatten 16/560,2916/56 \approx 0{,}29 Bier getrunken. Erst der Vergleich mit der Gruppe ohne Kopfweh (7/35=0,207/35 = 0{,}20) deutet auf einen Zusammenhang — den wir im nächsten Abschnitt messbar machen.

Übungsaufgaben

Übungsaufgabe Kontamination & Steril-Schulung — χ², Kontingenzkoeffizient mittel Übung 5, Aufgabe 1

In einem mikrobiologischen Labor wurden für 1000 Kultivierungen die Merkmale „Kontamination” und „Steril-Schulung” erhoben:

Schulung jaSchulung nein
Kontamination ja3070
Kontamination nein570330

a) Bestimme die Randhäufigkeiten und interpretiere sie. b) Berechne die bedingten relativen Häufigkeitsverteilungen von „Kontamination” unter der Bedingung „Steril-Schulung”. c) Sind die Merkmale unabhängig? Bestimme χ2\chi^2, den Kontingenzkoeffizienten KK und den normierten Koeffizienten KK^*.

KontingenztafelRandhäufigkeitenbedingte HäufigkeitenChi-QuadratKontingenzkoeffizient
R R-Lösung anzeigen
R
tafel <- matrix(c(30, 70, 570, 330), nrow = 2, byrow = TRUE)
rowSums(tafel); colSums(tafel)          # Randhäufigkeiten
prop.table(tafel, margin = 2)           # bedingte rel. Häufigk. je Spalte
chi2 <- chisq.test(tafel, correct = FALSE)$statistic
n <- sum(tafel)
K  <- sqrt(chi2 / (n + chi2))           # Kontingenzkoeffizient
Kstar <- K / sqrt(1/2)                  # normiert (M = 2)
c(chi2 = chi2, K = K, Kstar = Kstar)
Ausgabe
X-squared
 41.66667
chi2.X-squared    K    Kstar
    41.667    0.200    0.283

Lösung

0/7 aufgedeckt
Übungsaufgabe Augen- & Haarfarbe — Kontingenz in R (Farbe.csv) mittel Übung 6, Aufgabe 2

Die Datei Farbe.csv enthält Augen- und Haarfarbe von 592 Personen. Löse in R: a) Lies die Daten als Farbe.df ein. b) Erstelle eine beschriftete Kontingenztabelle. c) Berechne die bedingten relativen Häufigkeiten der „Haarfarbe” gegeben „Augenfarbe”. d) Visualisiere mit Rechteck- und Mosaik-Plot. e) Bestimme χ2\chi^2 und die erwarteten Häufigkeiten. f) Berechne den normierten Kontingenzkoeffizienten KK^*.

📥 Datei: Farbe.csv

RKontingenztafelbedingte HäufigkeitenMosaik-PlotChi-QuadratKontingenzkoeffizient
R R-Lösung anzeigen
R
Farbe.df <- read.csv2("Farbe.csv")
str(Farbe.df)
tab <- table(Farbe.df$Augen, Farbe.df$Haare)
names(dimnames(tab)) <- c("Augenfarbe", "Haarfarbe")
prop.table(tab, margin = 1)          # bedingte rel. Häufigkeiten
mosaicplot(tab, main = "Augen- vs. Haarfarbe")
test <- chisq.test(tab)
test$statistic; test$expected        # Chi-Quadrat & erwartete Häufigkeiten
n <- sum(tab); M <- min(dim(tab))
K <- sqrt(test$statistic / (n + test$statistic))
K / sqrt((M - 1) / M)                # normierter Kontingenzkoeffizient
Ausgabe
'data.frame': 592 obs. of  2 variables:
 $ Augen: chr  ...
 $ Haare: chr  ...
# X-squared gross -> deutlicher Zusammenhang

Lösung

0/7 aufgedeckt
Quellen:K02 S.117, K02 S.119, K02 S.123, K02 S.125, K02 S.130, K02 S.132

Abruf-Quiz

Frage 1 / 2

Was sind Rand- bzw. Zeilen-/Spaltensummen einer Kontingenztafel?