Kapitel 3 · Bivariate deskriptive Statistik

Kontingenztafeln & bedingte Häufigkeiten

Bivariate Daten

Werden an jeder statistischen Einheit zwei Merkmale $X$ und $Y$ gemeinsam erhoben, spricht man von bivariaten Daten $(x_i, y_i)$ . Die Kernfrage: Gibt es einen Zusammenhang? — als Korrelation ( $X \leftrightarrow Y$ ) oder Regression ( $X \to Y$ ).

Die Kontingenztafel

Für diskrete Merkmale mit Ausprägungen $a_1,\dots,a_k$ (X) und $b_1,\dots,b_m$ (Y) zählt man die gemeinsamen Häufigkeiten $h_{ij} = h(a_i, b_j)$ und ergänzt um die Randhäufigkeiten:

h_{i.} = \sum_{j=1}^m h_{ij}, \qquad h_{.j} = \sum_{i=1}^k h_{ij}, \qquad \sum_{i,j} h_{ij} = n

Beispiel »Bier & Kopfweh« ( $n = 91$ ):

	Bier	kein Bier	$h_{i.}$
Kopfweh	16	40	56
kein Kopfweh	7	28	35
$h_{.j}$	23	68	91

Bedingte relative Häufigkeiten

Hält man $X = a_i$ fest, erhält man die bedingte Verteilung von $Y$ :

f_Y(b_j \mid a_i) = \frac{h_{ij}}{h_{i.}}

So wird die Verteilung innerhalb einer Teilgruppe sichtbar. Beispiel: Von den 56 Personen mit Kopfweh hatten $16/56 \approx 0{,}29$ Bier getrunken. Erst der Vergleich mit der Gruppe ohne Kopfweh ( $7/35 = 0{,}20$ ) deutet auf einen Zusammenhang — den wir im nächsten Abschnitt messbar machen.

Übungsaufgaben

Übungsaufgabe Kontamination & Steril-Schulung — χ², Kontingenzkoeffizient mittel Übung 5, Aufgabe 1

In einem mikrobiologischen Labor wurden für 1000 Kultivierungen die Merkmale „Kontamination” und „Steril-Schulung” erhoben:

	Schulung ja	Schulung nein
Kontamination ja	30	70
Kontamination nein	570	330

a) Bestimme die Randhäufigkeiten und interpretiere sie. b) Berechne die bedingten relativen Häufigkeitsverteilungen von „Kontamination” unter der Bedingung „Steril-Schulung”. c) Sind die Merkmale unabhängig? Bestimme $\chi^2$ , den Kontingenzkoeffizienten $K$ und den normierten Koeffizienten $K^*$ .

KontingenztafelRandhäufigkeitenbedingte HäufigkeitenChi-QuadratKontingenzkoeffizient

R R-Lösung anzeigen

tafel <- matrix(c(30, 70, 570, 330), nrow = 2, byrow = TRUE)
rowSums(tafel); colSums(tafel)          # Randhäufigkeiten
prop.table(tafel, margin = 2)           # bedingte rel. Häufigk. je Spalte
chi2 <- chisq.test(tafel, correct = FALSE)$statistic
n <- sum(tafel)
K  <- sqrt(chi2 / (n + chi2))           # Kontingenzkoeffizient
Kstar <- K / sqrt(1/2)                  # normiert (M = 2)
c(chi2 = chi2, K = K, Kstar = Kstar)

Ausgabe

X-squared
 41.66667
chi2.X-squared    K    Kstar
    41.667    0.200    0.283

Lösung

0/7 aufgedeckt

↗ Aufgabe als Einzelseite öffnen

Übungsaufgabe Augen- & Haarfarbe — Kontingenz in R (Farbe.csv) mittel Übung 6, Aufgabe 2

Die Datei Farbe.csv enthält Augen- und Haarfarbe von 592 Personen. Löse in R: a) Lies die Daten als Farbe.df ein. b) Erstelle eine beschriftete Kontingenztabelle. c) Berechne die bedingten relativen Häufigkeiten der „Haarfarbe” gegeben „Augenfarbe”. d) Visualisiere mit Rechteck- und Mosaik-Plot. e) Bestimme $\chi^2$ und die erwarteten Häufigkeiten. f) Berechne den normierten Kontingenzkoeffizienten $K^*$ .

📥 Datei: Farbe.csv

RKontingenztafelbedingte HäufigkeitenMosaik-PlotChi-QuadratKontingenzkoeffizient

R R-Lösung anzeigen

Farbe.df <- read.csv2("Farbe.csv")
str(Farbe.df)
tab <- table(Farbe.df$Augen, Farbe.df$Haare)
names(dimnames(tab)) <- c("Augenfarbe", "Haarfarbe")
prop.table(tab, margin = 1)          # bedingte rel. Häufigkeiten
mosaicplot(tab, main = "Augen- vs. Haarfarbe")
test <- chisq.test(tab)
test$statistic; test$expected        # Chi-Quadrat & erwartete Häufigkeiten
n <- sum(tab); M <- min(dim(tab))
K <- sqrt(test$statistic / (n + test$statistic))
K / sqrt((M - 1) / M)                # normierter Kontingenzkoeffizient

Ausgabe

'data.frame': 592 obs. of  2 variables:
 $ Augen: chr  ...
 $ Haare: chr  ...
# X-squared gross -> deutlicher Zusammenhang

Lösung

0/7 aufgedeckt

↗ Aufgabe als Einzelseite öffnen

Abruf-Quiz

Frage 1 / 2

Was sind Rand- bzw. Zeilen-/Spaltensummen einer Kontingenztafel?