Kapitel 3 · Bivariate deskriptive Statistik
Kontingenztafeln & bedingte Häufigkeiten
Bivariate Daten
Werden an jeder statistischen Einheit zwei Merkmale und gemeinsam erhoben, spricht man von bivariaten Daten . Die Kernfrage: Gibt es einen Zusammenhang? — als Korrelation () oder Regression ().
Die Kontingenztafel
Für diskrete Merkmale mit Ausprägungen (X) und (Y) zählt man die gemeinsamen Häufigkeiten und ergänzt um die Randhäufigkeiten:
Beispiel »Bier & Kopfweh« ():
| Bier | kein Bier | ||
|---|---|---|---|
| Kopfweh | 16 | 40 | 56 |
| kein Kopfweh | 7 | 28 | 35 |
| 23 | 68 | 91 |
Bedingte relative Häufigkeiten
Hält man fest, erhält man die bedingte Verteilung von :
So wird die Verteilung innerhalb einer Teilgruppe sichtbar. Beispiel: Von den 56 Personen mit Kopfweh hatten Bier getrunken. Erst der Vergleich mit der Gruppe ohne Kopfweh () deutet auf einen Zusammenhang — den wir im nächsten Abschnitt messbar machen.
Übungsaufgaben
Übungsaufgabe Kontamination & Steril-Schulung — χ², Kontingenzkoeffizient
In einem mikrobiologischen Labor wurden für 1000 Kultivierungen die Merkmale „Kontamination” und „Steril-Schulung” erhoben:
| Schulung ja | Schulung nein | |
|---|---|---|
| Kontamination ja | 30 | 70 |
| Kontamination nein | 570 | 330 |
a) Bestimme die Randhäufigkeiten und interpretiere sie. b) Berechne die bedingten relativen Häufigkeitsverteilungen von „Kontamination” unter der Bedingung „Steril-Schulung”. c) Sind die Merkmale unabhängig? Bestimme , den Kontingenzkoeffizienten und den normierten Koeffizienten .
R R-Lösung anzeigen
tafel <- matrix(c(30, 70, 570, 330), nrow = 2, byrow = TRUE)
rowSums(tafel); colSums(tafel) # Randhäufigkeiten
prop.table(tafel, margin = 2) # bedingte rel. Häufigk. je Spalte
chi2 <- chisq.test(tafel, correct = FALSE)$statistic
n <- sum(tafel)
K <- sqrt(chi2 / (n + chi2)) # Kontingenzkoeffizient
Kstar <- K / sqrt(1/2) # normiert (M = 2)
c(chi2 = chi2, K = K, Kstar = Kstar) X-squared
41.66667
chi2.X-squared K Kstar
41.667 0.200 0.283 Lösung
0/7 aufgedecktÜbungsaufgabe Augen- & Haarfarbe — Kontingenz in R (Farbe.csv)
Die Datei Farbe.csv enthält Augen- und Haarfarbe von 592 Personen. Löse in R:
a) Lies die Daten als Farbe.df ein. b) Erstelle eine beschriftete
Kontingenztabelle. c) Berechne die bedingten relativen Häufigkeiten der
„Haarfarbe” gegeben „Augenfarbe”. d) Visualisiere mit Rechteck- und
Mosaik-Plot. e) Bestimme und die erwarteten Häufigkeiten. f)
Berechne den normierten Kontingenzkoeffizienten .
📥 Datei: Farbe.csv
R R-Lösung anzeigen
Farbe.df <- read.csv2("Farbe.csv")
str(Farbe.df)
tab <- table(Farbe.df$Augen, Farbe.df$Haare)
names(dimnames(tab)) <- c("Augenfarbe", "Haarfarbe")
prop.table(tab, margin = 1) # bedingte rel. Häufigkeiten
mosaicplot(tab, main = "Augen- vs. Haarfarbe")
test <- chisq.test(tab)
test$statistic; test$expected # Chi-Quadrat & erwartete Häufigkeiten
n <- sum(tab); M <- min(dim(tab))
K <- sqrt(test$statistic / (n + test$statistic))
K / sqrt((M - 1) / M) # normierter Kontingenzkoeffizient 'data.frame': 592 obs. of 2 variables:
$ Augen: chr ...
$ Haare: chr ...
# X-squared gross -> deutlicher Zusammenhang Lösung
0/7 aufgedecktAbruf-Quiz
Frage 1 / 2Was sind Rand- bzw. Zeilen-/Spaltensummen einer Kontingenztafel?