Statistik

Kapitel 3 · Bivariate deskriptive Statistik

Kovarianz & Korrelation

📄 Folien:alle Materialien →

Vom Streudiagramm zur Kovarianz

Das Streudiagramm (Scatterplot) zeigt die Punktwolke (xi,yi)(x_i, y_i). Die Abweichungsprodukte (xixˉ)(yiyˉ)(x_i - \bar x)(y_i - \bar y) sind positiv im 1./3. Quadranten (bezogen auf den Schwerpunkt (xˉ,yˉ)(\bar x, \bar y)) und negativ im 2./4. Ihre Summe, geteilt durch nn, ist die empirische Kovarianz:

s~XY=1ni=1n(xixˉ)(yiyˉ)\tilde s_{XY} = \frac{1}{n}\sum_{i=1}^n (x_i - \bar x)(y_i - \bar y)

Sie ist positiv/negativ je nach Richtung — aber nicht normiert (sie hängt von den Maßeinheiten ab). Die Kovarianz mit Nenner n1n-1 heißt sXYs_{XY}.

Pearson-Korrelation

Teilt man die Kovarianz durch das Produkt der Standardabweichungen, erhält man den dimensionslosen Bravais-Pearson-Korrelationskoeffizienten:

r=i(xixˉ)(yiyˉ)i(xixˉ)2i(yiyˉ)2,1r1r = \frac{\sum_i (x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum_i (x_i-\bar x)^2}\,\sqrt{\sum_i (y_i-\bar y)^2}}, \qquad -1 \le r \le 1

Ziehe selbst Punkte und beobachte rr, die Regressionsgerade und R2R^2 live:

r = 0.935 (stark) = 0.874ŷ = 1.11 + 0.81·x

Klick setzt einen Punkt, Ziehen verschiebt ihn. Probiere eine Punktwolke mit r ≈ 0 und eine mit einem Ausreißer, der r kippt.

Faustregel: r<0,5|r| < 0{,}5 schwach, 0,5r<0,80{,}5 \le |r| < 0{,}8 mittel, 0,8r0{,}8 \le |r| stark.

Spearman, Ausreißer und Anscombe

rr misst nur lineare Zusammenhänge und reagiert empfindlich auf Ausreißer — ein einzelner Punkt kann rr von 0\approx 0 auf nahe 11 ziehen. Das berühmte Anscombe-Quartett zeigt vier völlig verschiedene Punktwolken mit identischem r=0,82r = 0{,}82. Deshalb: rr immer zusammen mit dem Streudiagramm interpretieren.

Für ordinale Daten oder robustere Aussagen nutzt man Spearmans rSPr_{SP} — Pearson angewandt auf die Ränge. Es erfasst monotone Zusammenhänge.

Eine zweite Rangkorrelation ist Kendalls τ\tau: Sie zählt konkordante Paare (gleiche Richtung in xx und yy, CC) gegen diskordante (DD):

τb=CD(C+D+Tx)(C+D+Ty)\tau_b = \frac{C - D}{\sqrt{(C+D+T_x)(C+D+T_y)}}

(Tx,TyT_x, T_y = nur in xx bzw. nur in yy gebundene Paare). τ\tau ist interpretierbar als Differenz der Anteile gleich- und gegenläufiger Paare.

Korrelation ≠ Kausalität

Die wichtigste Klausur- und Lebensfalle: Korrelation misst nur einen statistischen Zusammenhang. Sie sagt nichts über Ursache und Wirkung und nicht über die Richtung (XYX \leftrightarrow Y, nicht XYX \to Y). Eine dritte Variable kann beide treiben (Scheinkorrelation).

Übungsaufgaben

Übungsaufgabe Heringe & Drinks — Korrelation (Pearson & Spearman) mittel Übung 6, Aufgabe 1

Student Johnnie Walker vermutet einen Zusammenhang zwischen der Anzahl konsumierter Heringe YY und der Anzahl der tags zuvor getrunkenen Drinks XX. An n=7n=7 Wochenenden erhob er:

xix_i (Drinks)1097468
yiy_i (Heringe)1287334

a) Zeichne ein Streudiagramm — welcher Zusammenhang ist zu vermuten? b) Ergänze den Schwerpunkt. c) Berechne und interpretiere die Pearson-Korrelation. d) Berechne und interpretiere die Spearman-Korrelation.

StreudiagrammSchwerpunktPearson-KorrelationSpearman-KorrelationRangkorrelation
R R-Lösung anzeigen
R
drinks  <- c(1, 0, 9, 7, 4, 6, 8)
heringe <- c(1, 2, 8, 7, 3, 3, 4)
plot(drinks, heringe, main = "Streudiagramm")
cor(drinks, heringe)                       # Pearson
cor(drinks, heringe, method = "spearman")  # Spearman
Ausgabe
[1] 0.8202869
[1] 0.9198053

Lösung

0/8 aufgedeckt
Quellen:K03 S.151, K03 S.153, K03 S.161, K03 S.169, K03 S.171, K03 S.179, K03 S.180, K03 S.199

Abruf-Quiz

Frage 1 / 4

Punktwolke mit (xixˉ)(yiyˉ)=68\sum(x_i-\bar x)(y_i-\bar y)=68, (xixˉ)2=68\sum(x_i-\bar x)^2=68, (yiyˉ)2=94\sum(y_i-\bar y)^2=94. Wie groß ist Pearsons rr? (2 Nachkommastellen)