Statistik

Kapitel 3 · Bivariate deskriptive Statistik

Regressionsrechnung

📄 Folien:alle Materialien →

Von der Korrelation zur Vorhersage

Liegt eine Wirkungsrichtung nahe (XYX \to Y), beschreibt man YY als Funktion von XX:   yi=β0+β1xi+εi\;y_i = \beta_0 + \beta_1 x_i + \varepsilon_i. Der Fehler ε\varepsilon fängt die Abweichung von Modell und Daten auf.

Kleinste-Quadrate-Methode

Man wählt die Gerade so, dass die Summe der quadrierten vertikalen Abstände minimal wird:

Q(β0,β1)=i=1n(yi(β0+β1xi))2    minQ(\beta_0, \beta_1) = \sum_{i=1}^n (y_i - (\beta_0 + \beta_1 x_i))^2 \;\to\; \min

Ableiten und Nullsetzen liefert die KQ-Schätzer:

b1=i(xixˉ)(yiyˉ)i(xixˉ)2,b0=yˉb1xˉb_1 = \frac{\sum_i (x_i-\bar x)(y_i-\bar y)}{\sum_i (x_i-\bar x)^2}, \qquad b_0 = \bar y - b_1 \bar x

Beachte: b1b_1 hat dasselbe Vorzeichen wie die Kovarianz (und wie rr). Die Gerade geht stets durch den Schwerpunkt (xˉ,yˉ)(\bar x, \bar y).

r = 0.935 (stark) = 0.874ŷ = 1.11 + 0.81·x

Klick setzt einen Punkt, Ziehen verschiebt ihn. Probiere eine Punktwolke mit r ≈ 0 und eine mit einem Ausreißer, der r kippt.

Durchgerechnet: »Schlafverhalten«

Fernsehzeit XX und Tiefschlafdauer YY von 9 Kindern. Aus den Daten: (xixˉ)(yiyˉ)=3,71\sum(x_i-\bar x)(y_i-\bar y) = -3{,}71, (xixˉ)2=8,24\sum(x_i-\bar x)^2 = 8{,}24, xˉ=1,33\bar x = 1{,}33, yˉ=5,56\bar y = 5{,}56. Damit:

b1=3,718,240,45,b0=5,56(0,45)(1,33)6,16b_1 = \frac{-3{,}71}{8{,}24} \approx -0{,}45, \qquad b_0 = 5{,}56 - (-0{,}45)(1{,}33) \approx 6{,}16 Tiefschlaf^=6,160,45Fernsehzeit\widehat{\text{Tiefschlaf}} = 6{,}16 - 0{,}45 \cdot \text{Fernsehzeit}

Interpretation: ohne Fernsehen ca. 6,16 h Tiefschlaf; je Stunde Fernsehen rund 0,45 h weniger. (Im Test gegen den Kern reproduziert.)

Streuungszerlegung

Die Gesamtstreuung von YY zerlegt sich additiv in einen erklärten und einen nicht erklärten (Residuen-)Anteil:

i(yiyˉ)2SST (gesamt)=i(y^iyˉ)2SSR (erkla¨rt)+i(yiy^i)2SSE (Residuen)\underbrace{\sum_i (y_i - \bar y)^2}_{SST\ \text{(gesamt)}} = \underbrace{\sum_i (\hat y_i - \bar y)^2}_{SSR\ \text{(erklärt)}} + \underbrace{\sum_i (y_i - \hat y_i)^2}_{SSE\ \text{(Residuen)}}

Bestimmtheitsmaß und Residuen

Das Bestimmtheitsmaß ist gerade der Anteil der erklärten an der gesamten Streuung:

R2=SSRSST=1SSESST[0,1]R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} \in [0,1]

Bei Einfachregression gilt R2=r2R^2 = r^2. Für das Schlafbeispiel R20,45R^2 \approx 0{,}45.

Die Residuen e^i=yiy^i\hat e_i = y_i - \hat y_i zeigen, wie gut das Modell passt: Ein Residuenplot ohne Muster spricht für ein gutes Modell; ein Trend oder eine sich ändernde Streuung deutet auf Modellverletzungen.

Klausurfalle: R2R^2 ist nicht die Steigung und nicht rr selbst, sondern r2r^2. Und: Eine gut passende Gerade rechtfertigt keine Extrapolation weit außerhalb des Datenbereichs.

Übungsaufgaben

Übungsaufgabe Düngemittel & Ertrag — lineare Regression & R² schwer Übung 7, Aufgabe 1

Zur Wirkung der Düngemittelmenge XX auf den Ertrag YY wurden n=8n=8 Werte erhoben:

xix_i (Dünger)918273645546372
yiy_i (Ertrag)1015303525305045

a) Welcher Zusammenhang ist zu vermuten (allgemeine Funktionsvorschrift)? b) Berechne die Kleinste-Quadrate-Schätzer b0,b1b_0, b_1. c) Gib die Regressionsgerade an und deute die Parameter. g) Beurteile die Anpassung mit dem Bestimmtheitsmaß R2R^2.

lineare RegressionKleinste-QuadrateRegressionsgeradeBestimmtheitsmaßResiduen
R R-Lösung anzeigen
R
duenger <- c(9, 18, 27, 36, 45, 54, 63, 72)
ertrag  <- c(10, 15, 30, 35, 25, 30, 50, 45)
modell <- lm(ertrag ~ duenger)     # Kleinste-Quadrate-Regression
coef(modell)                       # b0, b1
summary(modell)$r.squared          # Bestimmtheitsmaß
plot(duenger, ertrag); abline(modell)
Ausgabe
(Intercept)     duenger
  8.0357143   0.5423280
[1] 0.7697

Lösung

0/7 aufgedeckt
Übungsaufgabe Schlafverhalten — lineare Regression mittel Vorlesung K3 (Beispiel mit verdeckter Lösung)

Für 9 Kinder wurden die Fernsehzeit XX und die Tiefschlafdauer YY (je in Stunden) erhoben:

xix_i0,32,20,50,71,01,83,00,22,3
yiy_i5,84,46,55,85,65,04,86,06,1

Bestimme die KQ-Regressionsgerade von YY auf XX, interpretiere die Koeffizienten und gib das Bestimmtheitsmaß an.

RegressionKleinste-QuadrateBestimmtheitsmaß
R R-Lösung anzeigen
R
fernseh <- c(0.3, 2.2, 0.5, 0.7, 1.0, 1.8, 3.0, 0.2, 2.3)
schlaf  <- c(5.8, 4.4, 6.5, 5.8, 5.6, 5.0, 4.8, 6.0, 6.1)
modell <- lm(schlaf ~ fernseh)   # Kleinste-Quadrate-Regression
coef(modell)                     # b0, b1
summary(modell)$r.squared        # Bestimmtheitsmaß
Ausgabe
(Intercept)     fernseh
  6.1553       -0.4498
[1] 0.4480

Lösung

0/6 aufgedeckt
Übungsaufgabe Bundesliga — Etat vs. Punkte (Regression in R) mittel Übung 8, Aufgabe 3

Die Datei Fussball.csv enthält die Gesamtpunktzahl YY und den Etat XX (in Mio. €) der 18 Bundesligisten der Saison 2008/2009. Löse in R: a) Lies die Daten als Fussball.df ein. b) Zeichne ein Streudiagramm. c) Bestimme b0,b1b_0, b_1 der Regression von YY auf XX. d) Gib die Regressionsgerade an. e) Zeichne sie ein. f) Gib R2R^2 an. g) Erstelle einen Residuenplot.

📥 Datei: Fussball.csv

Rlineare RegressionlmStreudiagrammBestimmtheitsmaßResiduenplot
R R-Lösung anzeigen
R
Fussball.df <- read.csv2("Fussball.csv")
plot(Fussball.df$Etat, Fussball.df$Punkte,
     xlab = "Etat (Mio. Euro)", ylab = "Punkte")
modell <- lm(Punkte ~ Etat, data = Fussball.df)
coef(modell)                       # b0, b1
abline(modell)                     # Regressionsgerade
summary(modell)$r.squared          # Bestimmtheitsmaß
plot(fitted(modell), resid(modell)); abline(h = 0)  # Residuenplot
Ausgabe
# b1 > 0, R^2 mittel bis hoch -> Etat erklaert Punkte teilweise

Lösung

0/6 aufgedeckt
Quellen:K03 S.200, K03 S.205, K03 S.209, K03 S.210, K03 S.212, K03 S.213

Abruf-Quiz

Frage 1 / 4

Schlafverhalten: (xixˉ)(yiyˉ)=3,71\sum(x_i-\bar x)(y_i-\bar y)=-3{,}71, (xixˉ)2=8,24\sum(x_i-\bar x)^2=8{,}24. Wie groß ist die Steigung b1b_1? (2 Nachkommastellen)