Kapitel 3 · Bivariate deskriptive Statistik

Regressionsrechnung

Von der Korrelation zur Vorhersage

Liegt eine Wirkungsrichtung nahe ( $X \to Y$ ), beschreibt man $Y$ als Funktion von $X$ : $\;y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$ . Der Fehler $\varepsilon$ fängt die Abweichung von Modell und Daten auf.

Kleinste-Quadrate-Methode

Man wählt die Gerade so, dass die Summe der quadrierten vertikalen Abstände minimal wird:

Q(\beta_0, \beta_1) = \sum_{i=1}^n (y_i - (\beta_0 + \beta_1 x_i))^2 \;\to\; \min

Ableiten und Nullsetzen liefert die KQ-Schätzer:

b_1 = \frac{\sum_i (x_i-\bar x)(y_i-\bar y)}{\sum_i (x_i-\bar x)^2}, \qquad b_0 = \bar y - b_1 \bar x

Beachte: $b_1$ hat dasselbe Vorzeichen wie die Kovarianz (und wie $r$ ). Die Gerade geht stets durch den Schwerpunkt $(\bar x, \bar y)$ .

Durchgerechnet: »Schlafverhalten«

Fernsehzeit $X$ und Tiefschlafdauer $Y$ von 9 Kindern. Aus den Daten: $\sum(x_i-\bar x)(y_i-\bar y) = -3{,}71$ , $\sum(x_i-\bar x)^2 = 8{,}24$ , $\bar x = 1{,}33$ , $\bar y = 5{,}56$ . Damit:

b_1 = \frac{-3{,}71}{8{,}24} \approx -0{,}45, \qquad b_0 = 5{,}56 - (-0{,}45)(1{,}33) \approx 6{,}16

\widehat{\text{Tiefschlaf}} = 6{,}16 - 0{,}45 \cdot \text{Fernsehzeit}

Interpretation: ohne Fernsehen ca. 6,16 h Tiefschlaf; je Stunde Fernsehen rund 0,45 h weniger. (Im Test gegen den Kern reproduziert.)

Streuungszerlegung

Die Gesamtstreuung von $Y$ zerlegt sich additiv in einen erklärten und einen nicht erklärten (Residuen-)Anteil:

\underbrace{\sum_i (y_i - \bar y)^2}_{SST\ \text{(gesamt)}} = \underbrace{\sum_i (\hat y_i - \bar y)^2}_{SSR\ \text{(erklärt)}} + \underbrace{\sum_i (y_i - \hat y_i)^2}_{SSE\ \text{(Residuen)}}

Bestimmtheitsmaß und Residuen

Das Bestimmtheitsmaß ist gerade der Anteil der erklärten an der gesamten Streuung:

R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} \in [0,1]

Bei Einfachregression gilt $R^2 = r^2$ . Für das Schlafbeispiel $R^2 \approx 0{,}45$ .

Die Residuen $\hat e_i = y_i - \hat y_i$ zeigen, wie gut das Modell passt: Ein Residuenplot ohne Muster spricht für ein gutes Modell; ein Trend oder eine sich ändernde Streuung deutet auf Modellverletzungen.

Klausurfalle: $R^2$ ist nicht die Steigung und nicht $r$ selbst, sondern $r^2$ . Und: Eine gut passende Gerade rechtfertigt keine Extrapolation weit außerhalb des Datenbereichs.

Übungsaufgaben

Übungsaufgabe Düngemittel & Ertrag — lineare Regression & R² schwer Übung 7, Aufgabe 1

Zur Wirkung der Düngemittelmenge $X$ auf den Ertrag $Y$ wurden $n=8$ Werte erhoben:

$x_i$ (Dünger)	9	18	27	36	45	54	63	72
$y_i$ (Ertrag)	10	15	30	35	25	30	50	45

a) Welcher Zusammenhang ist zu vermuten (allgemeine Funktionsvorschrift)? b) Berechne die Kleinste-Quadrate-Schätzer $b_0, b_1$ . c) Gib die Regressionsgerade an und deute die Parameter. g) Beurteile die Anpassung mit dem Bestimmtheitsmaß $R^2$ .

lineare RegressionKleinste-QuadrateRegressionsgeradeBestimmtheitsmaßResiduen

R R-Lösung anzeigen

duenger <- c(9, 18, 27, 36, 45, 54, 63, 72)
ertrag  <- c(10, 15, 30, 35, 25, 30, 50, 45)
modell <- lm(ertrag ~ duenger)     # Kleinste-Quadrate-Regression
coef(modell)                       # b0, b1
summary(modell)$r.squared          # Bestimmtheitsmaß
plot(duenger, ertrag); abline(modell)

Ausgabe

(Intercept)     duenger
  8.0357143   0.5423280
[1] 0.7697

Lösung

0/7 aufgedeckt

↗ Aufgabe als Einzelseite öffnen

Übungsaufgabe Schlafverhalten — lineare Regression mittel Vorlesung K3 (Beispiel mit verdeckter Lösung)

Für 9 Kinder wurden die Fernsehzeit $X$ und die Tiefschlafdauer $Y$ (je in Stunden) erhoben:

$x_i$	0,3	2,2	0,5	0,7	1,0	1,8	3,0	0,2	2,3
$y_i$	5,8	4,4	6,5	5,8	5,6	5,0	4,8	6,0	6,1

Bestimme die KQ-Regressionsgerade von $Y$ auf $X$ , interpretiere die Koeffizienten und gib das Bestimmtheitsmaß an.

RegressionKleinste-QuadrateBestimmtheitsmaß

R R-Lösung anzeigen

fernseh <- c(0.3, 2.2, 0.5, 0.7, 1.0, 1.8, 3.0, 0.2, 2.3)
schlaf  <- c(5.8, 4.4, 6.5, 5.8, 5.6, 5.0, 4.8, 6.0, 6.1)
modell <- lm(schlaf ~ fernseh)   # Kleinste-Quadrate-Regression
coef(modell)                     # b0, b1
summary(modell)$r.squared        # Bestimmtheitsmaß

Ausgabe

(Intercept)     fernseh
  6.1553       -0.4498
[1] 0.4480

Lösung

0/6 aufgedeckt

↗ Aufgabe als Einzelseite öffnen

Übungsaufgabe Bundesliga — Etat vs. Punkte (Regression in R) mittel Übung 8, Aufgabe 3

Die Datei Fussball.csv enthält die Gesamtpunktzahl $Y$ und den Etat $X$ (in Mio. €) der 18 Bundesligisten der Saison 2008/2009. Löse in R: a) Lies die Daten als Fussball.df ein. b) Zeichne ein Streudiagramm. c) Bestimme $b_0, b_1$ der Regression von $Y$ auf $X$ . d) Gib die Regressionsgerade an. e) Zeichne sie ein. f) Gib $R^2$ an. g) Erstelle einen Residuenplot.

📥 Datei: Fussball.csv

Rlineare RegressionlmStreudiagrammBestimmtheitsmaßResiduenplot

R R-Lösung anzeigen

Fussball.df <- read.csv2("Fussball.csv")
plot(Fussball.df$Etat, Fussball.df$Punkte,
     xlab = "Etat (Mio. Euro)", ylab = "Punkte")
modell <- lm(Punkte ~ Etat, data = Fussball.df)
coef(modell)                       # b0, b1
abline(modell)                     # Regressionsgerade
summary(modell)$r.squared          # Bestimmtheitsmaß
plot(fitted(modell), resid(modell)); abline(h = 0)  # Residuenplot

Ausgabe

# b1 > 0, R^2 mittel bis hoch -> Etat erklaert Punkte teilweise

Lösung

0/6 aufgedeckt

↗ Aufgabe als Einzelseite öffnen

Abruf-Quiz

Frage 1 / 4

Schlafverhalten: $\sum(x_i-\bar x)(y_i-\bar y)=-3{,}71$ , $\sum(x_i-\bar x)^2=8{,}24$ . Wie groß ist die Steigung $b_1$ ? (2 Nachkommastellen)