Kapitel 3 · Bivariate deskriptive Statistik
Regressionsrechnung
Von der Korrelation zur Vorhersage
Liegt eine Wirkungsrichtung nahe (), beschreibt man als Funktion von : . Der Fehler fängt die Abweichung von Modell und Daten auf.
Kleinste-Quadrate-Methode
Man wählt die Gerade so, dass die Summe der quadrierten vertikalen Abstände minimal wird:
Ableiten und Nullsetzen liefert die KQ-Schätzer:
Beachte: hat dasselbe Vorzeichen wie die Kovarianz (und wie ). Die Gerade geht stets durch den Schwerpunkt .
Durchgerechnet: »Schlafverhalten«
Fernsehzeit und Tiefschlafdauer von 9 Kindern. Aus den Daten: , , , . Damit:
Interpretation: ohne Fernsehen ca. 6,16 h Tiefschlaf; je Stunde Fernsehen rund 0,45 h weniger. (Im Test gegen den Kern reproduziert.)
Streuungszerlegung
Die Gesamtstreuung von zerlegt sich additiv in einen erklärten und einen nicht erklärten (Residuen-)Anteil:
Bestimmtheitsmaß und Residuen
Das Bestimmtheitsmaß ist gerade der Anteil der erklärten an der gesamten Streuung:
Bei Einfachregression gilt . Für das Schlafbeispiel .
Die Residuen zeigen, wie gut das Modell passt: Ein Residuenplot ohne Muster spricht für ein gutes Modell; ein Trend oder eine sich ändernde Streuung deutet auf Modellverletzungen.
Klausurfalle: ist nicht die Steigung und nicht selbst, sondern . Und: Eine gut passende Gerade rechtfertigt keine Extrapolation weit außerhalb des Datenbereichs.
Übungsaufgaben
Übungsaufgabe Düngemittel & Ertrag — lineare Regression & R²
Zur Wirkung der Düngemittelmenge auf den Ertrag wurden Werte erhoben:
| (Dünger) | 9 | 18 | 27 | 36 | 45 | 54 | 63 | 72 |
|---|---|---|---|---|---|---|---|---|
| (Ertrag) | 10 | 15 | 30 | 35 | 25 | 30 | 50 | 45 |
a) Welcher Zusammenhang ist zu vermuten (allgemeine Funktionsvorschrift)? b) Berechne die Kleinste-Quadrate-Schätzer . c) Gib die Regressionsgerade an und deute die Parameter. g) Beurteile die Anpassung mit dem Bestimmtheitsmaß .
R R-Lösung anzeigen
duenger <- c(9, 18, 27, 36, 45, 54, 63, 72)
ertrag <- c(10, 15, 30, 35, 25, 30, 50, 45)
modell <- lm(ertrag ~ duenger) # Kleinste-Quadrate-Regression
coef(modell) # b0, b1
summary(modell)$r.squared # Bestimmtheitsmaß
plot(duenger, ertrag); abline(modell) (Intercept) duenger
8.0357143 0.5423280
[1] 0.7697 Lösung
0/7 aufgedecktÜbungsaufgabe Schlafverhalten — lineare Regression
Für 9 Kinder wurden die Fernsehzeit und die Tiefschlafdauer (je in Stunden) erhoben:
| 0,3 | 2,2 | 0,5 | 0,7 | 1,0 | 1,8 | 3,0 | 0,2 | 2,3 | |
|---|---|---|---|---|---|---|---|---|---|
| 5,8 | 4,4 | 6,5 | 5,8 | 5,6 | 5,0 | 4,8 | 6,0 | 6,1 |
Bestimme die KQ-Regressionsgerade von auf , interpretiere die Koeffizienten und gib das Bestimmtheitsmaß an.
R R-Lösung anzeigen
fernseh <- c(0.3, 2.2, 0.5, 0.7, 1.0, 1.8, 3.0, 0.2, 2.3)
schlaf <- c(5.8, 4.4, 6.5, 5.8, 5.6, 5.0, 4.8, 6.0, 6.1)
modell <- lm(schlaf ~ fernseh) # Kleinste-Quadrate-Regression
coef(modell) # b0, b1
summary(modell)$r.squared # Bestimmtheitsmaß (Intercept) fernseh
6.1553 -0.4498
[1] 0.4480 Lösung
0/6 aufgedecktÜbungsaufgabe Bundesliga — Etat vs. Punkte (Regression in R)
Die Datei Fussball.csv enthält die Gesamtpunktzahl und den Etat (in
Mio. €) der 18 Bundesligisten der Saison 2008/2009. Löse in R: a) Lies die
Daten als Fussball.df ein. b) Zeichne ein Streudiagramm. c) Bestimme
der Regression von auf . d) Gib die Regressionsgerade an.
e) Zeichne sie ein. f) Gib an. g) Erstelle einen Residuenplot.
📥 Datei: Fussball.csv
R R-Lösung anzeigen
Fussball.df <- read.csv2("Fussball.csv")
plot(Fussball.df$Etat, Fussball.df$Punkte,
xlab = "Etat (Mio. Euro)", ylab = "Punkte")
modell <- lm(Punkte ~ Etat, data = Fussball.df)
coef(modell) # b0, b1
abline(modell) # Regressionsgerade
summary(modell)$r.squared # Bestimmtheitsmaß
plot(fitted(modell), resid(modell)); abline(h = 0) # Residuenplot # b1 > 0, R^2 mittel bis hoch -> Etat erklaert Punkte teilweise Lösung
0/6 aufgedecktAbruf-Quiz
Frage 1 / 4Schlafverhalten: , . Wie groß ist die Steigung ? (2 Nachkommastellen)