Statistik

R-Referenz

Etwa die Hälfte der Klausurpunkte wird in R gelöst. Diese Referenz folgt den Übungsblättern: pro Verfahren der passende Befehl, die erwartete Ausgabe, eine kurze Erklärung und — wo es hilft — eine Vorschau der Grafik.

K1 · Grundlagen, Vektoren & R-Basics

Übung 1

Vektoren erzeugen & indizieren

Ein Vektor bündelt Werte; man rechnet elementweise und wählt per Index oder Bedingung aus.

R
x <- c(4, 8, 15, 16, 23, 42)   # numerischer Vektor
length(x)                      # Anzahl Elemente
x[2]                           # zweites Element
x[x > 15]                      # logische Auswahl
seq(0, 1, by = 0.25)           # Folge
rep(c(0, 1), times = 3)        # Wiederholung
Ausgabe
[1] 6
[1] 8
[1] 16 23 42
[1] 0.00 0.25 0.50 0.75 1.00
[1] 0 1 0 1 0 1

Mathematische Kontrollen

Das 1. Übungsblatt prüft Rechen- und Logik-Ausdrücke direkt in R.

R
factorial(5)        # 5!
choose(49, 6)       # Binomialkoeffizient "49 über 6"
sqrt(16) * 16^(1/4) # Wurzeln
log(exp(4))         # ln und exp
Ausgabe
[1] 120
[1] 13983816
[1] 8
[1] 4

K2 · Häufigkeiten, Grafik, Lage & Streuung

Übung 2–4

Häufigkeiten zählen

table liefert die absolute, prop.table die relative Häufigkeitsverteilung.

R
allergie <- c(rep(0, 26), rep(1, 9))
table(allergie)               # absolute Häufigkeiten
prop.table(table(allergie))   # relative Häufigkeiten
Ausgabe
allergie
 0  1
26  9
        0         1
0.7428571 0.2571429

Diagramme für nominale Merkmale

barplot (Säulen) und pie (Kreis) für qualitative Merkmale — Achsen/Titel nicht vergessen.

R
barplot(table(allergie),
        main = "Allergie, n = 35",
        ylab = "Häufigkeit")
pie(table(allergie),
    labels = c("nein", "ja"))

Histogramm (metrische Daten)

hist bildet Klassen. Mit breaks legst du die Grenzen fest; bei ungleichen Breiten zeigt R die Dichte (Fläche ∝ Häufigkeit).

R
hist(gewicht)                          # Auto-Klassen (Sturges)
hist(gewicht, breaks = seq(50, 110, 5),
     col = heat.colors(12),
     main = "Gewicht, n = 100",
     xlab = "Gewicht (kg)")

Lagemaße

Mittelwert, Median und Quantile beschreiben das Zentrum.

R
x <- rep(c(6, 8, 9, 10, 11), c(1, 4, 5, 8, 2))
mean(x)            # arithmetisches Mittel
median(x)          # Median
quantile(x, 0.25)  # unteres Quartil
fivenum(x)         # Fünf-Punkte-Zusammenfassung
Ausgabe
[1] 9.25
[1] 9.5
 25%
8.75
[1]  6.0  8.5  9.5 10.0 11.0

Streuungsmaße & Box-Plot

boxplot zeigt Median, Quartile, Whisker und Ausreißer auf einen Blick.

R
var(x)     # STICHPROBENvarianz (Teiler n-1)
sd(x)      # Standardabweichung
IQR(x)     # Interquartilsabstand
diff(range(x))  # Spannweite
boxplot(x) # Box-Plot
Ausgabe
[1] 1.460526
[1] 1.208522
[1] 1.25
[1] 5

var/sd teilen durch n−1. Empirische Varianz (Teiler n): var(x) * (n-1)/n.

Funktionen & Daten als Linie

plot(..., type = "l") zeichnet Linien; lines ergänzt weitere Kurven im selben Diagramm.

R
x <- seq(0, 2*pi, length.out = 100)
plot(x, sin(2*x), type = "l", col = "blue", lwd = 2)
lines(x, cos(x))

K3 · Kontingenz, Korrelation & Regression

Übung 5–6

Kontingenztafel & χ²

Randsummen mit rowSums/colSums, Unabhängigkeit über chisq.test.

R
tafel <- matrix(c(16, 40, 7, 28), nrow = 2, byrow = TRUE)
rowSums(tafel); colSums(tafel)               # Randhäufigkeiten
prop.table(tafel, margin = 1)                # bedingte rel. Häufigk. je Zeile
chisq.test(tafel, correct = FALSE)$statistic # Chi-Quadrat-Koeffizient
Ausgabe
[1] 56 35
[1] 23 68
X-squared
0.8378525

Korrelation & Regression

cor für den Zusammenhang, lm für die Kleinste-Quadrate-Gerade, abline zeichnet sie ein.

R
cor(x, y)                       # Pearson
cor(x, y, method = "spearman")  # Spearman (Ränge)
modell <- lm(y ~ x)             # Regression y = b0 + b1*x
coef(modell)                    # b0, b1
summary(modell)$r.squared       # Bestimmtheitsmaß R^2
plot(x, y); abline(modell)      # Streudiagramm + Gerade
Ausgabe
(Intercept)        x
   6.1553   -0.4498
[1] 0.448

K4 · Wahrscheinlichkeit & Kombinatorik

Übung 7–8

Bayes & Simulation

Kombinatorik mit choose/factorial, Zufallsexperimente mit sample.

R
# Bayes: P(krank | positiv)
praev <- 0.01; sens <- 0.99; fpr <- 0.05
p_pos <- sens*praev + fpr*(1-praev)
sens*praev / p_pos
# Simulation: 10000 Würfe, rel. Häufigkeit "Sechs"
mean(sample(1:6, 10000, replace = TRUE) == 6)
Ausgabe
[1] 0.1666667
[1] 0.1657

K5 · Diskrete Verteilungen

Übung 9–10

Diskrete Verteilungen

Schema d/p/q/r + Verteilungsname: d… = P(X=k), p… = P(X≤k).

R
dbinom(2, size = 20, prob = 0.2)   # Binomial P(X = 2)
pbinom(2, size = 20, prob = 0.2)   # P(X <= 2)
dpois(0, lambda = 3)               # Poisson P(X = 0)
dgeom(4, prob = 0.1)               # geometrisch: 4 Misserfolge
Ausgabe
[1] 0.1369334
[1] 0.2060847
[1] 0.04978707
[1] 0.06561

dgeom(k, p) zählt die Misserfolge $k=x-1$ vor dem ersten Erfolg.

K6 · Stetige Verteilungen

Übung 11

Normal- & Exponentialverteilung

pnorm gibt die Fläche links, qnorm das Quantil (z-Wert).

R
pnorm(75, mean = 90, sd = 10)              # P(X < 75)
qnorm(0.975)                               # z-Quantil
pexp(100, rate = 0.01, lower.tail = FALSE) # P(X > 100) = e^-1
qt(0.975, df = 14)                         # t-Quantil
Ausgabe
[1] 0.0668072
[1] 1.959964
[1] 0.3678794
[1] 2.144787

K7 · Schätzen & Konfidenzintervalle

Übung 12–13

Konfidenzintervalle

Direkt aus Quantil und Standardfehler oder bequem über t.test.

R
# KI für mu, sigma bekannt: xbar +/- z * sigma/sqrt(n)
xbar <- 169.5; sigma <- 10; n <- 20
xbar + c(-1, 1) * qnorm(0.975) * sigma/sqrt(n)
# KI aus Daten (sigma unbekannt):
t.test(daten)$conf.int
Ausgabe
[1] 165.1174 173.8826

K8 · Hypothesentests

Übung 14

Hypothesentests

t.test (Mittelwert), binom.test (Anteil); den Gauß-Test rechnet man direkt mit pnorm.

R
t.test(daten, mu = 102)                 # t, df, p-Wert, KI
# manuell: t-Statistik und zweiseitiger p-Wert
t <- (104 - 102) / (5/sqrt(15))
2 * (1 - pt(abs(t), df = 14))
binom.test(8, 10, p = 0.5)$p.value      # exakter Binomialtest
Ausgabe
[1] 0.1436321
[1] 0.109375

Verteilungs-Funktionen auf einen Blick

Für jede Verteilung gibt es vier Funktionen mit demselben Suffix:

PräfixBedeutungBeispiel
dDichte / W-Funktion f(x)dbinom, dnorm
pVerteilungsfunktion F(x)=P(X≤x)pnorm, ppois
qQuantil (Inverse von F)qnorm, qt
rZufallszahlenrbinom, rnorm

Suffixe: binom, pois, geom, hyper, unif, exp, norm, t, chisq, f. Für obere Schwänze lower.tail = FALSE.

💡 Das vollständige, editierbare R-Cheatsheet öffnest du jederzeit über den Button unten rechts.