Statistik

Das große Cheatsheet

Alle klausurrelevanten Formeln, kompakt und mit Mini-Beispielen. Zum Abschreiben auf die erlaubten 3 handgeschriebenen A4-Blätter — Abschreiben ist schon aktiver Abruf.

1Grundlagen & Skalen

Merkmalstypen
qualitativ/quantitativdiskret/stetigqualitativ / quantitativ · diskret / stetig Haarfarbe (qual.), Alter (quant., stetig)
Skalenniveaus
nominalordinalintervallverha¨ltnis\text{nominal} \subset \text{ordinal} \subset \text{intervall} \subset \text{verhältnis} nominal: Farbe · ordinal: Note · metrisch: Länge
Erlaubte Maße
nominal: Modusordinal: +Medianmetrisch: +Mittel, Varianz\text{nominal: Modus} \to \text{ordinal: +Median} \to \text{metrisch: +Mittel, Varianz}
Grundbegriffe
Grundgesamtheit, Stichprobe (n), Merkmal X, Auspra¨gung aj\text{Grundgesamtheit, Stichprobe } (n), \text{ Merkmal } X, \text{ Ausprägung } a_j

2Häufigkeiten & Lage

Absolute/relative Häufigkeit
hj,fj=hjn,hj=n, fj=1h_j,\quad f_j=\dfrac{h_j}{n},\quad \textstyle\sum h_j=n,\ \sum f_j=1
Empir. Verteilungsfunktion
F(x)= ⁣ ⁣ajx ⁣fjF(x)=\!\!\sum_{a_j\le x}\! f_j Anteil der Werte x\le x; Treppenfunktion 0→1
Arithmetisches Mittel
xˉ=1ni=1nxi=jajfj\bar x=\dfrac1n\sum_{i=1}^n x_i=\sum_j a_j f_j 1,2,3xˉ=21,2,3\Rightarrow \bar x=2
Median
xmed=x(n+12) (n ung.), 12(x(n2)+x(n2+1)) (n ger.)x_{med}=x_{(\frac{n+1}{2})}\ (n\text{ ung.}),\ \tfrac12(x_{(\frac n2)}+x_{(\frac n2+1)})\ (n\text{ ger.}) 1,3,5,741,3,5,7\Rightarrow 4
Modus
xmod=ha¨ufigste Auspra¨gungx_{mod}=\text{häufigste Ausprägung}
Geometrisches Mittel
xˉgeom=x1xnn\bar x_{geom}=\sqrt[n]{x_1\cdots x_n} für Wachstumsfaktoren
p-Quantil
xp: mind. p100% darunterx_p:\ \text{mind. } p\cdot100\%\text{ darunter} x0,25x_{0{,}25} unteres Quartil
Lageregel (Schiefe)
xmod<xmed<xˉ  linkssteil (rechtsschief)x_{mod}<x_{med}<\bar x\ \Rightarrow\ \text{linkssteil (rechtsschief)}

2Streuung

Spannweite
R=xmaxxminR=x_{max}-x_{min}
Interquartilsabstand
IQR=x0,75x0,25IQR=x_{0{,}75}-x_{0{,}25} robust gegen Ausreißer
Empirische Varianz
s~2=1ni(xixˉ)2\tilde s^2=\dfrac1n\sum_i (x_i-\bar x)^2
Stichprobenvarianz
s2=1n1i(xixˉ)2s^2=\dfrac{1}{n-1}\sum_i (x_i-\bar x)^2 in R: var(x), sd(x)
Standardabweichung
s=s2s=\sqrt{s^2}
Variationskoeffizient
v=sxˉ (0)v=\dfrac{s}{\bar x}\ (\ge 0) dimensionslos, relativer Vergleich
Gini-Simpson (nominal)
vG=jfj(1fj)v_G=\sum_j f_j(1-f_j)
Histogramm
Ho¨he=hjdj,Fla¨chehj\text{Höhe}=\dfrac{h_j}{d_j},\quad \text{Fläche}\propto h_j bei ungleichen Klassen zählt die Fläche!
Box-Plot Ausreißer
<x0,251,5IQR oder >x0,75+1,5IQR<x_{0{,}25}-1{,}5\,IQR\ \text{oder}\ >x_{0{,}75}+1{,}5\,IQR

3Zusammenhang (bivariat)

Bedingte rel. Häufigkeit
fY(bjai)=hijhif_Y(b_j\mid a_i)=\dfrac{h_{ij}}{h_{i\cdot}}
Erwartete Häufigkeit
h~ij=hihjn\tilde h_{ij}=\dfrac{h_{i\cdot}\,h_{\cdot j}}{n}
Chi-Quadrat
χ2=i,j(hijh~ij)2h~ij\chi^2=\sum_{i,j}\dfrac{(h_{ij}-\tilde h_{ij})^2}{\tilde h_{ij}}
Kontingenzkoeffizient
K=χ2n+χ2,K=K(M1)/MK=\sqrt{\dfrac{\chi^2}{n+\chi^2}},\quad K^*=\dfrac{K}{\sqrt{(M-1)/M}} M=min(Zeilen,Spalten)
Cramérs V
V=χ2n(M1)[0,1]V=\sqrt{\dfrac{\chi^2}{n\,(M-1)}}\in[0,1]
Kovarianz
s~XY=1ni(xixˉ)(yiyˉ)\tilde s_{XY}=\dfrac1n\sum_i (x_i-\bar x)(y_i-\bar y)
Pearson-Korrelation
r=(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2[1,1]r=\dfrac{\sum (x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum (x_i-\bar x)^2}\,\sqrt{\sum (y_i-\bar y)^2}}\in[-1,1]
Spearman
rSP=Pearson auf Ra¨ngenr_{SP}=\text{Pearson auf Rängen} monotoner Zusammenhang, robust
Regression (KQ)
b1=(xixˉ)(yiyˉ)(xixˉ)2,b0=yˉb1xˉb_1=\dfrac{\sum (x_i-\bar x)(y_i-\bar y)}{\sum (x_i-\bar x)^2},\quad b_0=\bar y-b_1\bar x
Bestimmtheitsmaß
R2=SQESQT=r2[0,1]R^2=\dfrac{SQE}{SQT}=r^2\in[0,1] Anteil erklärter Streuung

4Wahrscheinlichkeit

Laplace
P(A)=AΩ=gu¨nstigemo¨glicheP(A)=\dfrac{|A|}{|\Omega|}=\dfrac{\text{günstige}}{\text{mögliche}}
Komplement
P(Aˉ)=1P(A)P(\bar A)=1-P(A)
Additionssatz
P(AB)=P(A)+P(B)P(AB)P(A\cup B)=P(A)+P(B)-P(A\cap B)
Bedingte W.
P(AB)=P(AB)P(B)P(A\mid B)=\dfrac{P(A\cap B)}{P(B)}
Multiplikation
P(AB)=P(AB)P(B)P(A\cap B)=P(A\mid B)\,P(B)
Unabhängigkeit
P(AB)=P(A)P(B)P(A\cap B)=P(A)\,P(B)
Totale W.
P(B)=iP(BAi)P(Ai)P(B)=\sum_i P(B\mid A_i)\,P(A_i)
Satz von Bayes
P(AiB)=P(BAi)P(Ai)kP(BAk)P(Ak)P(A_i\mid B)=\dfrac{P(B\mid A_i)P(A_i)}{\sum_k P(B\mid A_k)P(A_k)}

4Kombinatorik

Fakultät / Binomial
n!,(nk)=n!k!(nk)!n!,\quad \binom nk=\dfrac{n!}{k!\,(n-k)!} R: factorial(n), choose(n,k)
Permutationen
n! (alle anordnen)n!\ \text{(alle anordnen)}
Variationen (Reihenfolge)
o. Wdh. n!(nk)!,m. Wdh. nk\text{o. Wdh. } \dfrac{n!}{(n-k)!},\quad \text{m. Wdh. } n^k
Kombinationen (ohne R.)
o. Wdh. (nk),m. Wdh. (n+k1k)\text{o. Wdh. } \binom nk,\quad \text{m. Wdh. } \binom{n+k-1}{k}

5Zufallsvariablen (diskret)

Erwartungswert
E(X)=μ=xxf(x)E(X)=\mu=\sum_x x\,f(x)
Varianz
Var(X)=x(xμ)2f(x)=E(X2)μ2\operatorname{Var}(X)=\sum_x (x-\mu)^2 f(x)=E(X^2)-\mu^2
Rechenregeln
E(aX+b)=aE(X)+b, Var(aX+b)=a2Var(X)E(aX+b)=aE(X)+b,\ \operatorname{Var}(aX+b)=a^2\operatorname{Var}(X)
Summe (unabh.)
E(X+Y)=E(X)+E(Y), Var(X+Y)=Var(X)+Var(Y)E(X+Y)=E(X)+E(Y),\ \operatorname{Var}(X+Y)=\operatorname{Var}(X)+\operatorname{Var}(Y)
Binomial $B(n,\pi)$
f(x)=(nx)πx(1π)nx, E=nπ, Var=nπ(1π)f(x)=\binom nx \pi^x(1-\pi)^{n-x},\ E=n\pi,\ \operatorname{Var}=n\pi(1-\pi)
Poisson $Po(\lambda)$
f(x)=λxx!eλ, E=Var=λf(x)=\dfrac{\lambda^x}{x!}e^{-\lambda},\ E=\operatorname{Var}=\lambda
Geometrisch
f(x)=(1π)x1π, E=1πf(x)=(1-\pi)^{x-1}\pi,\ E=\dfrac1\pi Warten auf 1. Erfolg (x=1,2,…)
Hypergeometrisch
f(x)=(Mx)(NMnx)(Nn)f(x)=\dfrac{\binom Mx\binom{N-M}{n-x}}{\binom Nn} ohne Zurücklegen
Diskrete Gleichvert.
E=k+12, Var=k2112E=\dfrac{k+1}{2},\ \operatorname{Var}=\dfrac{k^2-1}{12} fairer Würfel

6Stetige Verteilungen

Dichte & Verteilungsfkt.
F(x)=x ⁣f(t)dt,P(a<X<b)=F(b)F(a)F(x)=\int_{-\infty}^{x}\! f(t)\,dt,\quad P(a<X<b)=F(b)-F(a)
Eigenschaften
P(X=x)=0,E(X)=xf(x)dxP(X=x)=0,\quad E(X)=\int x\,f(x)\,dx
Gleichverteilung $U(a,b)$
f=1ba, E=a+b2, Var=(ba)212f=\dfrac{1}{b-a},\ E=\dfrac{a+b}{2},\ \operatorname{Var}=\dfrac{(b-a)^2}{12}
Exponential $Exp(\lambda)$
F(x)=1eλx, E=1λ, Var=1λ2F(x)=1-e^{-\lambda x},\ E=\dfrac1\lambda,\ \operatorname{Var}=\dfrac1{\lambda^2} λ\lambda = Rate, gedächtnislos
Normal $N(\mu,\sigma)$
f(x)=1σ2πe12(xμσ)2f(x)=\dfrac{1}{\sigma\sqrt{2\pi}}e^{-\frac12(\frac{x-\mu}{\sigma})^2}
Standardisieren
Z=XμσN(0,1), F(x)=Φ ⁣(xμσ)Z=\dfrac{X-\mu}{\sigma}\sim N(0,1),\ F(x)=\Phi\!\left(\tfrac{x-\mu}{\sigma}\right)
Symmetrie
Φ(z)=1Φ(z)\Phi(-z)=1-\Phi(z)
Quantil
xp=μ+zpσx_p=\mu+z_p\cdot\sigma

7Schätzen & Konfidenzintervalle

Schätzer
Xˉ=1nXi,  S2=1n1(XiXˉ)2\bar X=\tfrac1n\sum X_i,\ \ S^2=\tfrac{1}{n-1}\sum (X_i-\bar X)^2
Erwartungstreue
E(θ^)=θ (kein syst. Fehler)E(\hat\theta)=\theta\ \text{(kein syst. Fehler)}
Standardfehler
σn bzw. sn\dfrac{\sigma}{\sqrt n}\ \text{bzw.}\ \dfrac{s}{\sqrt n}
KI $\mu$ ($\sigma$ bekannt)
xˉ±z1α/2σn\bar x\pm z_{1-\alpha/2}\,\dfrac{\sigma}{\sqrt n} 95\%: z=1{,}96
KI $\mu$ ($\sigma$ unbek.)
xˉ±t1α/2(n1)sn\bar x\pm t_{1-\alpha/2}(n-1)\,\dfrac{s}{\sqrt n} R: t.test(x)$conf.int
KI Anteil
p^±z1α/2p^(1p^)n\hat p\pm z_{1-\alpha/2}\sqrt{\dfrac{\hat p(1-\hat p)}{n}}
Breite
Niveau, σbreiter; nschmaler (1/n)\text{Niveau}\uparrow,\ \sigma\uparrow \Rightarrow \text{breiter};\ n\uparrow \Rightarrow \text{schmaler }(\propto 1/\sqrt n)

8Hypothesentests

Ablauf
1.H0/H1  2.α  3.Pru¨fgro¨ße  4.Ablehnbereich  5.Wert  6.Entscheidung1.\,H_0/H_1\ \ 2.\,\alpha\ \ 3.\,\text{Prüfgröße}\ \ 4.\,\text{Ablehnbereich}\ \ 5.\,\text{Wert}\ \ 6.\,\text{Entscheidung}
Fehler 1. Art
α=P(H0 verwerfenH0 wahr)\alpha=P(H_0\text{ verwerfen}\mid H_0\text{ wahr})
Fehler 2. Art
β=P(H0 behaltenH1 wahr), Gu¨te=1β\beta=P(H_0\text{ behalten}\mid H_1\text{ wahr}),\ \text{Güte}=1-\beta
Gauß-Test ($\sigma$ bek.)
z=xˉμ0σ/n H0N(0,1)z=\dfrac{\bar x-\mu_0}{\sigma/\sqrt n}\ \overset{H_0}{\sim} N(0,1)
t-Test ($\sigma$ unbek.)
t=xˉμ0s/n t(n1)t=\dfrac{\bar x-\mu_0}{s/\sqrt n}\ \sim t(n-1)
Zweiseitig
z>z1α/2  H0 verwerfen|z|>z_{1-\alpha/2}\ \Rightarrow\ H_0\text{ verwerfen}
Einseitig
z>z1α (bzw. z<z1α)z>z_{1-\alpha}\ (\text{bzw. } z<-z_{1-\alpha})
p-Wert
p<α  H0 verwerfenp<\alpha\ \Rightarrow\ H_0\text{ verwerfen} „nicht signif." ≠ „H0H_0 wahr"

zTabellenwerte (auswendig!)

z-Quantile
z0,90=1,28, z0,95=1,645, z0,975=1,96, z0,99=2,33, z0,995=2,576z_{0{,}90}=1{,}28,\ z_{0{,}95}=1{,}645,\ z_{0{,}975}=1{,}96,\ z_{0{,}99}=2{,}33,\ z_{0{,}995}=2{,}576
σ-Regeln (Normal)
μ±σ ⁣ ⁣68,3%, μ±2σ ⁣ ⁣95,4%, μ±3σ ⁣ ⁣99,7%\mu\pm\sigma\!\approx\!68{,}3\%,\ \mu\pm2\sigma\!\approx\!95{,}4\%,\ \mu\pm3\sigma\!\approx\!99{,}7\%
Faustregeln
kn Klassen; n>30: tzk\approx\sqrt n\ \text{Klassen};\ n>30:\ t\approx z

RR-Befehle kompakt

Vektor / Folge
c(1,2,3); seq(0,1,by=.1); rep(x,3); 1:10
Häufigkeiten
table(x); prop.table(table(x))
Grafik
barplot; pie; hist(x, breaks=); boxplot; plot(x,y,type="l")
Lage/Streuung
mean; median; quantile; var; sd; IQR; range
Zusammenhang
cor(x,y, method="spearman"); chisq.test; lm(y~x); abline
Verteilungen
d/p/q/r + binom, pois, geom, norm, exp, t, chisq
z. B. Normal
pnorm(x,m,s); qnorm(.975); dnorm; rnorm(n)
KI / Test
t.test(x, mu=); binom.test(k,n); prop.test
Einlesen
read.table(f, header=TRUE, sep=";", dec=","); read.csv2
Simulation
set.seed(k); sample(x, n, replace=TRUE)

Hinweis: In der Klausur sind nur selbst handgeschriebene Blätter erlaubt — dieses PDF dient als Vorlage zum Abschreiben. Nutze den Formelblatt-Planer, um die Auswahl zu kuratieren.