Binomialverteilung

Bei der Binomialverteilung handelt es sich um eine diskrete Wahrscheinlichkeitsverteilung. Sie beschreibt die Wahrscheinlichkeit eines so genannten Bernoulli-Prozesses. Dabei handelt es sich um eine Folge gleicher Zufallsversuche, die nur 2 mögliche Ergebnisse haben.

Das in diesem Zusammenhang immer erwähnte Beispiel ist der klassische Münzwurf. Dieser besitzt nur 2 mögliche Ergbnisse, nämlich Kopf oder Zahl mit der Wahrscheinlichkeit \( p = 0.5 \) Allgemein lässt sich ein Bernoulli-Prozess als eine Abfolge von Erfolg und Misserfolg interpretieren. So ist zum Beispiel das Würfeln einer Sechs ebenfalls ein Bernoulli-Experiment mit Erfolg: \( p(6) = \frac{1}{6} \) und Misserfolg: \( p(1,2,3,4,5) = \frac{5}{6} \) Die Binomialverteilung gibt die Wahrscheinlichkeit für \( k \) Erfolge bei \( n \) Versuchen an: \[ P(N=k) = {n\choose k} p^k (1-p)^{n-k} \]

Ein wichtiger Bestandteil der Binomialverteilung ist der Binomialkoeffizient: \[ {n\choose k} = \frac{n!}{k! (n-k)!} \] Der Binomialkoeffizient ist Bestandteil der Kombinatorik und gibt an, wieviele Möglichkeiten es gibt, \( k \) Objekte aus einer Menge \( n \) zu ziehen. Bildhaft entspricht das einem Ziehen ohne zurücklegen und ohne Berücksichtigung der Reihenfolge. Ein Beispiel ist der Binomialkoeffizient \( {49\choose 6} \) welcher den möglichen Ziehungen beim Lotto entspricht.

Erwartungswert

Für den Erwartungswert einer diskreten Zufallsvariablen gilt: \[ E(X) = \sum_i x_ip_i \] Dabei ist \( X \) eine Zufallsvariable, die die Werte \( x_1,x_2,\dots \) mit den jeweiligen Wahrscheinlichkeiten \( p_1,p_2,\dots \) annehmen kann. Als Beispiel betrachten wir das 5-malige werfen einer fairen Münze: Die Wahrscheinlichkeit, dass man genau einmal Kopf erhält, berechnet sich über die Binomialverteilung: \begin{equation*} P(1) = {5\choose 1} 0.5^1 (1-0.5)^{5-1} = 0.15625 \end{equation*}

\(x_i\) 0 1 2 3 4 5
\(p_i\) 0.03125 0.15625 0.3125 0.3125 0.15625 0.03125

Der Erwartungswert: \[ E(X) = 0.15625 + 5*0.3125 + 4*0.15625 + 5*0.03125 = 2.5 \] Der Erwartungswert der Binomialverteilung ist also gegeben durch: \[ E(X) = n*p \] was auch der allgemeinen Intuition entspricht.

Varianz

Die Varianz einer Binomialverteilung ist gegeben durch: \[ Var(X) = n*p*(1-p) \] Für unser Beispiel mit dem 5-maligen Münzwurf bedeutet das: \begin{equation*} Var(X) = 5 * 0.5 * (1-0.5) = 1.25 \end{equation*}

Approximation mit Hilfe der Poisson-Verteilung

Wenn man die DNA als zufällige Abfolge von Nukleotiden (A T G C) mit den Wahrscheinlichkeiten \( p=0.25 \) betrachtet, dann ist die Wahrscheinlichkeit für eine Sequenz 5'-GGATAT-3' wie folgt gegeben: \[ P(GGATAT) = P(G)*P(G)*P(A)*P(T)*P(A)*P(T) = (0.25)^5 \approx 0.00024 \] dies ergibt sich aus der statistischen Unabhängigkeit, welche in unserem DNA-Modell vorausgesetzt wird. Die Wahrscheinlichkeit für eine spezifische Sequenz von 6 Nukleotiden ist also wie erwartet sehr klein. Wenn man nun ein DNA-Molekühl der Länge 100,000 Basenpaare betrachtet, dann erwarten wir \( E(X) = 0.00024 * 100,000 = 24 \) Motive. Betrachten wir nun die Varianz: \( Var(X) = n*p*(1-p) = 23.994 \) Man stellt fest, dass wenn die Erfolgswahrscheinlichkeit \( p \) sehr klein und die Menge \( n \) sehr groß ist, dann ist \( E(X) \approx Var(X) \). Zur Vereinfachung setzen wir deshalb \( \lambda = n*p \). Für die Binomialverteilung ergibt sich dann folgendes durch algebraische Umformungen: \[ \begin{aligned} P(N=k) &= {n\choose k} p^k (1-p)^{n-k} \\ &= \frac{n!}{k!(n-k)!} * p^k * (1-p)^{n-k} \\ &= \frac{n}{1}*\frac{n-1}{2}*\frac{n-2}{3}*\dots*\frac{n-(k-1)}{k}*p^k*(1-p)^{n-k} \\ &= \frac{n*(n-1)*(n-2)*\dots*(n-k+1)}{k!}*p^k*(1-p)^{n-k} \\ &= \frac{n*(n-1)*(n-2)*\dots*(n-k+1)}{k!(1-p)^k} * p^k*(1-p)^n \end{aligned} \] Weil \( p \) sehr klein ist, nehmen wir folgendes an: \( (1-p)^k \approx 1 \) und weil \( n \) sehr groß ist, kann man folgendes annehmen: \( n*(n-1)*(n-2)\dots(n-k+1) \approx n^k \) Mit diesen Annahmen lässt sich die Formel weiter vereinfachen: \[ \begin{aligned} P(N=k) &\approx \frac{(np)^k}{k!}*(1-p)^n \\ &= \frac{\lambda{}^k}{k!} * \left(1-\frac{\lambda}{n}\right)^n \end{aligned} \] Wenn die Menge gegen unendlich geht, dann gilt folgender Grenzwert: \[ \lim\limits_{n \rightarrow \infty}{\left(1-\frac{\lambda}{n}\right)^n = e^{-\lambda}} \] Wenn also \( n \) ausreichend groß ist (meistens größer als \( 10^4 \) als Richtwert), dann kann man die Binomial-Verteilung sehr gut mit der Poisson-Verteilung approximieren: \[ P(N=k) \approx \frac{\lambda{}^k}{k!}*e^{-k} \] Bei der Poisson-Verteilung gilt für Erwartungswert und Varianz: \[ E(N) = Var(N) = \lambda \]

Der zentrale Grenzwertsatz

Eigentlich handelt es sich hierbei um eine Sammlung verschiedener Konvergenzaussagen, jedoch wird die für Praxis wichtigste häufig einfach nur als zentraler Grenzwertsatz bezeichnet.

Der zentrale Gernzwertsatz setzt unabhängige und identisch verteilte Zufallsvariablen voraus, deren Erwartungswert und Varianz endlich sind.

Wenn diese Voraussetzungen erfüllt sind, dann ist die normierte und zentrierte Summe einer ausreichend großen Anzahl von Zufallsvariablen in guter Näherung Standard-Normalverteilt. Mit Hilfe des zentralen Grenzwertsatzes kann man also bei einer ausreichend großen Stichprobe die Normalverteilung als Approximation verwenden. Damit die vorher vorgestellte Poisson-Verteilung in eine Normalverteilung übergeht, muss Ereignisrate \( \lambda \) ausreichend groß sein. Beispiele werden den Übergang versuchen zu verdeutlichen!

Normalverteilung

Die Normalverteilung wird auch Gauß-Verteilung genannt und es handelt sich wegen dem zentralen Grenzwertsatz um die wichtigste kontinuierliche Wahrscheinlichkeitsverteilung. Da es sich bei den meisten Prozessen in der Biologie, Physik, Medizin etc. um eine Überlagerung einer großen Anzahl verschiedener Einflüsse handelt, welche aber im Verhältnis einen nicht zu starken Einfluss haben, gilt häufig exakt oder in sehr guter Näherung die Normalverteilung.

Standardnormalverteilung / Z-Statistik

Bei der Standardnormalverteilung handelt es sich um eine normierte und zentrierte Normalverteilung mit dem Erwartungswert \( E(X)=0 \) und der Varianz \( Var(X)=1 \). Die Standardnormalverteilung ist die Grundlage der Z-Statistik und es lässt sich jede Normalverteilung in eine Standardnormalverteilung transformieren. Die Standardnormalverteilung N(0,1) ist dabei durch folgende Wahrscheinlichkeitsdichtefunktion gegeben: \[ \phi(z) = \frac{1}{\sqrt{2\pi}}*e^{-\frac{1}{2}z^2} \ \ \text{mit} \ \ -\infty < z < \infty \] mit Hilfe dieser Wahrscheinlichkeitsdichte lässt sich die Wahrscheinlichkeit \( \Phi(z) \) für \( Z\leq z \) wie folgt berechnen: \[ \Phi(z) = P(Z\leq z) = \int_{-\infty}^{z}\phi(x)\, dx \] Man beachte hier, dass es sich bei \( \phi(z) \) um die Wahrscheinlichkeitsdichte handelt und bei \( \Phi(z) \) um die Wahrscheinlichkeit, dass \( Z \) im Intervall \( (-\infty,z] \) liegt. Um die Wahrscheinlichkeit mit Hilfe einer Wahrscheinlichkeitsdichte zu erhalten, muss man das Integral ausrechnen, wobei einem Tabellen und Programme das Berechnen abnehmen. Eine beliebige Normalverteilung \( N(\mu,\sigma^2)\) lässt sich wie folgt in eine Z-Statistik normieren: \[ Z = \frac{X-\mu}{\sigma} \]

Das Konfidenzintervall

Das Konfidentintervall wird treffender weise auch Vertrauensbereich genannt. Dabei handelt es sich um ein Intervall um einen Schätzwert mit einer bestimmten Breite, wo mit einer gewünschten Wahrscheinlichkeit auch der wahre Wert der Grundgesamtheit liegt. So steht man immer vor dem Problem, dass zum Beispiel ein Messgerät niemals genau misst. Mit Hilfe einer Schätzfunktion und dem Messgerät bestimmen wir eine Schätzung des wahren Wertes. Wie die Intuition einem rät, wird die Schätzung besser, wenn man die Messung wiederholt und einen Mittelwert bildet. Mit Hilfe der Wiederholung kann man außerdem die Streuung der Messwerte ermitteln. Durch die Natur der natürlichen Prozesse -- beschrieben im Teil zum zentralen Grenzwertsatz -- entsprechen die Messwerte mindestens in guter Näherung einer Normalverteilung. Diese lässt sich wieder in eine N(0,1) Standardnormalverteilung überführen, wo wir mit Hilfe der Z-Statistik die Intervallgrenzen für beliebige Konfidenzintervall erhalten. Ziel in einem Versuch ist es dabei, die Varianz/Streuung der Messwerte bei der Messung möglichst zu verringern, weil dann auch das Konfidenzintervall schmaler wird. Eine Übung wird dies später verdeutlichen. Das Konfidenzintervall benötigt man außerdem noch bei der Entscheidung über die Signifikanz zweier Werte. So sollte man sich immer die Frage stellen, ob 2 Messwerte unterschiedlich sind, weil es 2 unterschiedliche Prozesse sind, oder ob es nur am ungenauen Messgerät liegt. Man berechnet einfach das Konfidenzintervall von 2 Werten und wenn diese sich nicht überschneiden, geht man von einem signifikanten Unterschied aus. Dabei legt natürlich die Breite des Konfidenzintervalls die Höhe der Signifikanz fest. So spricht man z.Bsp. bei 99% Konfidenzintervallen, die sich nicht überschneiden von hoch signifikant.

t-Statistik für kleine Stichproben

Im Großteil der Fälle muss man mit Hilfe von Stichproben die statistischen Größen einer Grundgesamtheit schätzen und dann ist es immer von Vorteil, möglichst viele Messungen durchzuführen. Aber leider ist in der Realität aus Kostengründen nicht immer eine riesige Stichprobe möglich. Was passiert bei kleinen Stichproben? Wir gehen davon aus, dass die Messwerte wieder normalverteilt sind, weil es sich um einen natürlichen Prozess handelt. Jetzt erstellen wir eine Stichprobe mit 3 Messwerten und auch wenn extreme Werte unwahrscheinlicher sind, passiert es, dass wir einen extremen Ausreißer in unserer Stichprobe haben. Würden wir jetzt unendlich viele Messungen machen, wäre dessen Beitrag zur Statistik unbedeutend, aber genau das ist das Problem einer kleinen Stichprobe, man überbewertet diesen Extremwert beim Schätzen der Varianz. Als Folge ist unsere resultierende Verteilung der Mittelwerte kleiner Stichproben zu flach und zu breit. Das Konfidenzintervall, in dem mit einer gewünschten Wahrscheinlichkeit der wahre Mittelwert \( \mu \) ist dadurch breiter! Die t-Statistik korrigiert die Breite der Konfidenzintervalle für kleine Stichproben und geht mit \( n\rightarrow\infty \) natürlich in eine Standardnormalverteilung über.

Rechenbeispiel

Binomialverteilung

Wir betrachten eine idealisierte DNA-Sequenz, wobei die Wahrscheinlichkeit für alle 4 Basen gleich ist ( \(p=0.25\) ) und die einzelnen voneinander unabhängig und identisch verteilt sind. Diese Voraussetzungen kürzt man auch häufig mit iid ab. (independent and identical distributed). Wir betrachten zufällige DNA-Sequenzen der Länge 50 bp und wollen die wissen, wie hoch der \( GC \) Gehalt dieser Sequenzen ist. Um einen Einblick in die Verteilung des \( GC \) Gehaltes zufälliger Sequenzen zu erhalten, betrachten wir 10 verschiedene Sequenzen. Für solche Fragestellungen eignet sich die frei Skriptsprache Gnu R hervorragend, welche für statistische Auswertung entworfen wurde. Starten Sie R in der Konsole, indem Sie einfach: R als Befehl eingeben. Das gestellte Problem lässt sich mit Hilfe der Binomialverteilung lösen. Die Wahrscheinlichkeit für ein \( G \) oder ein \( C \) ist \( p=0.5 \) und der entsprechende Befehl für die Simulation eines Binomialprozesses unter R ist: rbinom() Die folgenden Befehle simulieren 10 Sequenzen mit 50 Basenpaaren und der \( GC \)-Gehlat wird anschließend in einem Histogramm ausgegeben:

> x <- rbinom(10,50,0.5)
> hist(x)

Die erste Zeile simuliert den Binomialprozess und speichert das Ergebnis mit <- in der Variablen x ab. Der zweite Befehl erzeugt das Histogramm mit den Standardeinstellungen. Als nächstes Berechnen wir den Erwartungswert \( \bar{X} \) und die Varianz \( s^2 \) unserer Stichprobe und vergleichen das Ergebnis mit dem theoretischen Werten: \( \mu = n*p = 50*0.5 = 25 \) und \( \sigma^2 = n*p*(1-p) = 12.5 \)

> mean(x)
> sd(x)^2

Der erste Befehl gibt den Mittelwert über alle Stichproben aus und der zweite Befehl gibt die Varianz aus. Dabei berechnet sd(x) erstmal nur die Standardabweichung, welche dann noch mit ^2 quadriert werden muss. Der Vergleich mit den theoretischen Werten zeigt, dass unsere Schätzung mit unserem Beispiel nicht perfekt ist. Wiederholen Sie die Simulation mit 100 zufälligen Sequenzen rbinom(100,50,0.5) und vergleichen Sie nochmals den Erwartungswert und die Varianz mit den theoretischen Werten.

Poisson-Verteilung

Wir bleiben bei der idealisierten DNA-Sequenz und interessieren uns diesmal, wie es mit der Verteilung von Dinukleotiden aussieht. Im Detail wollen wir wissen, wie häufig das Dinukleotid \( GpG \) ist. Durch die statistische Unabhängigkeit ist die Wahrscheinlichkeit für dieses Dinukleotid \( p(GpG) = p(G)*p(C) = 0.0625 \). Nutzen Sie die Binomialverteilung und simulieren Sie in R 100 Stichproben mit 50 Basenpaaren und schauen Sie sich das Histogramm an und berechnen Sie Erwartungswert und Varianz und vergleichen Sie die Werte mit den theoretischen Werten. Als letztes interessieren wir uns für das Motiv \( GCGCGC \) mit \( p=0.00024 \). Mit Hilfe der Formel für die Binomialverteilung lässt sich die Wahrscheinlichkeit für \( k=3 \) solcher Motive in einer Sequenz verschiedener Länge berechnen. Dies soll mit dem Ergebnis der Posissonverteilung verglichen werden. Für die Posissonverteilung gilt: \( \lambda = n*p \) Zum Berechnen der einzelnen Wahrscheinlichkeiten nutzen wir die R-Funktionen \verb+dbinom()+ und \verb+dpois()+ welche die Wahrscheinlichkeit für \( P(N=k) \) ausrechnen. Für eine Sequenz von 100 bp ergibt sich mit R folgendes:

> p <- 0.00024
> n <- 100
> dbinom(3,n,p)
[1] 2.183897e-06

> lambda <- n * p
> dpois(3,lambda)
[1] 2.249362e-06

Die Abweichung von Binomialverteilung und Poissonverteilung ist in diesem Beispiel ca. 3%. Jedoch gilt die Poissonverteilung auch erst als gute Approximation für längere Sequenzen. Wiederholen Sie die Rechnung in R mit n <- 10000 Diesmal beträgt die Abweichung nur noch 0.01%.

Normalverteilung

Diesmal wollen wir den zentralen Grenzwertsatz illustrieren. Dafür generieren wir mit R 100 binomialverteilte Stichproben mit \( n=50 \) und \( p=0.25 \) und standardisieren die Verteilung.

> p <- 0.25
> n <- 50
> bin1 <- rbinom(100,n,p)
> erwartungswert <- n * p
> stdabw <- sqrt(n * p *(1-p))
> bin2 <- (bin1 - erwartungswert) / stdabw
> hist(bin2,prob=T)

> x <- seq(-4,4,0.1)
> lines(x,dnorm(x))

Im ersten Teil haben Sie 100 Stichproben erzeugt und diese anschließend mit Hilfe des Erwartungswertes und der Standardabweichung standardisiert, welche Sie als Histogramm ausgegeben haben. Im zweiten Teil generieren Sie mit seq(start,stop,step) eine Sequenz von Zahlen mit einer Schrittweite von 0.1 Anschließend plotten Sie in das Histogramm eine Linie mit den x-Koordinaten \( x \) und den y-Koordinaten aus der Funktion dnorm(), welche die entsprechenden Werte der Dichtefunktion der Standardnormalverteilung berechnet. Wiederholen Sie das Beispiel mit n <- 1000 und verdeutlichen Sie sich die bessere Annäherung an die Standardnormalverteilung.

t-Verteilung

Das folgende Beispiel soll zeigen, wie sich die Größe der Stichprobe auf die Verteilung deren Mittelwerte auswirkt. Dafür ziehen wir mit der Funktion rnorm(5,0,3) 5 Werte aus einer Normalverteilung mit N(0,3) und berechnen den Mittelwert dieser Stichprobe mit der Funktion mean(). Mit Hilfe der for() Schleife wiederholen wir diesen Vorgang 1000 mal und geben am Ende ein Histogramm aus.

> a <- rep(0,1000)

> for (i in 1:1000){
+   a[i] <- mean(rnorm(5,0,3))
+   }
> hist(a,prob=TRUE,lty=2,ylim=c(0,1))

> for (i in 1:1000){
+   a[i] <- mean(rnorm(50,0,3))
+   }
> hist(a,prob=TRUE,lty=1,add=TRUE)

Der zweite Teil wiederholt den Vorgang mit einer 10x größeren Stichprobe und fügt das entsprechende Histogramm hinzu. Vergleichen Sie beide Histogramme und verdeutlichen Sie sich, welches zu welcher Stichprobengröße gehört.