Archiv der Kategorie: Zufallsvariablen

Unabhängigkeit zweier Zufallsvariablen

Das Konzept der Abhängigkeit lässt sich vereinfacht wie folgt beschreiben: Wenn man in einer Stichprobe für jede befragte Person zwei Merkmale erhebt (nennen wir sie \(X\) und \(Y\)), und man anhand des tatsächlichen Wertes von \(X\) eine genauere Vorhersage für \(Y\) machen kann (und umgekehrt), dann spricht man von einer Abhängigkeit zwischen \(X\) und \(Y\).

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Eine Abhängigkeit existiert ohne Richtung. Alle drei folgenden Aussagen bedeuten also das Gleiche:

  • \(X\) ist von \(Y\) abhängig.
  • \(Y\) ist von \(X\) abhängig.
  • \(X\) und \(Y\) sind abhängig.

Ein Beispiel für zwei abhängige Variablen ist \(X\)=Körpergrösse und \(Y\)=Körpergewicht von befragten Personen. Wenn ich die Größe einer Person kenne, kann ich ihr Gewicht besser einschätzen. Zwei unabhängige Variablen wären etwa \(X\)=Körpergewicht und \(Y\)=Hausnummer einer Person, denn die Hausnummer einer Person gibt mir keine Information über ihr Gewicht (und andersrum).

Es ist also bei zwei unabhängigen Variablen die Ausprägung von einem Wert für \(X\) keine Hilfe, um den Wert von \(Y\) vorherzusagen. Mathematisch ausgedrückt: Die Verteilung von \(Y\), gegeben ich kenne \(X\), ist gleich der Verteilung von \(Y\). Und noch kürzer, in einer Formel verpackt, schreiben wir das äquivalent als

\[ \mathbb{P}(Y|X) = \mathbb{P}(Y). \]

Es ist wichtig, im Kopf zu behalten dass eine Abhängigkeit nicht bedeutet, dass die eine Variable die andere beeinflusst. Um das am obigen Beispiel zu erläutern: Die Körpergrösse und das Körpergewicht sind voneinander abhängig. Wenn ich also eine Person habe, die 80kg schwer ist, und eine Person die 50kg schwer ist, dann gehe ich davon aus, dass die 80kg schwere Person etwas größer ist als die 50kg schwere. Das ist die Idee hinter dem Begriff Abhängigkeit. Es heißt aber nicht, dass ich jetzt 30kg zunehmen kann und erwarten darf, dass ich deswegen in die Höhe wachse. Dies unterstellt eine nicht vorhandene Kausalität. Der Unterschied zwischen den beiden Begriffen ist im Artikel „Korrelation und Kausalität“ detaillierter erklärt.

In der folgenden Grafik sind vier Beispiele für Streudiagramme von unabhängigen Zufallsvariablen abgebildet

zufallsvariablen-unabhaengige-ZV

(a) Eine Zählvariable \(Y\) und eine gleichverteilte stetige Variable \(X\)
(b) Zwei Zählvariablen
(c) Zwei stetig gleichverteilte Variablen
(d) Zwei normalverteilte Variablen

Die nächste Grafik zeigt vier beispielhafte Streudiagramme für abhängige Zufallsvariablen, und macht deutlich dass diese Abhängigkeiten nicht immer linear (wie in Grafik (a) dargestellt) sein müssen.

asdf

(a) Das klassische Beispiel: \(X\) und \(Y\) sind linear abhängig.
(b) Hier ist eine quadratische Abhängigkeit zwischen \(X\) und \(Y\) erkennbar
(c) Ein ungewöhnliches Beispiel, aber dennoch eine Abhängigkeit: Falls uns der Wert von \(X\) gegeben wird, lässt uns das eine genauere Aussage für \(Y\) treffen.
(d) Eine beispielhafte (quadratische) Abhängigkeit zwischen einer Zählvariable \(Y\) und einer gleichverteilten Variable \(X\).

In Abbildung (c) wird sehr schön klar, dass die absolute Verteilung von \(Y\) anders ist als die Verteilung von \(Y\), gegeben ich kenne \(X\). Denn es ist zum Beispiel \(Y|X=0.5 \sim N(1, 0.1)\), aber \(Y | X=-1 \sim N(0, 0.1)\). Das bedeutet: Die Verteilung von \(Y\), gegeben X ist 0.5, ist eine Normalverteilung mit Mittelwert 1 (und Standardabweichung 0.1). Falls \(X\) aber zum Beispiel -1 ist, ist die bedingte Verteilung von \(Y\) normalverteilt mit Mittelwert 0 (und Standardabweichung 0.1).

Die mathematische Definition der Unabhängigkeit lautet wie folgt:

Zwei Variablen \(X\) und \(Y\) heißen stochastisch unabhängig, falls für alle \(x\) und alle \(y\) gilt:

\[ f(x,y) = f_X(x) \cdot f_Y(y). \]

Das bedeutet, dass wir bei unabhängigen Variablen die gemeinsame Dichte \(f(x,y)\) berechnen können, indem wir einfach die einzelnen Dichten \(f_X(x)\) und \(f_Y(y)\) multiplizieren. Dazu ein Beispiel:

Angenommen wir werfen eine Münze \(X\) (Ergebnis: 0=Kopf oder 1=Zahl) und anschließend einen Würfel \(Y\) (Ergebnis: 1, 2, 3, 4, 5, oder 6). Diese beiden Zufallsvariablen sind voneinander unabhängig, da es den Würfel nicht interessiert, was das Ergebnis der Münze war. Wir können nun zum Beispiel die Wahrscheinlichkeit berechnen, dass die Münze „Kopf“ (wir kodieren „Kopf“ mit einer 0) zeigt:

\[ \mathbb{P}(X=\text{Kopf}) = f_X(0) = \frac{1}{2} \]

Außerdem können wir die Wahrscheinlichkeit notieren, dass der Würfel eine „1“ zeigt:

\[ \mathbb{P}(Y=1) = f_Y(1) = \frac{1}{6} \]

Rechenregeln für Dichten von unabhängigen Zufallsvariablen

Im Falle von unabhängigen Experimenten (so wie der Münze und dem Würfel oben) können wir nun gemeinsame Wahrscheinlichkeiten ganz einfach berechen: Möchten wir etwa wissen, wie hoch die Wahrscheinlichkeit ist, dass wir zuerst „Kopf“ werfen, und danach eine „3“ würfeln (das heisst, wir möchten \(f(0,3)\) berechnen), können wir die beiden einzelnen Dichten einfach multiplizieren:

\[ f(0, 3) = f_X(0) \cdot f_Y(3) = \frac{1}{2} \cdot \frac{1}{6} = \frac{1}{12} \]

Wenn man sich mit mehr als einem Zufallsexperiment beschäftigt, ist es übrigens hilfreich, die Dichten mit einem Index zu versehen. Ansonsten wüssten wir nämlich nicht, was mit der Dichte \(f(1)\) gemeint ist, der Würfel oder die Münze. Wenn wir stattdessen \(f_X(1)\) schreiben, ist klar, dass die Dichte der Zufallsvariablen \(X\), also der Münze, gemeint ist, und der Wert der Dichte daher \(\frac{1}{2}\) (und nicht \(\frac{1}{6}\)) ist.

Bedingte Dichten für unabhängige Zufallsvariablen machen wenig Sinn. Da uns \(X\) keine Information für die Ausprägung von \(Y\) liefert, ist die bedingte Dichte von \(Y\) gegeben \(X\) genau gleich der (nicht bedingten) Dichte von \(Y\):

\[ f(y|x) = f(y) \]

Die Frage, ob zwei Variablen voneinander abhängig oder unabhängig sind, hat wichtige Auswirkungen darauf, was man mit den beiden Variablen rechnen kann. Man braucht zum Beispiel voneinander abhängige Variablen, um eine Regression zu rechnen, denn wenn zwei Variablen voneinander unabhängig sind, also sich nicht gegenseitig beeinflussen, macht es auch keinen Sinn, eine der beiden Variablen mit Hilfe der anderen vorherzusagen. Für andere Berechnungen sind hingegen voneinander unabhängige Zufallsvariablen die Voraussetzung. Möchte man zum Beispiel den Erwartungswert des Produkts zweier Zufallsvariablen berechnen, gilt die einfache Formel nur im Fall der Unabhängigkeit.

Darstellung und Eigenschaften von stetigen Zufallsvariablen

In diesem Artikel schauen wir uns stetige Zufallsvariablen im Allgemeinen an. Spezielle Verteilungen wie die Exponentialverteilung oder Normalverteilung findet man im Abschnitt „Verteilungen“ im Inhaltsverzeichnis.

zufallsvariablen-stetig-dichte-verteilung

Im linken Bild sieht man ein Beispiel einer Dichte für eine stetige Zufallsvariable. Die gestrichelte Linie markiert den Erwartungswert von X. Rechts ist die Verteilungsfunktion derselben Zufallsvariablen abgebildet. Die gestrichelte Linie hier markiert das 30%-Quantil, das wir genau wie bei diskreten Zufallsvariablen bestimmen.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Dichte

Jede Dichtefunktion einer stetigen Zufallsvariablen hat zwei Eigenschaften:

  1. Die Funktion hat nirgends einen negativen Wert, ist also auf den gesamten reellen Zahlen entweder 0 oder größer als 0. Mathematisch ausgedrückt: \(f(x) \geq 0\) für alle \(x \in \mathbb{R}\).
  2. Die Fläche unter der gesamten Dichtefunktion (ihr Integral) ergibt 1. Das ist analog zur Dichte bei diskreten Zufallsvariablen, wo die Summe aller ihrer einzelnen Wahrscheinlichkeiten 1 ergibt.

Der große Unterschied zwischen diskreten und stetigen Zufallsvariablen ist, dass die Dichte hier, bei stetigen Zufallsvariablen, nicht die Wahrscheinlichkeit für einen beliebigen Punkt repräsentiert. Im stetigen Fall ist es nun so, dass die Wahrscheinlichkeit für ein bestimmtes, festes Ergebnis immer Null ist. Im Beispielbild oben ist etwa \(\mathbb{P}(X=0.237) = 0\).

Im stetigen Fall kann man Wahrscheinlichkeiten nur für Intervalle bestimmen. Man kann also z.B. sagen, dass \(X\) mit 18.2% einen Wert zwischen 1 und 2 annehmen wird: \(\mathbb{P}(X \in [1,2]) = 0.182\). Diese „Wahrscheinlichkeitsmasse“ von 0.182 ist die Fläche unter der Dichte, von 1 bis 2.

zufallsvariablen-stetig-integral

Die Wahrscheinlichkeit, dass das Ergebnis unserer Zufallsvariablen zwischen 1 und 2 liegt, notieren wir mit \(\mathbb{P}(X \in [1,2])\). Wir bestimmen es als die Fläche unter der Dichte, beschränkt auf den Bereich \([1,2]\), hier als braune Fläche dargestellt.

Wie lässt sich diese Fläche nun berechnen? Es handelt sich nicht mehr um Rechtecke oder Trapeze (wie etwa beim Gini-Koeffizienten), sondern um eine glatte Funktion. Daher müssen wir mit dem Integral arbeiten. Die Verteilungsfunktion \(F(x)\) ist im stetigen Fall nun genau das Integral der Dichtefunktion \(f(x)\).

Verteilungsfunktion

Die Verteilungsfunktion \(F(x)\) ist im stetigen Fall genauso definiert wie im diskreten Fall:

\[ F(x) = \mathbb{P}(X \leq x) \]

Sie wird jetzt nicht über die Summe der Dichte berechnet, sondern weil wir ja unendlich mögliche Werte für \(x\) haben, über das Integral der Dichte berechnet.

zufallsvariablen-dichte-zu-integral-1

Links sieht man die Dichtefunktion. Die Wahrscheinlichkeit, dass \(X\) kleiner oder gleich 1.5 ist, entspricht der Fläche unter der Dichte bis zum Wert 1.5 auf der x-Achse. Rechts ist die Verteilungsfunktion \(F(x)\) abgebildet, die genau diese Fläche darstellt.

Es gilt also:

\[ F(x) = \int_{-\infty}^x f(t) dt \]

Wer sich nun wundert, warum wir auf einmal \(f(t)\) statt \(f(x)\) schreiben: Weil wir das \(x\) schon für die Verteilungsfunktion \(F\) verwenden, müssen wir uns bei der Dichte kurzfristig einen neuen Buchstaben überlegen. Ähnlich wie beim Summenzeichen \(\sum\), bei der man meistens die Indexvariable \(i\) einführt, wird hier temporär das Argument \(t\) statt \(x\) verwendet. Der Funktion \(f\) ist es ja egal, wie ihr Argument heißt, sie verarbeitet es einfach und spuckt ihr Ergebnis aus, nämlich die Dichte an dieser Stelle, sei es nun beispielhaft \(x=2.5\) oder \(t=2.5\).

Möchten wir also die Wahrscheinlichkeit wissen, dass \(x\) kleiner oder gleich 1.5 ist, berechnen wir \(\int_{-\infty}^{1.5} f(t) dt\). Das Integral startet immer bei \(-\infty\), egal wo die Dichte tatsächlich beginnt. Die Schreibweise ist einfach allgemeingültiger, für alle möglichen Dichten. Das macht in unserem Fall auch nichts aus, weil \(f(t)\) hier im negativen Bereich 0 ist, also keine Fläche hat.

Oft interessiert uns aber auch die Wahrscheinlichkeit, dass \(X\) zwischen zwei Werten, z.B. zwischen 0.5 und 1.5 liegt. Die Verteilungsfunktion liefert uns aber nur die Wahrscheinlichkeit, dass \(X\) kleiner/gleich einem Wert ist. Hier können wir aber einen Trick anwenden: Wenn wir zuerst \(F(1.5)\) berechnen, und davon dann \(F(0.5)\) abziehen, haben wir genau die gesuchte Wahrscheinlichkeit, \(\mathbb{P}(0.5 \leq X \leq 1.5)\). Die folgenden zwei Bilder ergänzen das erste Bild von oben und visualisieren diese Idee:

zufallsvariablen-dichte-zu-integral-2

Im ersten Schritt (weiter oben) berechneten wir \(\mathbb{P}(X \leq 1.5)\). Hier, im zweiten Schritt, berechnen wir nun \(\mathbb{P}(X \leq 0.5)\), was hier links als braune Fläche dargestellt wird, und rechts als entsprechender Wert der Verteilungsfunktion.

zufallsvariablen-dichte-zu-integral-3

Im letzten Schritt ziehen wir \(F(0.5)\) von \(F(1.5)\) ab. Übrig bleibt die gesuchte Wahrscheinlichkeit \(\mathbb{P}(0.5 \leq X \leq 1.5)\), die im linken Bild als Fläche dargestellt ist, und im rechten als Differenz der beiden Werte auf der y-Achse.

Formel oder Verteilungstabelle?

Die Dichte von allen relevanten Zufallsvariablen ist immer als Formel darstellbar. Es ist zum Beispiel für eine normalverteilte Variable \(X\) die Dichte \(f(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp(-\frac{(x-\mu)^2}{2\sigma^2})\). Bei der Verteilungsfunktion ist das allerdings nicht immer der Fall. Für die Exponentialverteilung existiert eine Formel für die Verteilungsfunktion, da es ein einfach zu berechnendes Integral ist. Für die Normalverteilung allerdings lässt sich die Verteilungsfunktion nicht einfach hinschreiben. In diesem Fall gibt es Verteilungstabellen, die z.B. in 0.01er-Schritten den Wert von \(F(x)\) tabelliert haben. Muss man also von Hand (und das passiert eigentlich nur noch in Klausuren) die Verteilungsfunktion einer Zufallsvariablen bestimmen, kommt es auf die Verteilung an, ob man eine Formel an einem bestimmten Wert \(x\) auswertet, oder in einer Verteilungstabelle für einen bestimmten Wert \(x\) nachsieht.

Quantilsfunktion

Die Quantilsfunktion \(Q(x)\) (manche nennen sie auch einfach nur \(F^{-1}(x)\)) bei stetigen Zufallsvariablen ist nichts anderes als die Umkehrfunktion der Verteilungsfunktion. Die Umkehrfunktion von einer beliebigen Funktion \(y=F(x)\) wird mit \(x=F^{-1}(y)\) bezeichnet. Das bedeutet aber nicht \(\frac{1}{F(x)}\), sondern dass sie von einem Funktionswert \(y\) zurück auf den ursprünglichen Wert \(x\) führt.

Die Umkehrfunktion von \(y=2x+3\) ist zum Beispiel \(x=\frac{1}{2}(y-3)\). Man bildet sie, indem man in der ursprünglichen Formel nach \(x\) auflöst:

\[ \begin{align*} y &= 2x+3\\ y-3 &= 2x \\ \frac{1}{2}(y-3) &= x \end{align*} \]

Genauso macht man das bei der Quantilsfunktion: Man löst die Formel der Verteilungsfunktion nach \(x\) auf. Voraussetzung dafür ist natürlich, dass die Verteilungsfunktion als Formel darstellbar ist. Wenn nicht, muss man (wie oben erklärt) wieder auf Tabellen zurückgreifen. Klassischer Fall dafür ist die Normalverteilung, deren Quantile beim Testen wichtig sind.

Umwandeln von der Dichte zur Verteilungsfunktion/Quantilsfunktion und wieder zurück

Eine Zufallsvariable ist schon eindeutig beschrieben, wenn man nur eine der drei Funktionen (Dichte, Verteilungsfunktion, oder Quantilsfunktion) hat. Man kann nämlich eindeutig zwischen den dreien hin- und herrechnen:

f_F_Q

  • Die Dichte ist die Ableitung der Verteilungsfunktion: \[ f(x) = \frac{d}{dx} F(x) \]
  • Die Verteilungsfunktion ist die Fläche unter der Dichte, d.h. das Integral der Dichte: \[ F(x) = \int_{-\infty}^x f(t) dt \]
  • Die Quantilsfunktion ist die Umkehrfunktion der Verteilungsfunktion: \[ Q(x) = F^{-1}(x) \]
  • Die Verteilungsfunktion ist die Umkehrfunktion der Quantilsfunktion: \[ F(x) = Q^{-1}(x) \]

Erwartungswert

Hinter dem Erwartungswert einer stetigen Zufallsvariable steckt genau dieselbe Idee wie im diskreten Fall. Hier wird lediglich statt der Summe ein Integral verwendet. Im diskreten Fall haben wir über alle möglichen Ausprägungen \(x_i\) multipliziert mit der zugehörigen Dichte \(f(x_i)\) summiert, und hier werden wir stattdessen über alle Ausprägungen \(x\) multipliziert mit der Dichte \(f(x)\) integrieren:

\[ \mathbb{E}(X) = \int_{-\infty}^\infty x \cdot f(x) \; dx \]

Varianz und Standardabweichung

Auch die Varianz ist im stetigen Fall ähnlich aufgebaut wie bei diskreten Zufallsvariablen:

\[ \mathbb{V}(X) = \int_{-\infty}^\infty (x-\mu)^2 f(x) dx, \]

wobei \(\mu = \mathbb{E}(X) = \int_{-\infty}^\infty x f(x) dx\). Man muss zur Berechnung der Varianz also vorher den Erwartungswert bestimmt haben.

Meistens ist es einfacher, statt diesem komplizierten Integral den Verschiebungssatz anzuwenden. Die Varianz ist äquivalent bestimmbar als

\[ \mathbb{V}(X) = \mathbb{E}(X^2) – \mathbb{E}(X)^2. \]

Dabei ist der zweite Teil, \(\mathbb{E}(X)^2\), einfach das Quadrat des Erwartungswertes, aber der erste Teil, \(\mathbb{E}(X^2)\), etwas ganz anderes, nämlich der Erwartungswert von \(X^2\). Das ist eine Transformation der Zufallsvariablen \(X\), deren Erwartungswert wir mit der Transformationsregel bestimmen können:

\[ \mathbb{E}(X^2) = \int_{-\infty}^\infty x^2 f(x) \, dx \]

Dieses Integral ist leichter zu berechnen als das vorherige, und wenn man den Erwartungswert eh schon bestimmt hat, ist man mit dieser Methode meist schneller am Ziel. In der folgenden Beispielaufgabe bestimmen wir u.a. die Varianz, und verwenden beide Methoden, um den Unterschied zu sehen.

Beispielaufgabe

Als Beispiel schauen wir uns eine Zufallsvariable \(X\) und ihre Dichte \(f(x)\) an:

\[ f(x) = \begin{cases} 2x &\mbox{falls } 0 \leq x \leq 1 \\ 0 & \mbox{sonst} \end{cases} \]

Für diese Dichte werden wir nun

  • die Funktion skizzieren
  • nachweisen, dass es sich tatsächlich um eine Dichte handelt
  • ihren Träger bestimmen
  • den Erwartungswert berechnen
  • die Varianz berechnen
  • ihre Verteilungsfunktion bestimmen
  • ihre Quantilsfunktion bestimmen
  • die Wahrscheinlichkeit, dass \(X\) zwischen 0.5 und 0.6 liegt, bestimmen

Skizze der Funktion

Die Dichte \(f(x)\) ist nur im Bereich von 0 bis 1 ungleich Null:

zufallsvariablen-stetige-dichte

Ist es tatsächlich eine Dichte?

Um nachzuweisen dass eine Funktion \(f(x)\) eine „echte“ Dichte ist, müssen wir zwei Eigenschaften überprüfen:

  1. Die Funktion darf auf den kompletten reellen Zahlen nicht negativ sein: \(f(x) \geq 0\) für alle \(x \in \mathbb{R}\).
  2. Das Integral der Dichte, über die gesamten reellen Zahlen, muss 1 ergeben: \(\int_{-\infty}^\infty f(x) dx = 1\).

Die erste Eigenschaft ist schnell nachgewiesen: Im Bereich von 0 bis 1 ist \(2x > 0\), und im übrigen Bereich ist die Funktion 0, das ist also okay. Man sieht das auch auf der Skizze oben.

Um die zweite Eigenschaft nachzuweisen müssen wir also die Dichte integrieren. Zuerst teilen wir das Integral von \(-\infty\) bis \(\infty\) in drei Teile auf:

\[ \begin{align*} \int_{-\infty}^\infty f(x) dx &= \int_{-\infty}^0 0 \, dx \\ &+ \int_0^1 2x \, dx \\ &+ \int_1^\infty 0 \, dx \end{align*} \]

Der erste und dritte Teil fällt sofort weg: Die Fläche unter der Funktion, die konstant Null ist, ist natürlich auch Null. Wir integrieren also nur den Teil von 0 bis 1:

\[ \begin{align*} \int_{-\infty}^\infty f(x) dx &= \int_0^1 2x \, dx \\ &= \left[ 2 \cdot \frac{1}{2} x^2 \right]^1_0 \\ &= 2\cdot \frac{1}{2} \cdot 1^2 – 2 \cdot \frac{1}{2} 0^2 = 1-0 = 1 \end{align*} \]

Das Integral ist also insgesamt 1, und damit ist \(f(x)\) eine echte Dichte.

Was ist der Träger der Zufallsvariablen?

Der Träger einer Zufallsvariablen ist einfach die Menge aller möglichen Ergebnisse von \(X\). Übersetzt bedeutet das: Der Bereich, in dem der Funktionswert \(f(x)\) (also der Wert auf der \(y\)-Achse) größer als 0 ist. In unserem Fall also das Intervall von 0 bis 1 (strikt gesagt ohne der Null). Somit ist der Träger \(\mathcal{T} = (0,1]\).

Was ist ihr Erwartungswert \(\mathbb{E}(X)\)?

Für den Erwartungswert wenden wir die Formel von oben an. Wir teilen das Integral wieder in drei Teile auf, wobei die Teile von \(-\infty\) bis \(0\) sowie von \(1\) bis \(\infty\) wieder wegfallen (da die Dichte dort 0 ist, und somit das Integral 0 wird):

Vorsicht: Im Integral steht hier nicht nur \( f(x) \), sonst wäre die Lösung des Integrals ja 1, sondern \( x \cdot f(x) \).

\[ \begin{align*} \mathbb{E}(X) = \int_{-\infty}^\infty x f(x) \, dx &= \int_{-\infty}^0 x \cdot 0 \, dx + \int_0^1 x \cdot 2x \, dx + \int_1^\infty x \cdot 0 \, dx \\ &= \int_0^1 x \cdot 2x \, dx \\ &= \int_0^1 2x^2 \, dx \\ &= \left[ 2\cdot \frac{1}{3} x^3 \right]^1_0 \\ &= 2 \cdot \frac{1}{3} 1^3 – 2 \cdot \frac{1}{3} 0^3 \\ &= \frac{2}{3} \end{align*} \]

Somit ist \(\mathbb{E}(X) = \frac{2}{3}\).

Was ist ihre Varianz \(\mathbb{V}(X)\)?

Die Varianz können wir mit zwei Methoden bestimmen. Zuerst verwenden wir die Methode mit Verschiebungssatz:

\[ \mathbb{V}(X) = \mathbb{E}(X^2) – \mathbb{E}(X)^2 \]

Da \(\mathbb{E}(X)=\frac{2}{3}\), ist der zweite Term hier schon bekannt: \(\mathbb{E}(X)^2 = (\frac{2}{3})^2 = \frac{4}{9}\).

Für den ersten Teil wenden wir die Transformationsregel an. Das Integral ist wieder nur im Bereich von 0 bis 1 ungleich Null, also interessiert uns nur dieser Bereich. Es ist ein häufiger Fehler, die Grenzen des Integrals bei \(-\infty\) und \(\infty\) zu lassen, was die Lösung dann unmöglich macht, hier also aufpassen!

\[ \begin{align*} \mathbb{E}(X^2) &= \int_{-\infty}^\infty x^2 f(x) \, dx \\ &= \int_0^1 x^2 \cdot 2x \, dx \\ &= \int_0^1 2x^3 \, dx \\ &= \left[ 2 \frac{1}{4} x^4 \right]^1_0 = \frac{1}{2} \end{align*} \]

Und damit können wir die Varianz bestimmen:

\[ \mathbb{V}(X) = \mathbb{E}(X^2) – \mathbb{E}(X)^2 = \frac{1}{2} – \frac{4}{9} = \frac{9}{18} – \frac{8}{18} = \frac{1}{18} \]

Damit sind wir fertig: \(\mathbb{V}(X) = \frac{1}{18}\).


Nur um zu sehen, wie kompliziert es ohne dieser Regel ist, berechnen wir die Varianz hier nocheinmal mit der ursprünglichen Formel (ich ersetze hier \(\mathbb{E}(X)\) mit \(\mu\), damit die Notation übersichtlicher wird). Wer noch Schwierigkeiten beim Integrieren hat, kann natürlich auf dem Papier mitrechnen:

\[ \begin{align*} \mathbb{V}(X) = \int_{-\infty}^\infty (x-\mu)^2 f(x) \, dx &= \int_0^1 (x^2 – 2\mu x + \mu^2) \cdot 2x \, dx \\ &= \int_0^1 2x^3-4\mu x^2 + 2\mu^2 x \, dx \\ &= \left[ 2 \cdot \frac{1}{4} x^4 – 4 \mu \cdot \frac{1}{3} x^3 + 2\mu^2 \cdot \frac{1}{2} x^2 \right]_0^1 \\ &= (2 \cdot \frac{1}{4} 1^4 – 4\mu \cdot \frac{1}{3}1^3 + 2\mu^2 \cdot \frac{1}{2} 1^2) – (0-0+0) \\ &= \frac{2}{4} – \frac{4}{3}\mu + \frac{2}{2}\mu^2 \\ &= \frac{1}{2} – \frac{4}{3} \cdot \frac{2}{3} + \left( \frac{2}{3} \right)^2 \\ &= \frac{1}{2} – \frac{8}{9} + \frac{4}{9} \\ &= \frac{9}{18} – \frac{16}{18} + \frac{4}{9} \\ &= \frac{1}{18} \end{align*} \]

Was ist ihre Verteilungsfunktion \(F(x)\)?

Die Verteilungsfunktion an der Stelle \(x\) ist die Fläche der Dichte, links von der Stelle \(x\). Wir integrieren also die Dichte von \(-\infty\) bis \(x\). Da die Variable \(x\) hier die rechte Grenze der Fläche angibt, müssen wir in der Dichtefunktion einen anderen Variablennamen nehmen, wir verwenden einfach \(t\). Das ändert natürlich die Funktion nicht, denn ob da \(f(x)=2x\) oder \(f(A) = 2A\) steht, ist egal.

Da die Dichte stückweise definiert ist, d.h. einmal von \(-\infty\) bis \(0\), dann von \(0\) bis \(1\), und schließlich von \(1\) bis \(\infty\), müssen wir auch die Verteilungsfunktion getrennt in diesen Stücken definieren.

Die Fläche unter der Dichte von \(-\infty\) bis \(0\) ist Null: \(F(x) = 0 \; \text{falls} \; x \leq 0\).

Für den Bereich von 0 bis 1 müssen wir wieder ein Integral lösen:

\[ \begin{align*} F(x) &= \int_0^x f(t) \, dt \\ &= \int_0^x 2t \, dt \\ &= \left[ 2 \cdot \frac{1}{2} t^2 \right]_0^x \\ &= \frac{2}{2} x^2 – \frac{2}{2} 0^2 \\ &= x^2 \end{align*} \]

Und schließlich, im Bereich von \(1\) bis \(\infty\) ist \(F(x)\) konstant, weil die Dichte dort 0 ist. Der Wert von \(F(x)\) ist hier konstant 1, da z.B. \(\mathbb{P}(X \leq 123) = 1\).

zufallsvariablen-stetige-verteilungsfunktion

Was ist die Quantilsfunktion \(Q(x)\)?

Die Quantilsfunktion ist nur von 0 bis 1 definiert, und ist in diesem Bereich die Umkehrfunktion der Verteilungsfunktion \(F(x)\). Um die Umkehrfunktion zu berechnen, ersetzen wir in der Definition der Verteilunsfunktion \(F(x)\) durch \(x\), und \(x\) durch \(Q(x)\):
\[ \begin{align*} F(x) &= x^2 \\ x &= \left(Q(x)\right)^2 \end{align*}\]

Das lösen wir jetzt nach \(Q(x)\) auf:

\[ \sqrt{x} = Q(x)\]

Und das ist auch schon die Quantilsfunktion (nicht vergessen, nur im Bereich von 0 bis 1!)

zufallsvariablen-stetige-quantilssfunktion

Was ist die Wahrscheinlichkeit, dass \(X\) zwischen 0.5 und 0.6 liegt?

Wir möchten also \(\mathbb{P}(0.5 \leq X \leq 0.6)\) bestimmen. Hierfür gibt es wieder eine einfache, und eine aufwändige Methode. In der einfachen Methode arbeiten wir mit der Verteilungsfunktion:

\[ \begin{align*} \mathbb{P}(0.5 \leq X \leq 0.6) &= \mathbb{P}(X \leq 0.6) – \mathbb{P}(X \leq 0.5) \\ &= F(0.6)-F(0.5) \\ &= 0.6^2 – 0.5^2 \\ &= 0.36-0.25 \\ &= 0.11 \end{align*} \]

Die Wahrscheinlichkeit liegt also bei 0.11.

In der komplizierteren Variante würden wir die Fläche unter der Dichte im Bereich von 0.5 bis 0.6 bestimmen, wir würden also das folgende Integral lösen:

\[ \int_{0.5}^{0.6} f(x) \, dx = \int_{0.5}^{0.6} 2x \, dx = \left[ x^2 \right]^{0.6}_{0.5} = 0.6^2-0.5^2 = 0.11 \]

zufallsvariablen-stetige-wahrscheinlichkeit

Die grafische Idee hinter der Bestimmung von \(\mathbb{P}(0.5 \leq X \leq 0.6)\). Im linken Bild die Motivation über die Fläche unter der Dichte in diesem Bereich, also die Lösung über das Integral von 0.5 bis 0.6. Im rechten Bild die Motivation über die Verteilungsfunktion, also die Lösung über \(F(0.6)-F(0.5)\).

Darstellung und Eigenschaften von diskreten Zufallsvariablen

Dieser Artikel beschreibt Eigenschaften, die allen Zufallsvariablen mit diskreten Verteilungen zugrunde liegen. Für Eigenschaften spezieller Verteilungen, z.B. der Poissonverteilung, verweise ich auf den Abschnitt „Verteilungen“ im Inhaltsverzeichnis.

zufallsvariablen-dichte-verteilung

Im linken Bild sieht man die Dichte einer diskreten Zufallsvariable. Man sieht, dass die Wahrscheinlichkeit f(x) für die Ergebnisse 2 und 3 am höchsten ist. Der Erwartungswert E(X) ist 3, und ist mit einer gestrichelten Linie eingezeichnet. Im rechten Bild sieht man die entsprechende Verteilungsfunktion derselben Zufallsvariablen. Außerdem ist das 30%-Quantil eingezeichnet. Man bestimmt es, indem man von der y-Achse auf der Höhe des Quantils (bei uns 0.3) waagerecht nach rechts bis zur Verteilungsfunktion geht, und dann das Lot nach unten fällt. Unser 30%-Quantil ist also 2.

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Dichte

Eine Zufallsvariable \(X\) beschreibt, wie schon besprochen, ein Zufallsexperiment, bevor es durchgeführt wird. Der Ausgang dieses Experiments ist also noch unklar. Die Dichte beschreibt nun für jedes mögliche Ergebnis \(x\) dessen Wahrscheinlichkeit. Sie wird mathematisch mit \(\mathbb{P}(X=x)\) dargestellt, und weil das aufwändig zu schreiben ist, mit \(f(x)\) abgekürzt.

Wir verwenden die Dichte, um Wahrscheinlichkeiten für ein einzelnes, oder mehrere mögliche Ergebnisse zu berechnen.

Im Beispiel mit einem Würfelwurf können wir die Dichte wie folgt darstellen:

\[ \begin{align*}f(1) &= \frac{1}{6} \\f(2) &= \frac{1}{6} \\f(3) &= \frac{1}{6} \\f(4) &= \frac{1}{6} \\f(5) &= \frac{1}{6} \\f(6) &= \frac{1}{6} \end{align*} \]

Das geht natürlich auch kürzer. Äquivalent können wir schreiben:

\[ f(x) = \frac{1}{6}, \;\; \text{falls} \; x \in \{ 1,2,3,4,5,6 \} \]

Hiermit können wir z.B. die Wahrscheinlichkeit ablesen, dass wir eine 4 würfeln:

\[ \mathbb{P}(X=4) = f(4) = \frac{1}{6} \]

Außerdem können wir uns mit der Dichte z.B. herleiten, mit welcher Wahrscheinlichkeit wir eine ungerade Zahl würfeln:

\[ \mathbb{P}(X \in \{ 1,3,5\}) = \mathbb{P}(X=1) + \mathbb{P}(X=3) + \mathbb{P}(X=5) = \frac{3}{6} = \frac{1}{2} \]

Damit eine Funktion eine echte Dichte sein kann, muss sie zwei Bedingungen entsprechen:

  1. Sie darf nirgends kleiner als Null sein. Es muss also gelten: \(f(x) \geq 0\) für alle \(x \in \mathbb{R}\). Diskrete Dichten sind, wie der Name schon sagt, nur an einigen diskreten Punkten größer als Null, und auf den restlichen reellen Zahlen gleich Null.
  2. Die Summe aller ihrer einzelnen Wahrscheinlichkeitswerte muss 1 ergeben. Das macht Sinn, da ja die Wahrscheinlichkeit, dass irgendein beliebiges Ergebnis eintritt, 1 ist.

Verteilungsfunktion

Die Verteilungsfunktion ist eine weitere Variante, eine Zufallsvariable und ihre möglichen Resultate zu beschreiben. Sie drückt aus, mit welcher Wahrscheinlichkeit das Resultat kleiner oder gleich eines bestimmten Werts ist. Die Verteilungsfunktion beschreibt also \(\mathbb{P}(X \leq x)\), und wird mit \(F(x)\) abgekürzt.

Wenn wir die Dichte einer diskreten Zufallsvariablen haben, können wir leicht die Verteilungsfunktion berechnen. Beim Würfelwurf ist z.B.

\[\begin{align*}\mathbb{P}(X\leq 3) = F(3) = f(1) + f(2) + f(3) = \frac{3}{6}\end{align*}\].

Allgemein ist die Verteilungsfunktion definiert als

\[ F(x) = \mathbb{P}(X \leq x) = \sum_{i: x_i \leq x} f(x_i). \]

Der letzte Term beschreibt genau das, was wir im Beispiel zwei Zeilen höher berechnet haben: \(F(x)\) ist die Summe der Wahrscheinlichkeiten aller möglichen Werte \(x_i\), die kleiner oder gleich \(x\) sind. Unter dem Summenzeichen steht der folgende Satz in „mathematisch“ ausgedrückt: „Summiere über alle Werte \(i\), deren zugehöriges \(x_i\) kleiner ist als \(x\)“. In diesem Spezialfall geht \(i\) von 1 bis 6, und die zugehörigen \(x_i\) sind genau dieselben Werte, das muss aber im Allgemeinen nicht so sein – deswegen muss man das allgemeingültig so notieren.

Die komplette Verteilungsfunktion im Spezialfall Würfelwurf ist \(F(x) = \frac{x}{6}\). Somit ist z.B. die Wahrscheinlichkeit, höchstens eine Vier zu würfeln \(F(4) = \frac{4}{6}\).

Quantile

Das Quantil einer Zufallsvariablen ist sehr ähnlich zum empirischen Quantil von bereits gemessenen Daten definiert. So ist etwa das 5%-Quantil einer Zufallsvariable genau der Wert von \(X\), der den Wertebereich so aufteilt, dass \(X\) zu 5% kleiner/gleich diesem Wert ist, und zu 95% größer/gleich. Bei stetigen Zufallsvariablen ist der Wert immer eindeutig, aber bei diskreten Zufallsvariablen kann der Wert ein ganzes Intervall zwischen zwei Ausprägungen annehmen – vergleiche hierzu auch den oben verlinkten Artikel zu empirischen Quantilen.

Allgemein ist ein \(p\)-Quantil so definiert: Das \(p\)-Quantil ist jeder Wert \(x_p\) von \(X\), für den \(F(x_p) = \mathbb{P}(X \leq x_p) \geq p\), und gleichzeitig \(\mathbb{P}(X \geq x_p) \geq 1-p\) gilt.

Erwartungswert

Auch wenn wir nicht wissen, welches Ergebnis unser Zufallsexperiment abwirft, können wir doch berechnen, mit welchem Ergebnis wir „im Mittel“ rechnen können. Wenn wir das Experiment also sehr oft durchführen, und den arithmetischen Mittelwert aller Ergebnisse bilden, erhalten wir den Erwartungswert. Der Erwartungswert für eine Zufallsvariable \(X\) wird mit \(\mathbb{E}(X)\), manchmal auch kurz mit \(\mu\), bezeichnet.

Er lässt sich zum Glück auch von der Dichte berechnen, ohne das Experiment so oft durchführen zu müssen. Dazu summieren wir alle möglichen Ausprägungen, die wir mit ihren zugehörigen Wahrscheinlichkeiten gewichten, auf:

\[ \mathbb{E}(X) = \sum_i x_i f(x_i) \]

Der Erwartungswert der Augenzahl bei einem Würfelwurf ist zum Beispiel \[ \mathbb{E}(X) = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6} = 3.5. \] Hier sieht man auch, dass der Erwartungswert nicht unbedingt eine Zahl sein muss, die auch tatsächlich vorkommen kann. 3.5 Augen werden nie gewürfelt, aber sie sind eben die im Mittel zu erwartende Zahl an Augen.

Bei manchen Verteilungen, wie z.B. der Poissonverteilung, gibt es unendlich viele Ausprägungen, das heisst diese Summe ist unendlich lang. Sie lässt sich aber mit Hilfe eines Tricks (der Exponentialreihe) berechnen und hat ein festes Ergebnis. Meistens steht dieses Ergebnis natürlich in Formelsammlungen und Tabellen und muss nicht von Hand berechnet werden, daher gehe ich hier nicht näher darauf ein.

Varianz und Standardabweichung

zufallsvariablen-varianz

Zwei beispielhafte Dichten. Oben sieht man eine Dichte mit niedriger Varianz, das Ergebnis der Zufallsvariable bewegt sich meist im Bereich von 0 bis 5. Unten eine Zufallsvariable mit höherer Varianz, hier ist die Dichte breit gestreut.

Die Varianz einer Zufallsvariablen wird mit \(\mathbb{V}(X)\), und manchmal kurz mit \(\sigma^2\) notiert. Sie ist die erwartete quadratische Abweichung einer Zufallsvariablen von ihrem Erwartungswert. Die Abweichung vom Erwartungswert \(\mathbb{E}(X)\), nennen wir ihn kurz \(\mu\), ist \(X-\mu\). Die quadratische Abweichung ist \((X-\mu)^2\), und die erwartete quadratische Abweichung ist nun \(\mathbb{E}[(X-\mu)^2]\). Und das ist auch schon die Definition der Varianz einer Zufallsvariablen:

\[ \mathbb{V}(X) = \mathbb{E}[(X-\mu)^2] \]

Dies ist nun ein Erwartungswert einer transformierten Zufallsvariable, und mit der entsprechenden Rechenregel können wir die Varianz so formulieren und berechnen:

\[ \mathbb{V}(X) = \mathbb{E}[(X-\mu)^2] = \sum_i (x_i – \mu)^2 f(x_i) \]

Auch die Varianz ist für Zufallsvariablen ähnlich definiert wie die empirische Varianz für gemessene Daten. Bei gemessenen Daten wird aber erstens mit dem arithmetischen Mittel \(\bar{x}\) statt dem Erwartungswert \(\mu\) gearbeitet, und zweitens jeder Datenpunkt mit \(\frac{1}{n}\) gewichtet, anstatt wie hier mit \(f(x_i)\). Ansonsten sind die Formeln identisch.

Die Standardabweichung \(\sigma\) ist einfach zu berechnen, sobald man die Varianz hat:

\[ \sigma = \sqrt{\mathbb{V}(X)} \]

Rechenregeln für Erwartungswert und Varianz

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Rechenregeln für den Erwartungswert

Summe zweier Zufallsvariablen

Angenommen, wir führen unser Beispiel aus dem Artikel über diskrete Zufallsvariablen weiter, und werfen jetzt nicht einen, sondern zwei Würfel. Nennen wir die Zufallsvariable für den ersten Würfel \(X\), und die für den zweiten \(Y\). Uns interessiert der Erwartungswert der Summe der Augenzahlen, also \(\mathbb{E}(X+Y)\).

Wir könnten jetzt aufwändig alle möglichen Ergebnisse von \(X+Y\) zusammen mit deren Wahrscheinlichkeiten ausrechnen. So ist z.B. \(\mathbb{P}(X+Y=2) = \frac{1}{36}\), da dieser Fall nur auftritt wenn \(X=1\) und \(Y=1\). Als weiteres Beispiel ist \(\mathbb{P}(X+Y=7) = \frac{1}{6}\), denn es gibt \(6\cdot 6 = 36\) mögliche Ergebnisse der beiden Würfel, und 6 dieser Möglichkeiten resultieren in einer Augenzahl von 7, nämlich \((1,6), \,(2,5), \,(3,4), \,(4,3), \,(5,2), \,(6,1)\).

Über diese gemeinsame Dichte können wir dann den mit der Formel den Erwartungswert bilden.

Oder wir machen es uns einfach und benutzen folgende Formel:

\[ \mathbb{E}(X+Y) = \mathbb{E}(X) + \mathbb{E}(Y) \]

Der Erwartungswert der Summe zweier Würfel ist also die Summe beider Erwartungswerte (den Satz muss man vielleicht zweimal lesen). Der Erwartungswert eines Wurfes ist ja 3.5; das haben wir hier schon berechnet. Bei unserem Beispiel ist \(\mathbb{E}(X+Y) = \mathbb{E}(X) + \mathbb{E}(Y) = 3.5 + 3.5 = 7\).

Das klingt eventuell selbstverständlich. Dass das nicht so ist, sieht man bei der nächsten Rechenregel, die nur im Spezialfall unabhängiger Zufallsvariablen gilt.

Produkt zweier unabhängiger Zufallsvariablen

Was, wenn wir wie oben zwei Würfel werfen, und den Erwartungswert vom Produkt statt der Summe der Augenzahlen berechnen möchten? Unter der Bedingung, dass zwei Zufallsvariablen unabhängig sind, geht das:

\[ \mathbb{E}(X \cdot Y) = \mathbb{E}(X) \cdot \mathbb{E}(Y), \]

und damit ist unser gesuchter Erwartungswert \(3.5 \cdot 3.5 = 12.25\).

Vorsicht: Bei abhängigen Zufallsvariablen gilt diese Regel nicht. Ein Beispiel für zwei Zufallsvariablen, die voneinander abhängig sind, ist \(X\): Augenzahl auf der Oberseite eines geworfenen Würfels, und \(Y\): Augenzahl auf der Unterseite desselben Würfels. Wenn \(X=2\), ist automatisch \(Y=5\) (die Augenzahlen auf gegenüberliegenden Seiten summieren sich nämlich immer zu 7). Wenn wir den Erwartungswert von \(X\cdot Y\) von Hand berechnen (über die Summe aller möglichen Ergebnisse multipliziert mit ihren Wahrscheinlichkeiten), kommen wir auf das folgende (richtige) Ergebnis:

\[ \mathbb{E}(X\cdot Y) = \frac{1}{6} \cdot (1 \cdot 6) + \frac{1}{6} \cdot (2 \cdot 5) + \frac{1}{6} \cdot (3 \cdot 4) + \frac{1}{6} \cdot (4 \cdot 3) + \frac{1}{6} \cdot (5 \cdot 2) + \frac{1}{6} \cdot (6 \cdot 1) \approx 9.333, \]

und das ist nicht dasselbe wie \( \mathbb{E}(X) \cdot \mathbb{E}(Y) = 3.5 \cdot 3.5 = 12.25\), was das falsche Ergebnis ist.

Lineartransformationen

Angenommen, der Wetterbericht verrät euch, dass die erwartete Außentemperatur morgen 24 Grad Celsius (°C) beträgt, könnt ihr daraus die erwartete Außentemperatur in Grad Fahrenheit (°F) berechnen?

Natürlich. Und das ist die Idee hinter dieser Formel:

\[ \mathbb{E}(aX + b) = a \cdot \mathbb{E}(X) + b \]

Von °C rechnet man wie folgt in °F um: \(^{\circ}F = 1.8 \cdot ^{\circ}C + 32\). Die Umwandlung von Grad Celsius in Grad Fahrenheit (und andersrum) ist eine Lineartransformation. In unserem Fall ist \(a=1.8\) und \(b=32\). Die erwartete Temperatur in Fahrenheit ist also

\[ \mathbb{E}(^{\circ}F) = \mathbb{E}(1.8 \cdot ^{\circ}C + 32) = 1.8\cdot \mathbb{E}(^{\circ}C) + 32 =1.8\cdot 24 + 32 = 75.2 \]

Transformationsregel

Manchmal bildet man aus einer Zufallsvariablen eine neue Zufallsvariable, wenn man nicht an dem Ergebnis eines Zufallsexperiments interessiert ist, sondern an einer Transformation davon.

Schauen wir uns ein vereinfachtes Casinospiel an: Wir werfen einen Würfel. Kommt eine 1 oder 2, verlieren wir 15€. Kommt aber eine 3, 4, 5, oder 6, gewinnen wir 5€. Ist das ein Spiel, das wir spielen können? Oder, anders formuliert, hat dieses Glücksspiel einen positiven Erwartungswert?

Unsere alte Zufallsvariable ist der Würfelwurf, \(X\). Jetzt sind wir aber nicht am Erwartungswert von \(X\) interessiert (der ist 3,5 und unwichtig), sondern am Erwartungswert von unserem Glücksspiel, das wir \(Y\) nennen.

Wir können \(Y\) als Funktion von \(X\) darstellen, und \(Y=g(X)\) dazu sagen. Diese Funktion ist wie folgt definiert:

\[ \begin{align*} g(1) &= -15 \\ g(2) &= -15 \\ g(3) &= +5 \\ g(4) &= +5 \\ g(5) &= +5 \\ g(6) &= +5 \end{align*} \]

Die Transformationsregel hilft uns nun, den Erwartungswert von \(Y\) zu berechnen, und ist (für diskrete Zufallsvariablen) wie folgt definiert:

\[ \mathbb{E}(Y) = \mathbb{E}(g(X)) = \sum_i g(x_i) f(x_i) \]

Dabei ist \(g(x_i)\) der Wert von \(Y\), also der Gewinn/Verlust des Spiels, und \(f(x_i)\) die zugehörige Wahrscheinlichkeit, die wir von \(X\), also vom Würfelwurf her kennen. Schreiben wir diese Formel für unseren Fall aus:

\[ \mathbb{E}(Y) = (-15)\cdot \frac{1}{6} + (-15)\cdot \frac{1}{6} + 5\cdot \frac{1}{6} + 5\cdot \frac{1}{6} + 5\cdot \frac{1}{6} + 5\cdot \frac{1}{6} \approx -1.667.\]

Somit ist der Erwartungswert dieses Glücksspiels -1.667€, und damit negativ. Es lohnt sich also nicht, zu spielen. Ist auch keine Überraschung, da es ein Casinospiel ist. 🙂

Für stetige Zufallsvariablen greift genau dasselbe Konzept, aber die Summe wird durch ein Integral ersetzt. Die Formel wird etwas schwieriger zu berechnen und lautet hier

\[ \mathbb{E}(Y) = \mathbb{E}(g(X)) = \int_{-\infty}^\infty g(x) f(x) dx. \]

Die häufigste Anwendung dieser Regel ist wohl bei der Berechnung der Varianz einer Zufallsvariablen zu finden. Hier können wir den Verschiebungssatz anwenden, und uns bei der Berechnung einiges an Zeit sparen, wenn wir \(\mathbb{E}(X^2)\) berechnen.

Rechenregeln für die Varianz

Lineartransformationen

Die Varianz einer Zufallsvariablen ändert sich nicht, wenn ich zu jeder Realisierung einen festen Wert \(b\), zum Beispiel 4, addiere. Wenn ich die Realisierungen aber mit einem Faktor \(a\) multipliziere, dann wird die Varianz der Zufallsvariable mit \(a^2\) multipliziert. In einer Formel ausgedrückt sieht das so aus:

\[ \mathbb{V}(a\cdot X + b) = a^2 \cdot \mathbb{V}(X) \]

Wenn der Wetterbericht also wie oben erklärt, für morgen eine erwartete Temperatur von \(\mathbb{E}(^{\circ}C)=24^{\circ}C\) vorhersagt, und eine Unsicherheit, d.h. Varianz, von \(\mathbb{V}(^{\circ}C)=4\) angibt, dann ist dieselbe Vorhersage in Fahrenheit übersetzt:

\[ \begin{align*} \mathbb{E}(^{\circ}F) &= 1.8 \cdot 24 + 32 = 75.2 \\ \mathbb{V}(^{\circ}F) &= 1.8^2 \cdot 4 = 12.96 \end{align*} \]

Summe zweier unabhängiger Zufallsvariablen

Möchten wir die Varianz der Summe zweier Zufallsvariablen bestimmen, ist es sehr hilfreich, wenn die beiden Zufallsvariablen voneinander unabhängig sind. Dann ist die Varianz der Summe nämlich gleich der Summe der einzelnen Varianzen:

\[ \mathbb{V}(X + Y) = \mathbb{V}(X) + \mathbb{V}(Y) \]

Falls \(X\) und \(Y\) voneinander abhängig sind, gilt diese Formel nicht mehr. Das sieht man an einem stupiden, aber hoffentlich einleuchtenden Beispiel: Die Zufallsvariable \(X\) ist sehr wohl abhängig von sich selbst, \(X\). Möchten wir die Varianz von \(X+X\) bestimmen, kommt nach dem Abschnitt über Lineartransformationen heraus: \(\mathbb{V}(X+X) = \mathbb{V}(2\cdot X) = 2^2 \cdot \mathbb{V}(X) = 4 \cdot \mathbb{V}(X)\), und das ist nicht dasselbe wie das, was fälschlicherweise hier herauskommen würde, nämlich \(2 \cdot \mathbb{V}(X)\).

Der Verschiebungssatz

Der Verschiebungssatz ist eine Regel, mit der wir die Varianz einer Zufallsvariablen umformen. Wir können die Varianz dadurch mit einer anderen Formel berechnen, die in den meisten Fällen (auf Papier und im Taschenrechner) viel einfacher geht. Die Varianz ist (für beide Fälle, stetige und diskrete Zufallsvariablen) durch den Verschiebungssatz definiert als

\[ \mathbb{V}(X) = \mathbb{E}(X^2) – \mathbb{E}(X)^2. \]

Der zweite Teil der Differenz, nämlich \(\mathbb{E}(X)^2\), ist dabei einfacher zu bestimmen: Er ist einfach das Quadrat des Erwartungswertes \(\mu\). Wenn man den also bestimmt hat, quadriert man ihn einfach und setzt ihn dort ein.

Der erste Teil, \(\mathbb{E}(X^2)\) ist komplizierter: Er ist der Erwartungswert einer neuen, transformierten Zufallsvariablen, nämlich \(X^2\). Ihn müssen wir mit der Transformationsregel (in diesem Artikel weiter oben) bestimmen. Dieser Teil kommt nun wieder darauf an, ob wir es mit einer diskreten oder stetigen Zufallsvariablen zu tun haben. Er ist aber meistens trotzdem schneller zu berechnen als über die andere, längere Definition der Varianz.

Beispiel Verschiebungssatz: Varianz eines Würfelwurfs

Den Verschiebungssatz veranschaulicht man am besten anhand eines Beispiels. Wir können die Varianz eines Würfelwurfs zwar theoretisch einfach durch die Formel der diskreten Gleichverteilung berechnen, wie es im verlinkten Artikel geschieht. Aber die allgemeine Formel ist natürlich immer noch gültig. Die ganz allgemeine (aber auch ganz aufwändige) Formel lautet ja

\[ \mathbb{V}(X) = \mathbb{E}[(X-\mu)^2] = \sum_i (x_i – \mu)^2 f(x_i) \]

Wenn wir \(\mathbb{E}(X) = \mu = 3.5\) berechnet haben, können wir die Varianz berechnen:

\[\mathbb{V}(X) = (1 – 3.5)^2 \cdot \frac{1}{6} + \ldots + (6 – 3.5)^2 \cdot \frac{1}{6} = 2.91667 \]

Über den Verschiebungssatz geht das nun auch. In diesem einfachen Beispiel ist das nicht viel schneller, aber sobald der Träger größer ist, d.h. mehr Ausprägungen möglich sind, nimmt das viel Arbeit ab. Wir brauchen also \(\mathbb{E}(X)\) (den haben wir schon, das ist 3.5) und \(\mathbb{E}(X^2)\). Diesen Wert erhalten wir mit Hilfe der oben beschriebenen Transformationsregel, wenn wir nämlich \(g(x) = x^2\) setzen. Ich zeige hier nochmal die Berechnung von \(\mathbb{E}(X)\), und gleich danach die Berechnung von \(\mathbb{E}(X^2)\), um die Parallelen zu betonen:

\[ \mathbb{E}(X) =\frac{1}{6} \cdot 1 +\frac{1}{6} \cdot 2 + \frac{1}{6} \cdot 3 +\frac{1}{6} \cdot 4 +\frac{1}{6} \cdot 5 +\frac{1}{6} \cdot 6 = 3.5\]

\[ \mathbb{E}(X^2) =\frac{1}{6} \cdot 1^2 +\frac{1}{6} \cdot 2^2 + \frac{1}{6} \cdot 3^2 +\frac{1}{6} \cdot 4^2 +\frac{1}{6} \cdot 5^2 +\frac{1}{6} \cdot 6^2 = 15.1667 \]

Schließlich erhalten wir die Varianz, natürlich dasselbe Ergebnis, aber mit einer anderen Methode berechnet:

\[ \mathbb{V}(X) = \mathbb{E}(X^2) – \mathbb{E}(X)^2 = 15.1667 – 3.5^2 = 2.91667 \]

Was sind Zufallsvariablen?

Zufallsvariablen werden meistens mit \(X\), und manchmal mit \(Y\) oder \(Z\) beschrieben. Sie sind Variablen, mit denen wir das Ergebnis eines noch nicht durchgeführten Zufallsexperiments beschreiben. Betrachten wir zum Beispiel den Wurf eines Würfels, können wir die Zufallsvariable dafür \(X\) nennen. Vor dem Würfelwurf ist der Wert von \(X\) unbekannt, und nach dem Wurf nimmt \(X\) einen Wert von \(1, 2, 3, 4, 5, 6\) an. Diesen Wert nennt man Realisierung der Zufallsvariable, und nennt ihn verallgemeinert \(x\).

Klausuraufgaben
Im eBook-Shop gibt es Klausuraufgaben zu diesem Thema!
Zu den eBooks

Der Unterschied zwischen \(X\) und \(x\) ist also, dass \(X\) die tatsächliche Zufallsvariable ist, und keinen festen Wert hat, sondern quasi für das noch unbekannte Ergebnis des Zufallsexperiments steht, und \(x\) für eine feste Zahl steht, die für das Ergebnis nach dem Experiment steht. Man sieht also für das Beispiel Würfelwurf Schreibweisen wie \(\mathbb{P}(X=1) = \frac{1}{6}\). Da aber die Wahrscheinlichkeit für jede Augenzahl \(x=1,2,3,4,5,6\) gleich ist, schreibt man verallgemeinert \(\mathbb{P}(X=x) = \frac{1}{6}\). Gesprochen wird das so: „Die Wahrscheinlichkeit, dass X gleich x ist, beträgt ein Sechstel.“

Es ist wichtig, dass die möglichen Werte der Zufallsvariablen immer Zahlen sind. Für einen Münzwurf können wir also nicht \(\mathbb{P}(X=\text{Kopf})\) schreiben, sondern müssen die Werte vorher kodieren, z.B. in \(\text{Kopf}=0\) und \(\text{Zahl}=1\). Das ist wichtig, um später Erwartungswerte der Zufallsvariablen bilden zu können. Es ist nämlich unmöglich, den Mittelwert von \(\text{Kopf}\) und \(\text{Zahl}\) zu bilden, aber der Mittelwert von \(0\) und \(1\) ist \(0.5\).

Diskrete und stetige Zufallsvariablen

Es gibt zwei verschiedene Klassen von Zufallsvariablen. Diskrete Zufallsvariablen können nur eine endliche oder abzählbar unendliche Menge an Werten annehmen. Das bedeutet meist, dass es entweder eine feste Anzahl an Werten gibt (wie z.B. beim Würfelwurf), oder dass es sich um Zähldaten handelt, wie etwa die Anzahl an Bankkunden an einem Tag, oder die Anzahl an Blitzen in einem Gewitter. Theoretisch sind beliebig hohe Werte möglich, aber die möglichen Werte sind doch abzählbar.

Stetige Zufallsvariablen hingegen können innerhalb eines beliebigen Intervalls unendlich viele Werte annehmen. Wenn wir die Körpergröße eines Menschen messen, sind theoretisch unendlich viele Werte zwischen z.B. 165.3cm und 166.84cm möglich. Man nennt diese Wertebereiche überabzählbar unendlich.

Der Träger einer Zufallsvariablen

Mit dem Wort „Träger“ – und dem Zeichen \(\mathcal{T}\) bezeichnen wir die Menge aller möglichen Ergebnisse einer Zufallsvariablen. Für das obige Beispiel eines Würfelwurfs wäre der Träger z.B. \(\mathcal{T} = {1, 2, 3, 4, 5, 6}\). Für die Körpergröße eines Menschen kommen theoretisch alle positiven reellen Zahlen in Frage, hier wäre der Träger also \(\mathbb{R}^+\).

Verteilung von Zufallsvariablen

Für alle Zufallsexperimente, mit denen wir uns (zumindest in den einführenden Veranstaltungen, und in einfachen Anwendungsproblemen) beschäftigen, existieren bekannte Verteilungen. Wir wissen also vor dem Experiment zwar nicht, welches Ergebnis wir bekommen, aber wir wissen, wie wahrscheinlich bestimmte Ergebnisse sind. Diese Information stellen wir dar, indem wir sagen, \(X\) folgt einer bestimmten Verteilung. Mathematisch notiert wird das so: \[ X \sim P_\theta \] Dabei steht \(P\) für eine bestimmte Verteilung (bei der Normalverteilung würde hier z.B. \(N\) stehen, und \(\theta\) sind die Parameter dieser Verteilung (bei der Normalverteilung wäre das der Mittelwert, \(\mu\), und die Varianz, \(\sigma^2\)).

Man kann die möglichen Werte einer Zufallsvariable und die Wahrscheinlichkeitsverteilung über alle diese Werte auf drei verschiedene Arten darstellen: Mit der Dichte, der Verteilungsfunktion, und der Quantilsfunktion. Alle diese Arten sind gleichwertig, spezifizieren die Eigenschaften der Zufallsvariablen vollständig, und man kann auf dem Papier zwischen allen drei Arten hin-und-her-rechnen.

Parameter von Verteilungen

Jede Verteilungsklasse (als Beispiel wieder die Normalverteilung) kann natürlich mehr als nur eine Verteilung beschreiben. Parameter sind Variablen, die zu einer Verteilungsklasse gehören, und mit denen die Verteilung einer Zufallsvariablen \(X\) dann vollständig spezifiziert ist.

Wenn wir zum Beispiel mit \(X\) den Intelligenzquotienten von einigen Personen messen, folgt das Ergebnis einer Normalverteilung mit Mittelwert 100 und Varianz 225, also \(X \sim N(100, 225)\). Messen wir aber von einigen Autos die Geschwindigkeit innerorts, erhalten wir vielleicht eine Normalverteilung mit Mittelwert 55 und Varianz 25, also \(X \sim N(55, 25)\).