6 Momente von Zufallsvariablen

Bisher haben wir die “Zufälligkeit’’ einer Zufallsvariable $X$ über deren Verteilungsfunktion oder deren (Zähl-)Dichte charakterisiert. Einerseits hat sich dies als äußerst nützlich erwiesen, weil wir damit die Verteilung von $X$ eindeutig und vollständig beschrieben haben. Andererseits lassen sich auf Basis der Dichte oder Verteilungsfunktion viele einfache Fragestellungen nicht ad-hoc beantworten.

Insbesondere die folgenden zwei zentralen Fragen über eine Zufallsvariable $X$ blieben bisher unbeantwortet:

Welchen Wert nimmt $X$ “im Mittel’’ an?
Wie sind die Werte von $X$ um diesen “Mittelwert’’ gestreut?

Auf gewisse Weise haben wir uns diesen Fragen in Beispiel 4.5 über die $k$ - $σ$ -Regel für die Normalverteilung genähert. Nichtsdestotrotz erfüllt erstens nicht jede Verteilung diese Regel und zweitens beantwortet sie die Fragen nur vage. Wünschenswert wären Kennzahlen, anhand derer wir die Antwort auf die Fragen ablesen können. In diesem Kapitel geht es darum, solche Kennzahlen zu beleuchten.

Definition 6.1 (Erwartungswert)

Für eine diskrete Zufallsvariable $X$ ergibt sich der Erwartungswert $E X$ von $X$ als der mit der Zähldichte gewichtete Mittelwert aller Werte von $X$ , d.h. $\begin{array}{r} (1) & E X = \sum_{x \in X (Ω)} x P (X = x), \end{array}$ unter der Voraussetzung, dass $\begin{array}{r} (2) & E | X | = \sum_{x \in X (Ω)} | x | P (X = x) < \infty . \end{array}$
Für eine absolutstetige Zufallsvariable $X$ ergibt sich der Erwartungswert $E X$ von $X$ als der mit der Dichtefunktion “gewichtete Mittelwert aller Werte’’ von $X$ , d.h. $\begin{array}{r} (3) & E X = \int_{R} x f_{X} (x) d x, \end{array}$ unter der Voraussetzung, dass $\begin{array}{r} (4) & E | X | = \int_{R} | x | f_{X} (x) d x < \infty . \end{array}$

Bemerkung 6.1

Mit dem Erwartungswert kommen wir der ersten Frage zu Beginn dieses Kapitels deutlich näher. Aber er beantwortet die Frage nicht zu unseren vollständigen Zufriedenheit. Wir sagen umgangssprachlich, dass eine Zufallsvariable $X$ “im Mittel’’ den Erwartungswert $E X$ annimmt. Allerdings wird uns Beispiel 6.1 zeigen, dass eine Zufallsvariable nicht notwendigerweise den Erwartungswert mit positiver Wahrscheinlichkeit annehmen kann.
Der Erwartungswert ist dennoch eine wichtige Kenngröße und fürs Erste geben wir uns mit dieser Näherung an Frage 1 zufrieden. Bzgl. der Interpretation des Erwartungswertes wird uns das sogenannte starke Gesetz der großen Zahlen in Kapitel 8 weitere Erkenntnisse liefern.
Die Gleichung $(3)$ ist letztendlich nichts anderes die infinitesimale Version der Gleichung $(1)$ , die sich aus der Notwendigkeit der “Summation von überabzählbar vielen Werten’’ ergibt.
Man spricht davon, dass $X$ integrierbar ist, falls $(2)$ bzw. $(4)$ erfüllt ist.
Allgemein und ohne die Unterscheidung zwischen stetigen und diskreten Zufallsvariablen definiert man den Erwartungswert $X : Ω \to R$ als Lebesgue-Integral bzgl. dem Wahrscheinlichkeitsmaß $P$ , d.h. $\begin{array}{r} (5) & E X = \int_{Ω} X (ω) P (d ω), \end{array}$ falls $\begin{array}{r} \int_{Ω} max {X (ω), 0} P (d ω) < \infty oder \int_{Ω} - min {X (ω), 0} P (d ω) < \infty . \end{array}$ Man bemerke dabei, dass die Gleichung $(5)$ über einen Maßtransport bzgl. der Verteilung $P_{X}$ zu den Gleichungen $(1)$ bzw. $(3)$ führt.

Beispiel 6.1

Für die Augenzahl $X$ eines üblichen Würfels gilt $\begin{array}{r} E X = \sum_{j = 1}^{6} j P (X = j) = \frac{1}{6} \sum_{j = 1}^{6} j = 3 . 5. \end{array}$
Für $X \sim N (μ, σ^{2})$ lässt sich zeigen, dass $E X = μ$ . Anschaulich lässt sich dies für die Normalverteilung anhand von Abbildung 4.2 erkennen, da die Dichten bei $μ$ das einzige Maximum annimmt und symmetrisch, um $μ$ ist.
Wichtig: Der Erwartungswert ergibt sich nicht immer als das Maximum der Dichte. Hier wurde nur der Spezialfall der Normalverteilung besprochen.
In Beispiel 4.6 haben wir festgestellt, dass die Exponentialverteilung keine sinnvolle Verteilung für die Lebensdauer $T$ eines Menschen ist. schlägt als mögliche Alternative die sogenannte Gompertz-Makeham Verteilung vor. Dessen Dichtefunktion ist definiert als $\begin{array}{r} f_{T} (x) = (α e^{β x} + λ) \exp {- λ x - \frac{α}{β} (e^{β x} - 1)} 1 {x > 0}, \end{array}$ wobei $α, β, λ > 0$ Parameter dieser Verteilung sind. Norberg (2020) empfiehlt, die Parameter so zu wählen, dass $\begin{array}{r} α = 7.5858 \cdot 10^{- 5}, β = \log (1.09144), λ = 5 \cdot 10^{- 4} \end{array}$ und bezeichnet diese spezielle Verteilung als G82M-Verteilung (siehe Abbildung 6.1). Der Erwartungswert von $T$ ist nun gegeben als $\begin{array}{r} \int_{0}^{\infty} x f_{T} (x) d x \approx 72.65, \end{array}$ wobei wir die Berechnung mit numerischen Mitteln durchgeführt haben.

Abbildung 6.1: Dichte der G82M-Verteilung

Häufig ist man nicht nur an dem Erwartungswert einer Zufallsvariable $X$ interessiert. Oft interessiert man sich auch für den mittleren Wert der Zufallsvariable $g (X)$ , wobei $g$ eine messbare Funktion ist, sodass $g (X)$ integrierbar ist (sonst ist der Erwartungswert $E g (X)$ gar nicht erst definiert). Glücklicherweise liefert uns das folgende Theorem eine Möglichkeit, um die Berechnung von $E g (X)$ analog zur Berechnung von $E X$ durchzuführen.

Theorem 6.1 (“Law of the unconscious statistician’’ - LOTUS) Es sei $X$ eine Zufallsvariable mit Dichtefunktion $f_{X}$ bzw. Zähldichte $P (X = k)$ und $g$ eine reellwertige Funktion, sodass $g (X)$ integrierbar ist. Dann gilt $\begin{array}{r} (6) & E g (X) = {\begin{cases} \int_{R} g (x) f_{X} (x) d x, & falls X stetig \\ \sum_{x \in X (Ω)} g (x) P (X = x), & falls X diskret \end{cases} \end{array}$

Bemerkung 6.2

Wir benötigen für die Berechnung von $E g (X)$ die Dichtefunktion bzw- Zähldichte der Zufallsvariable $g (X)$ nicht. Intuitiv lässt sich dies darüber erklären, dass wir durch die Funktion $g$ die (reellen) Werte, die wir einem Ereignis zuordnen, verändern, jedoch die Wahrscheinlichkeit der entsprechenden Ereignisse unverändert lassen. Dementsprechend müssen wir für den neuen Erwartungswert lediglich die neuen Werte mit den alten Wahrscheinlichkeiten gewichten.
Trotz der intuitiven Erklärung von Theorem 6.1 ist dies keine Definition, weswegen die Gleichung $(6)$ formal bewiesen werden muss. Da es Studenten manchmal unterstellt wird, diesen Unterschied nicht zu erkennen, wird dieses Theorem auch manchmal “Law of the unconscious statistician’’ genannt.¹
Aus der Linearität des Integrals bzw. der Summe ergibt sich aus Theorem 6.1 die Linearität des Erwartungswertes, d.h. für alle $a, b \in R$ gilt $E [a X + b] = a E X + b$ .
Falls $g (x) = x^{p}$ mit $p \in N$ , so nennt man $E [X^{p}]$ das $p$ -te Moment von $X$ .
In Theorem 6.1 wurde vorausgesetzt, dass $g (X)$ integrierbar ist. Allgemein bezeichnet man die Klasse der integrierbaren Zufallsvariablen mit $\begin{array}{r} L^{1} := {X : Ω \to R | X messbar und E | X | < \infty} . \end{array}$ In diesem Fall könnten wir also $g (X) \in L^{1}$ schreiben. Analog dazu definiert man die Klasse der Zufallsvariablen mit $p$ -tem Moment als $\begin{array}{r} L^{p} := {X : Ω \to R | X messbar und E [| X |^{p}] < \infty} . \end{array}$

Der Erwartungswert hilft uns, den “Mittelwert’’ einer Zufallsvariable zu bestimmen. Damit konnten wir die erste Frage zu Beginn des Kapitels

Welchen Wert nimmt $X$ “im Mittel’’ an?

hinreichend gut zu beantworten. Und wir können das gleiche Konzept auch auf die zweite Frage

Wie sind die Werte von $X$ um diesen “Mittelwert’’ gestreut?

anwenden. Dazu betrachten wir (zufällige) Abweichungen der Form $Z = f (X - E X)$ und ermitteln die “erwartete’’ Abweichung als Erwartungswert $E Z$ von $Z$ . Hierbei sind häufige Wahlen von $f$ gegeben durch $f (x) = | x |$ (absolute Abweichung) oder $f (x) = x^{2}$ (quadratische Abweichung). Insbesondere letztere Form wird so häufig verwendet, dass sie einen eigenen Namen erhält.

Definition 6.2 (Varianz, Standardabweichung) Für eine Zufallsvariable $X \in L^{2}$ bezeichnen wir die mittlere quadratische Abweichung $\begin{array}{r} Var (X) := E [(X - E X)^{2}] \end{array}$ als Varianz von $X$ . Außerdem bezeichnen wir die Größe $\sqrt{Var (X)}$ als Standardabweichung von $X$ .

Bemerkung 6.3

Die Varianz wird gerne verwendet, da sie große Abweichungen stärker “bestraft’’ als es die mittlere absolute Abweichung $E | X - E X |$ tun würde. Dies ist oftmals eine gewünschte Eigenschaft. Allerdings hat die Varianz nicht mehr die gleiche Einheit, wie die zu untersuchende Größe (bspw. ${EUR}^{2}$ statt $EUR$ , falls $X$ eine Zufallsvariable aus dem Finanzbereich ist). Deswegen nutzt man für einheitsbezogene Aussagen die Standardabweichung.
Anhand der Definition erkennt man schnell, dass für alle $a, b \in R$ gilt $Var (a X + b) = a^{2} Var (X)$ . Anschaulich ist dies auch ohne die Formel erklärbar:
- Da man mit der Varianz die Streuung einer Zufallsvariable untersucht, ist schnell klar, dass die Verschiebung aller Werte um $b \in R$ die Streuung unverändert lässt. Die Werte sind lediglich, um einen neuen Mittelwert gestreut.
- Die Streckung der Streuung um einen Faktor $a \in R$ bewirkt, dass die quadratische Streuung sich um den Faktor $a^{2}$ verändert.
Die Varianz lässt sich oft am einfachsten über die Verschiebungsformel $\begin{array}{r} Var (X) = E [X^{2}] - E [X]^{2} \end{array}$ berechnen.
Oftmals bezeichnet man die Varianz auch als zweites zentriertes Moment. Allgemein definiert man das $p$ -te zentrierte Moment einer Zufallsvariable $X \in L^{p}$ als $E [(X - E X)^{^{p}}]$ .

Beispiel 6.2 Für eine Zufallsvariable $X \sim N (μ, σ^{2})$ lässt sich zeigen, dass $Var (X) = σ^{2}$ . Anschaulich erkennt man dies für die Normalverteilung auch an dessen Dichte Abbildung 4.2, da sich die “Breite’’ der Glockenkurve mit dem Parameter $σ$ verändert.

siehe Wikipedia ↩︎