7  Zusammenhang von Zufallsvariablen

Bisher haben wir nur den Erwartungswert von eindimensionalen Zufallsvariablen untersucht. Wie wir in Kapitel 5 bereits besprochen haben, reicht es jedoch oft nicht aus, nur einzelne Zufallsvariablen zu betrachten. Daher bietet es sich an, die Konzepte von Kapitel 6 für Zufallsvektoren zu übertragen. Dies eröffnet uns auch die Möglichkeit, Zusammenhänge abseits der bisherigen binären Unterscheidung von abhängig und unabhängig zu beleuchten.

Zunächst stellen wir fest, dass der “Erwartungswert’’ eines Zufallvektors X=(X1,,Xn) mit nN lediglich ein Vektor der Erwartungswerte der Komponenten Xi, i=1,,n, ist. Wir schreiben (1)EX=(EX1,,EXn) und nennen EX in diesem Fall den Erwartungswertvektor von X.

Solange g eine reellwertige Funktion ist, können wir - genau wie in Theorem 6.1 -den Erwartungswert einer (eindimensionalen) Zufallsvariable g(X) bestimmen, auch wenn X=(X1,,Xn) ein Zufallsvektor ist. Dazu überlegt man sich analog zu Bemerkung 6.2, dass man lediglich alle Werte g(x1,,xn), xiXi(Ω), i=1,,n, mit der ursprünglichen (Zähl-)-Dichte von X gewichten muss. In diesem Fall nimmt man dafür die gemeinsame (Zähl-)Dichte und berücksichtigt alle Werte über ein n-fach Integral bzw. über eine n-fache Summe.

Theorem 7.1 (LOTUS - Mehrdimensional) Es sei X=(X1,,Xn) ein n-dimensionaler Zufallsvektor und g:RnR eine reellwertige Funktion, sodass g(X)L1. Dann gilt (2)Eg(X)={RRg(x1,,xn)f(X1,,Xn)(x1,,xn) dxndx1, X stetigx1X1(Ω)xnXn(Ω)g(x1,,xn)P(X1=x1,,Xn=xn), X diskret

Die Gleichung (1) ist eine einfache Verallgemeinerung des Erwartungswertes für Zufallsvektoren. Im Kontrast dazu ist die Verallgemeinerung der Varianz eines Zufallsvektors X nicht komponentenweise zu verstehen. Dies liegt daran, dass man unter der Quadrierung eines Vektors x üblicherweise nicht eine komponentenweise Quadrierung versteht. Stattdessen meint man in der Regel das Produkt xxt, wobei xt die Transponierte von x ist.

Definition 7.1 (Kovarianz, Kovarianzmatrix) Es sei X ein n-dimensionaler Zufallsvektor mit XiXjL1 für alle i,j=1,n.

Dann bezeichnen wir Cov(Xi,Xj):=E[(XiEXi)(XjEXj)] als Kovarianz zwischen Xi und Xj. Außerdem bezeichnen wir Cov(X):=E[(XEX)(XEX)t]=E[((XiEXi)(XjEXj))i,j=1,,n]=(E[(XiEXi)(XjEXj)])i,j=1,,n=(Cov(Xi,Xj))i,j=1,,n als Kovarianzmatrix des Zufallvektors X.

Bemerkung 7.1  

  1. Offensichtlich gilt Var(Xi)=Cov(Xi,Xi) für alle i=1,,n. Deswegen wird Cov(X) auch Varianz-Kovarianzmatrix genannt. Außerdem ist Cov(Xi,Xj)=Cov(Xj,Xi), d.h. die Kovarianz ist symmetrisch bzgl. den Argumenten.

  2. Eine mögliche Motivation, warum es sinnvoll ist, die Varianz auf diese Weise (und nicht komponentenweise) zu verallgemeinern, wird über die Berechnung der Varianz von Linearkombinationen von Xi, i=1,,n, deutlich. Nehme dazu an, dass a=(a1,,an)Rn. Dann lässt sich zeigen, dass (3)Var(aXt)=aCov(X)at=i=1nj=1naiajCov(Xi,Xj). Insbesondere gilt wegen Gleichung (3) und der Symmetrie der Kovarianz, dass (4)Var(X1+X2)=Var(X1)+Var(X2)+2Cov(X1,X2).

  3. Man nennt E[XiXj] und E[(XiEXi)(XjEXj)] das gemischte Moment und gemischte zentrierte Moment von Xi und Xj.

Abgesehen davon, dass die Kovarianzmatrix eine Verallgemeinerung der Varianz ist, sind die darin enthaltenen Kovarianzen ein fundamentales Abhängigkeitsmaß zwischen den Zufallsvariablen. Normiert man die Kovarianz mit dem Produkt der entsprechenden Standardabweichungen, so erhält man den Korrelationskoeffizienten.

Definition 7.2 (Korrelationskoeffizient) Es seien X,YL2 zwei Zufallsvariablen. Dann bezeichnen wir ρ(X,Y):=Cov(X,Y)Var(X)Var(Y) als Korrelationskoeffizienten.

Bemerkung 7.2  

  1. Wie bei den meisten Normierungen, bewirkt hier die Normierung, dass die Kovarianz in einen besser interpretierbaren Wertebereich transformiert wird. Es gilt ρ(X,Y)[1,1] und man spricht davon, dass X und Y perfekt (negativ) korreliert sind, falls ρ(X,Y)=1 (bzw. ρ(X,Y)=1).

  2. Sind X und Y perfekt korreliert, so sind X und Y fast sicher linear abhängig, d.h. es gibt Koeffizienten a0 und bR, sodass P(Y=aX+b)=1. Aus diesem Grund spricht man auch davon, dass die Kovarianz den linearen Zusammenhang von X und Y quantifiziert.

  3. Falls X und Y unabhängig sind, so gibt es keinen linearen Zusammenhang zwischen den beiden Größen und ρ(X,Y)=Cov(X,Y)=0. In diesem Fall gilt wegen Gleichung (4) auch Var(X+Y)=Var(X)+Var(Y).

  4. Aus ρ(X,Y)=0 lässt sich im Allgemeinen keine Unabhängigkeit folgern. Letztendlich liegt das daran, dass zwar kein linearer Zusammenhang zwischen X und Y vorliegt, aber bspw. immer noch ein quadratischer Zusammenhang bestehen kann (siehe Beispiel 7.1).

Beispiel 7.1 Es seien XU(1,1) und ZU(0,1) unabhängig. Definiere nun Y=1X21{Z<0.5}1X21{Z0.5}. Über das Gesetz der totalen Wahrscheinlichkeit lässt sich leicht feststellen, dass Cov(X,Y)=0. Allerdings sind X und Y nicht unabhängig, da (X,Y) fast sicher auf der Kreislinie {(x,y)|x2+y2=1} mit Radius 1 liegt (siehe Abbildung 7.1).

Abbildung 7.1: Hier sind X und Y unkorreliert, aber offensichtlich besteht ein quadratischer Zusammenhang

Annahme 7.3 (Korrelation und Kausalität) Keine Stochastik- bzw. Statistikeinführung kann ohne die Aussage “Korrelation ist nicht Kausalität’’ auskommen. Grundgedanke hinter der Aussage ist die Tatsache, dass ein Nachweis von Korrelation zwischen zwei Größen X und Y im Allgemeinen wenig Aussagekraft über einen kausalen Zusammenhang zwischen X und Y hat.

Insbesondere ist durch eine Korrelation nicht klar, ob X aus Y folgt oder andersherum. Außerdem könnten X und Y von einer dritten unbeobachteten Variable Z abhängen, die sowohl X als auch Y auslöst. Im Hinblick darauf, ist ein vielzitiertes Beispiel, die Beobachtung, dass Eisverkäufe (X) und Mordraten (Y) positiv korreliert sind.

In diesem Fall ist es wohl eher nicht sinnvoll zu argumentieren, dass Eisgenuss plötzliche Mordlust weckt (XY) oder dass sich Mörder gerne nach vollbrachter Tat ein Eis gönnen (YX). Plausibler ist allerdings die Überlegung, dass im Sommer (Z) sowohl mehr Eis gegessen wird als auch mehr gemordet wird (XZY) und die Korrelation von X und Y durch Z verursacht wird.

Weiterhin gibt es die Möglichkeit, dass eine Korrelation rein zufällig ist. Wenn man lang genug sucht, so findet man häufig irgendeine Korrelation, die nichts mit Kausalität zu tun hat. Eine Fundgrube an zufälligen Korrelationen findet sich auf tylervigen.com. Mein persönlicher Favorit findet sich in Abbildung 7.2 und beschreibt die Korrelation zwischen der Anzahl der in den USA verliehenen Doktortiteln im Bereich Mathematik und der Anzahl an Selbstmorden.

Abbildung 7.2: Eine (hoffentlich) rein zufällige Korrelation (0.860176) zwischen der Anzahl der in den USA verliehenen Doktortiteln im Bereich Mathematik und der Anzahl an Selbstmorden. Quelle: tylervigen.com

Klinische Studien versuchen diese Problematik “zu kontrollieren” und gelten in dieser Hinsicht als “Goldstandard”, da dort - vereinfacht gesagt - versucht wird, Studienteilnehmer in zwei möglichst ähnliche Menschengruppen zu unterteilen, wovon eine Gruppe das zu untersuchende Medikament und die andere Gruppe ein Placebo (Kontrollgruppe) erhält. Üblicherweise wissen weder die behandelnden Ärzte noch die Teilnehmer, wer in welcher Gruppe ist. Ein “signifikant besserer” Krankheitsverlauf innerhalb der Nicht-Placebogruppe wird dann der Wirkung des Medikaments zugeschrieben.

Der Zusammenhang zwischen Korrelation und Kausalität ist immer wieder ein kontroverses Thema. Neuerdings wird versucht, die Aussage “Korrelation ist nicht Kausalität’’ über sogenannte kausale Modelle zur Aussage”Manche Korrelationen sind Kausalität” zu entschärfen. In seinem populärwissenschaftlichen Buch () versucht der Informatiker und Philosoph Judea Pearl diese Sichtweise einem allgemeinen Publikum zu vermitteln und bietet dabei auch interessante Einblicke in die Historie der Statistik.