13 Wariancja

Dla zmiennej losowej \(X\) jej wartość oczekiwana \(\mathbb{E}[X]\) jest średnią ważoną. W niektórych przypadkach, kiedy zmienna \(X\) jest zbyt skomplikowana, aby wydobyć jakiekolwiek ilościowe informacje o \(X\), zmuszeni jesteśmy przybliżać \(X\) przez jej średnią \(\mathbb{E}[X]\). Chcielibyśmy wtedy wiedzieć jaki jest błąd takiego przybliżenia. Do tego będzie nam służyła wariancja. Wariancję będziemy definiować dla zmiennych losowych, które są dostatecznie regularne.

Definicja 13.1 Powiemy, że zmienna losowa \(X\) jest całkowalna z kwadratem, jeżeli \(\mathbb{E}\left[X^2 \right]<\infty\).

Przypomnijmy, że funkcja \(\varphi \colon \mathbb{R} \to \mathbb{R}\) jest wypukła, jeżeli dla każdych \(x, y \in \mathbb{R}\) oraz \(\alpha \in (0,1)\) \[\begin{equation} \varphi(\alpha x +(1-\alpha)y) \leq \alpha \varphi(x) +(1-\alpha)\varphi(y). \tag{13.1} \end{equation}\] Geometrycznie powyższy warunek oznacza, że odcinek łączący dwa punkty na wykresie \((x, \varphi(x))\) oraz \((y, \varphi(y))\) leży w całości ponad wykresem.

Lemma 13.1 (Nierówność Jensena) Niech \(X\) będzie zmienną losową taką, że \(\varphi(X)\) ma wartość oczekiwaną dla pewnej wypukłej funkcji \(\varphi \colon \mathbb{R} \to \mathbb{R}\). Wówczas \[\begin{equation*} \varphi\left( \mathbb{E} [X] \right) \leq \mathbb{E}\left[ \varphi(X) \right]. \end{equation*}\]

Proof. Pozostawiamy jako zadanie.

Zauważmy, że jeżeli \(\mathbb{P}[X=x] =\alpha\) i \(\mathbb{P}[X=y]=1-\alpha\), to nierówność Jensena sprowadza się do (13.1). Rzeczywiście, mamy \[\begin{align*} \mathbb{E}[X] & = x \mathbb{P}[X=x] +y\mathbb{P}[X=y] \\ &= x\alpha+y(1-\alpha). \end{align*}\] Stąd \[\begin{equation*} \varphi\left(\mathbb{E}[X] \right) = \varphi(\alpha x +(1-\alpha)y) \end{equation*}\] jest nie większe niż \[\begin{align*} \mathbb{E}\left[\varphi(X)\right] &= \varphi(x) \mathbb{P}[X=x] +\varphi(y)\mathbb{P}[X=y] \\&= \varphi(x)\alpha+\varphi(y)(1-\alpha). \end{align*}\]

Przypomnijmy, że jeżeli funkcja \(\varphi\) jest dwukrotnie różniczkowalna, to jest ona wypukła wtedy i tylko wtedy, gdy \(\varphi''(x) \geq 0\) dla wszystkich \(x \in \mathbb{R}\).

Zauważmy, że stosując nierówność Jensena do funkcji wypukłej \(\varphi(x)=x^2\) otrzymujemy \[\begin{equation*} \mathbb{E}[|X|]^2 \leq \mathbb{E}\left[X^2 \right]. \end{equation*}\] Oznacza to, że każda zmienna całkowalna z kwadratem posiada wartość oczekiwaną.

Definicja 13.2 Niech \(X\) będzie zmienną losową całkowalną z kwadratem. Liczbę \[\mathbb{V}ar [X] =\mathbb{E}\left[(X-\mathbb{E} [X])^2 \right] \] nazywamy wariancją zmiennej losowej \(X\).

Pierwiastek z wariancji nazywamy odchyleniem standardowym \[ \sigma_X = \sqrt{\mathbb{V}ar[ X]}. \]

Wartość oczekiwana odpowiada średniej wartości, a wariancja opisuje odchylenie od wartości oczekiwanej. Dla przykładu instytucje finansowe opisując inwestycję podają dwa kluczowe parametry: stopę zwrotu (wartość oczekiwaną zysku) oraz ryzyko (odchylenie standardowe). Celem inwestycji jest taki dobór instrumentów, aby przy określonej stopie zwrotu zminimalizować ryzyko.

Przykład 13.1 Przypuśćmy, że właśnie otrzymaliśmy propozycję nie do odrzucenia; ktoś podarował nam dwa losy na pewną loterię. Organizatorzy loterii sprzedają \(100\) losów na cotygodniowe losowanie. Każdy z losów jest wybierany w jednorodnym procesie losowym, to znaczy, że każdy los może być wybrany z takim samym prawdopodobieństwem — i szczęśliwy właściciel wybranego losu wygrywa sto milionów dolarów. Pozostałe \(99\) losów nic nie wygrywa.

Możemy teraz wykorzystać nasz prezent na dwa sposoby: albo kupujemy dwa losy na to samo losowanie, albo kupimy po jednym losie na dwa różne losowanie. Która strategia jest lepsza? Spróbujmy to przeanalizować przy użyciu zmiennych losowych \(X_1\) i \(X_2\) odpowiadających wysokości wygranej dla pierwszego i dla drugiego losu. Wartość oczekiwana \(X_1\), w milionach, wynosi \[ \mathbb{E}[X_1] = \frac{99}{100} \cdot 0 + \frac{1}{100} \cdot 100 = 1 \] i jest taka sama dla \(X_2\). Wartości oczekiwane są addytywne, tak więc średnia całkowita wygrana (w milionach) wynosi \[ \mathbb{E}[X_1 + X_2] = \mathbb{E}[X_1] + \mathbb{E}[X_2] = 2, \] niezależnie od tego, jaką strategię wybierzemy. Mimo to obydwie strategie wyglądają różnie. Nie patrzmy jednak na wartości oczekiwane i przeanalizujmy dokładnie rozkład zmiennej losowej \(X_1 + X_2\):

wygrana
0 100 200
to samo losowanie 0,9800 0,0200
różne losowania 0,9801 0,0198 0,0001

Gdy kupimy dwa losy na tej samej loterii, wówczas mamy \(98\%\) szansy przegranej i \(2\%\) szansy wygrania \(100\) milionów dolarów. Jeśli kupimy je na różne losowania, to mamy \(98,01\%\) szansy przegranej, czyli odrobinę więcej niż poprzednio; mamy \(0,01\%\) szansy wygrania \(200\) milionów dolarów, co jest również troszkę więcej niż poprzednio, i nasze szanse na wygranie \(100\) milionów dolarów wynoszą teraz \(1,98\%\). Tak więc rozkład \(X_1 + X_2\) w drugim przypadku jest bardziej rozproszony: wartość oczekiwana, \(100\) milionów dolarów, jest mniej prawdopodobna, ale wartości ekstremalne są odrobinę bardziej prawdopodobne.

Wariancja ma służyć właśnie do analizy pojęcia rozproszenia zmiennej losowej. Mierzymy rozproszenie jako kwadrat odchylenia zmiennej losowej od jej wartości oczekiwanej. W przypadku 1 wariancja wynosi \[\begin{align*} & 0{,}98(0M - 2M)^2 + 0{,}02(100M - 2M)^2 \\&= 196M^2, \end{align*}\] a w przypadku \(2\), \[\begin{align*} & 0{,}9801(0M - 2M)^2 + 0{,}0198(100M - 2M)^2 \\ & + 0{,}0001(200M - 2M)^2 \\&= 198M^2. \end{align*}\] Tak jak oczekiwaliśmy, druga wariancja jest odrobinę większa, ponieważ rozkład losowy w przypadku \(2\) jest odrobinę bardziej rozproszony.

Przykład 13.2 Rozważmy jeszcze jeden przykład o podobnej naturze. Student w trakcie roku ma do zaliczenia dwa kolokwia. Procentowy wynik każdego kolokwium jest jednostajnie rozłożony na odcinku \([0,1]\). Wyniki obu sprawdzianów są od siebie niezależne. Jeżeli przez \(U_1\) i \(U_2\) oznaczymy wyniki w odpowiednio pierwszym i drugim kolokwium, to końcowa ocena studenta jest wyliczona na podstawie wyniku \[ X=U_1+U_2, \] Średni wynik z obu sprawdzianów to \(\mathbb{E}[X]=1\). Pewien student nie mógł przystąpić do pierwszego kolokwium, wobec czego prowadzący postanowił przeskalować wynik z pierwszego kolokwium. Czy jest to rozwiązanie korzystne dla studenta? Wówczas ocena jest wyliczana na podstawie wyniku \[ Y=2U_2 \] Ze średnim wynikiem \(\mathbb{E}[Y]=1\). Aby dokładniej przeanalizować obie możliwości zauważmy, że \[\begin{equation*} \mathbb{V}ar[Y] = \int_0^1 (2x-1)^2 \mathrm{d}x=4/3. \end{equation*}\] Aby policzyć wariancję zmiennej \(X\) przypomnijmy, że ma ona gęstość zadaną przez \[\begin{equation*} f_X(x) = x \mathbf{1}_{[0,1]}(x) + (2-x)\mathbf{1}_{(1,2]}(x). \end{equation*}\] Stąd \[\begin{align*} \mathbb{V}ar[X] =& \int_0^1 (x-1)^2 x \mathrm{d}x \\ &+\int_1^2(1-x)^2(2-x) \mathrm{d}x =2/3. \end{align*}\] Rozwiązanie zaproponowane przez prowadzącego ma istotnie większą wariancję. Sugeruje to, że w przypadku przeskalowania wyniku drugiego kolokwium ostateczny wynik jest bardziej rozproszony. Wydać to też na symulacjach.

Jeżeli wylosujemy sto wyników dla dwóch różnych sprawdzianów (\(X\))
to widzimy, że wyniki mają tendencje do koncentrowania się w połowie przedziału.. Jeżeli po prostu przeskalujemy wynik drugiego kolokwium (\(Y\)), to wyniki układają się równomiernie.

Powodem jest to, że rozkład \(Y\) dopuszcza wartości ekstremalne z większym prawdopodobieństwem. Rzeczywiście, zauważmy, że \(Y\) ma rozkład o gęstości \(f_Y(x) = \mathbf{1}_{[0,2]}(x)/2\).

Twierdzenie 13.1 Niech \(X\) i \(Y\) będą zmiennymi losowymi takimi, że \(\mathbb{E} [X^2]\),\(\mathbb{E}[Y^2] <\infty\). Wówczas

  1. \(\mathbb{V}ar[ X] <\infty\)
  2. \(\mathbb{V}ar[ X] = \mathbb{E} [X^2] - (\mathbb{E} [X])^2\)
  3. \(\mathbb{V}ar[ X ]\ge 0\)
  4. \(\mathbb{V}ar[aX] = a^2\mathbb{V}ar[X]\)
  5. \(\mathbb{V}ar[X+a] = \mathbb{V}ar[X]\)
  6. \(\mathbb{V}ar[ X] = 0\) wtedy i tylko wtedy, gdy \(X\) jest stałe z prawdopodobieństwem jeden
  7. Jeżeli \(X\) i \(Y\) są niezależne, to \(\mathbb{V}ar[X+Y] = \mathbb{V}ar[X] + \mathbb{V}ar[Y]\)

Proof. Punkty 1 pokazaliśmy już wyżej. Punkt 2. wynika z rachunku \[\begin{align*} \mathbb{V}ar[X] & = \mathbb{E}\left[X^2 -2X\mathbb{E}[X] + \mathbb{E}[X]^2\right]\\ & = \mathbb{E}\left[X^2 \right] - 2 \mathbb{E}\left[X\mathbb{E}[X] \right] + \mathbb{E}[X]^2\\ & = \mathbb{E}\left[X^2 \right] - \mathbb{E}[X]^2. \end{align*}\] Dowód punktów 3-6 pozostawiamy jako ćwiczenie. Punkt 7 wynika z punktu 2: \[\begin{align*} \mathbb{V}ar(X+Y) = & \mathbb{E}\left[ (X+Y)^2 \right] - \mathbb{E}[X + Y]^2\\ = & \mathbb{E}[X^2] + 2 \mathbb{E}[XY] + \mathbb{E} [Y^2] \\ &- (\mathbb{E}[X]^2 + 2\mathbb{E}[X] \cdot \mathbb{E} [Y] +\mathbb{E}[ Y]^2)\\ = & \mathbb{E}[ X^2] - (\mathbb{E}[X]^2 + \mathbb{E} [Y^2] \\ &- (\mathbb{E}[Y])^2 = \mathbb{V}ar[ X] + \mathbb{V}ar[ Y]. \end{align*}\]

Jeżeli \(X\) ma rozkład dyskretny zadany przez \(\mathbb{P}[X=x_i] = p_i\), \(m = \mathbb{E} [X]\), to \[\begin{align*} \mathbb{V}ar[ X] & = \sum_i p_i (x_i - m)^2 \\ &= \sum_i x_i^2p_i - m^2 \end{align*}\] Jeżeli natomiast \(X\) ma rozkład absolutnie ciągły z gęstością \(g\) i \(m = \mathbb{E}[X]\), to \[\begin{align*} \mathbb{V}ar [X] & = \int_\mathbb{R} (x-m)^2 g(x)\mathrm{d}x \\ & = \int_\mathbb{R} x^2 g(x)\mathrm{d}x - m^2. \end{align*}\]

Przykład 13.3 Załóżmy, że zmienna losowa \(X\) ma rozkład geometryczny z parametrem \(p>0\) (\(X\sim{\rm Geom}(p)\)), tzn. \(\mathbb{P}[X=k] = p(1-p)^{k-1}\), dla \(k\in \mathbb{N}\). Przypomnijmy, że \(X\) oznacza moment pierwszego sukcesu w nieskończonym schemacie Bernoulliego. Ile wynosi \(\mathbb{V}ar[X]\)? Dla dowolnych \(p, q \in (0,1)\) mamy \[\begin{align*} \sum_{k=0}^\infty q^kp & = \frac{p}{1-q}\\ \sum_{k=0}^\infty k q^{k-1}p & = \frac{p}{(1-q)^2}\\ \sum_{k=0}^\infty k(k-1) q^{k-2}p & = \frac{2p}{(1-q)^3}\\ \sum_{k=0}^\infty k(k-1) q^{k-1}p & = \frac{2pq}{(1-q)^3}. \end{align*}\] Jeżeli podstawimy \(q=1-p\), to druga i czwarta równość dają \[\begin{align*} \mathbb{E}[X]& = \sum_{k=0}^\infty k q^{k-1}p = \frac{p}{(1-q)^2}=\frac 1p\\ \mathbb{E}[X(X-1)] & = \sum_{k=0}^\infty k(k-1) q^{k-1}p = \frac{2pq}{(1-q)^3} \\ &= \frac{2(1-p)}{p^2} \end{align*}\] Wówczas \[\begin{align*} \mathbb{V}ar[ X] & = \mathbb{E}\left[X^2\right] - \mathbb{E}[X]^2 \\ &= \mathbb{E}[X(X-1)] +\mathbb{E}[X] -\mathbb{E}[X]^2 \\ & = \frac{1-p}{p^2} \end{align*}\]

Przykład 13.4 Jeżeli \(X\sim \mathrm{Bin}(n,p)\) (\(X\) ma rozkład dwumianowy z parametrami \(n,p\)), to \(X\) możemy przestawić w postaci \(X = X_1+\ldots + X_n\), gdzie \[X_i = \left\{\begin{array}{cc} 1 & \mbox{ w $i$-tym doświadczeniu jest sukces } \\ 0 & \mbox{ w $i$-tym doświadczeniu jest porażka } \end{array} \right. \] Zmienne \(X_i\) są niezależne oraz \[\begin{align*} \mathbb{E} X_i & = p,\\ \mathbb{V}ar[ X_i] & = \mathbb{E} \left[X_i^2\right] - (\mathbb{E} X_i)^2 \\ &= \mathbb{E} [X_i] - p^2 = p(1-p). \end{align*}\] Zatem z powyższego twierdzenia \[\begin{align*} \mathbb{E} [X] & = \sum_{i=1}^n \mathbb{E} [X_i] = np\\ \mathbb{V}ar[ X] & = \sum_{i=1}^n \mathbb{V}ar [X_i] = np(1-p) \end{align*}\]

Przykład 13.5 Jeżeli \(X\sim \mathcal{N}(m,\sigma^2)\) (zmienna losowa \(X\) ma rozkład normalny z parametrami \(m, \sigma^2\)), to \[\begin{align*} \mathbb{E} X & = \frac{1}{\sqrt{2\pi}\sigma} \int_\mathbb{R} x e^{-\frac{(x-m)^2}{2\sigma^2}} \mathrm{d}x \\ & \overset{ y=(x-m)/\sigma}{ =} \frac{1}{\sqrt{2\pi}} \int_\mathbb{R} (\sigma y + m ) e^{-y^2/2} \mathrm{d}y = m \end{align*}\] oraz \[\begin{align*} \mathbb{V}ar[ X] =& \mathbb{E}(X-m)^2 \\ =& \frac{1}{\sqrt{2\pi}\sigma} \int_\mathbb{R} (x-m)^2 e^{-\frac{(x-m)^2}{2\sigma^2}} \mathrm{d}x\\ &\overset{ y=(x-m)/\sigma}{ =} \frac{1}{\sqrt{2\pi}} \int_\mathbb{R} \sigma^2 y^2 e^{-y^2/2} \mathrm{d}y \\ =&\frac{\sigma^2}{\sqrt{2\pi}}\big( -y e^{-\frac{y^2}2} \big)\Big|_{-\infty}^{+\infty} \\ &+ \frac{\sigma^2}{\sqrt{2\pi}} \int_\mathbb{R} e^{-y^2/2}\mathrm{d}y = \sigma^2. \end{align*}\]