12 Niezależne zmienne losowe
Niech \((\Omega, \mathcal{F}, \mathbb{P})\) będzie przestrzenią probabilistyczną i niech \(X\) będzie zmienną losową.
Definicja 12.1 \(\sigma\)-ciało generowane przez \(X\) to \(\sigma\)-ciało podzbiorów \(\Omega\) zadane przez \[\begin{equation*} \sigma(X) = \{ X^{-1}(B) \: : \: B \in \mathcal{B}or(\mathbb{R})\}. \end{equation*}\]
Z własności przeciwobrazu łatwo pokazujemy, że \(\sigma(X)\) jest rzeczywiście \(\sigma\)-ciałem. Definicja zmiennej losowej wymaga, aby \(X^{-1}(B) \in \mathcal{F}\) dla \(B \in \mathcal{B}or(\mathbb{R})\). Oznacza to, że \(\sigma(X) \subseteq \mathcal{F}\). Zauważmy też, że \(\sigma(X)\) jest to najmniejsze \(\sigma\)-ciało takie, że \[\begin{equation*} X \colon (\Omega, \sigma(X)) \to (\mathbb{R}, \mathcal{B}or(\mathbb{R})) \end{equation*}\] jest mierzalne. \(\sigma(X)\) zawiera informacje o eksperymencie losowym, które możemy wywnioskować wyłącznie na podstawie wartości \(X\).
Przykład 12.1 Losujemy liczbę z odcinka \([0,1)\). Niech \(X(\omega)\) będzie pierwszą cyfrą po przecinku \(\omega \in [0,1)\) w zapisie dziesiętnym. Jak wygląda \(\sigma(X)\)? Zauważmy, że \(X(\omega) = \lfloor 10\omega\rfloor\) oraz \[\begin{equation*} \{ X = k\} = \left[ k/10, (k+1)/10 \right), \qquad k=0,1, \ldots 9. \end{equation*}\] Stąd \[\begin{equation*} \sigma(X) = \sigma \left( [k/10, (k+1)/10) \: :\: k=0,1, \ldots 9 \right). \end{equation*}\]
Zauważmy, że każde zdarzenie \(A \in \sigma(X)\) ma następującą własność. Jeżeli dla \(\omega_1, \omega_2 \in \Omega\), \(X(\omega_1) = X(\omega_2)\), to \[\begin{equation*} \omega_1 \in A \iff \omega_2 \in A. \end{equation*}\]
Definicja 12.2 Niech \(\{X_i\}_{i\in I}\) będzie rodziną zmiennych losowych określonych na \(\Omega\). Zmienne te są niezależne, jeżeli \(\sigma(X_i)\) (\(\sigma\)-ciała generowane przez \(X_i\)) są niezależne. Innymi słowy \(\{X_i\}_{i\in I}\) są niezależne, gdy dla dowolnych parami różnych \(i_1,i_2,\ldots, i_n\in I\) oraz dowolnych \(B_1,\ldots, B_n\in \mathcal{B}or(\mathbb{R})\) zachodzi \[ \mathbb{P}\left[ X_{i_1}\in B_1,\ldots, X_{i_n}\in B_n \right] = \mathbb{P}[X_{i_1}\in B_1]\cdots \mathbb{P}[X_{i_n}\in B_n]. \]
Przykład 12.2 Losujemy jednostajnie punkt z prostokąta \([0,3]\times[0,1]\). Wówczas \(\mathbb{P}[\cdot] = \lambda_2(\cdot)/3\). Niech \(X_1(\omega) = \omega_1\) i \(X_2(\omega) = \omega_2\) dla \(\omega=(\omega_1, \omega_2) \in \Omega = [0,3]\times [0,1]\). Zbiory z \(\sigma(X_1)\) są postaci \[\begin{equation*} \{X_1 \in B\} = \{\omega = (\omega_1, \omega_2) \: : \: \omega_1 \in B\} = B \times [0,1] \end{equation*}\] dla \(B \in \mathcal{B}or([0,3])\). Podobnie \[\begin{equation*} \{X_2 \in A\} = [0,1] \times A \end{equation*}\] dla \(A \in \mathcal{B}or([0,1])\). Czyli \[\begin{multline*} \mathbb{P}[X_1 \in B, \: X_2 \in A] = \mathbb{P}[B \times A] = \lambda_2(B \times A)/3 \\= \frac{\lambda_1(B)}{3} \cdot \lambda_1(A) = \mathbb{P}[X_1 \in B] \mathbb{P}[X_2\in A]. \end{multline*}\] Zmienne losowe \(X_1\) i \(X_2\) są zatem niezależne.
Przykład 12.3 Rozważmy schemat Bernoulliego na przestrzeni \(\Omega = \{0,1\}^n\) z \(\mathcal{F} = 2^\Omega\) oraz miarą produktową jako probabilistyczną. Zdefiniujmy \[ X_i(\omega) = X_i(\omega_1,\ldots,\omega_n) = \left\{ \begin{array}{cc} 1, & \mbox{jeżeli w $i$-tej próbie był sukces} \\ 0, & \mbox{jeżeli w $i$-tej próbie była porażka} \end{array} \right. \] Wówczas \(X_1,\ldots, X_n\) są niezależnymi zmiennymi losowymi. Wynika to bezpośrednio z definicji miary produktowej.
Przykład 12.4
Losujemy punkt z \([0,1]^2\). Niech \(X_1\) będzie odległością wylosowanego punktu od prostej \(x=y\). Niech \(X_2\) będzie odległością wylosowanego punktu od prostej \(y=1-x\). Jak wyglądają \(\sigma(X_1)\) i \(\sigma(X_2)\)? Czy zmienne \(X_1\) i \(X_2\) są niezależne? Mamy \(X_1(\omega) = |\omega_1-\omega_2|/\sqrt{2}\). Stąd \[\begin{equation*} \{ X_1 \in B \} = \{ (x,y) \in [0,1]^2 \: : \: |x-y|/\sqrt{2} \in B\}. \end{equation*}\] Podobnie \(X_2(\omega) = |x-1+y|/\sqrt{2}\). Poniżej widzimy jak wyglądają zdarzenia \(\{X_2\in [a,b]\}\) oraz \(\{X_1 \in [c,d]\}\).Zauważmy, że jeżeli \(b=d=\sqrt{2}/2\) oraz \(a,c > \sqrt{2}/4\), to \[\begin{equation*} \{ X_1 \in [c,d]\} \cap \{X_2 \in [a,b]\} = \emptyset. \end{equation*}\] Wobec czego \[\begin{equation*} \mathbb{P} [X_1 \in [c,d], X_2 \in [a,b]] = 0. \end{equation*}\] Z kolei \[\begin{equation*} \mathbb{P}[X_1 \in [c,d]] \mathbb{P}[X_2 \in [a,b]]>0. \end{equation*}\] Wobec tego zmienne \(X_1\) i \(X_2\) nie są niezależne.
Twierdzenie 12.1 Niech \(X_1,\ldots,X_n\) będą zmiennymi losowymi i niech \(X = (X_1,\ldots, X_n)\). Następujące warunki są równoważne:
- \(X_1,\ldots,X_n\) są niezależne;
- dla dowolnych \(B_1,\ldots,B_n\in \mathcal{B}or(\mathbb{R})\), zdarzenia \(\{X_1\in B_1\}, \ldots, \{X_n\in B_n\}\) są niezależne;
- \(\mu_X = \mu_{X_1}\otimes\ldots \otimes \mu_{X_n}\);
- \(F_{X}(t_1,\ldots, t_n) = F_{X_{1}}(t_1)\ldots F_{X_n}(t_n)\).
- dla dowolnych ograniczonych funkcji borelowskich \(f_1, \ldots, f_n\), \[\begin{equation*} \mathbb{E}[f_1(X_1) f_2(X_2) \cdots f_n(X_n)] = \mathbb{E}[f_1(X_1)] \cdot \mathbb{E}[f_2(X_2)] \cdots \mathbb{E}[f_n(X_n)]. \end{equation*}\]
Proof. Równoważność 1 i 2 wynika z definicji. Pokażemy, że 2 implikuje 4. Weźmy \(B_i \in (-\infty,t_i]\). Wówczas \[\begin{multline*} F_X(t_1,\ldots, t_n) = \mathbb{P}[X_1\le t_1,\ldots, X_n\le t_n] \\ = \mathbb{P}[X_1\le t_1]\ldots \mathbb{P}[X_n\le t_n] = F_{X_1}(t_1)\ldots F_{X_n}(t_n). \end{multline*}\]
Załóżmy teraz warunek 4 i pokażemy, że implikuje on 3. Niech \(X'\) będzie \(n\)-wymiarową zmienną losową o rozkładzie \(\mu_{X_1}\otimes\ldots \otimes \mu_{X_n}\). Pokażemy, że \(X\) i \(X'\) mają taką samą dystrybuantę. Wtedy \[\begin{multline*} F_{X'}(t_1,\ldots, t_n) = \mu_{X_1}\otimes\ldots \otimes \mu_{X_n}\big( (-\infty; t_1] \times \ldots \times (-\infty, t_n] \big) \\ =\mu_{X_1}((-\infty,t_1]) \cdot \ldots \cdot \mu_{X_n}((-\infty,t_n]) = F_{X_1}(t_1)\ldots F_{X_n}(t_n) = F_X(t_1,\ldots, t_n). \end{multline*}\] Z twierdzenia o jednoznaczności \(\mu_{X'}=\mu_X\).
Sprawdzamy teraz, że warunek 3 implikuje 2. Dla dowolnych podzbiorów borelowskich \(B_1,\ldots, B_n\) mamy \[\begin{multline*} \mathbb{P}\big[ X_1\in B_1,\ldots, X_n\in B_n \big] = \mu_X(B_1\times \cdots \times B_n) \\ = \mu_{X_1}(B_1)\cdot\ldots\cdot \mu_{X_n}(B_n) = \mathbb{P}[X_1\in B_1] \cdot \ldots \cdot \mathbb{P}[X_n\in B_n]. \end{multline*}\] Pokażemy wreszcie, że 3. pociąga też 5. Mamy \[\begin{multline*} \mathbb{E}[f_1(X_1) f_2(X_2) \cdots f_n(X_n)] = \int_{\mathbb{R}^n} \prod_{j=1}^nf_j(x_j) \mu_{\vec{X}}(\mathrm{d}x_1\ldots x_n) =\\ \prod_{j=1}^n \int_\mathbb{R} f_j(x_j) \mu_{X_j}(\mathrm{d}x_j)= \mathbb{E}[f_1(X_1)] \cdot \mathbb{E}[f_2(X_2)] \cdots \mathbb{E}[f_n(X_n)]. \end{multline*}\] Na koniec uzasadnimy, że 5. pociąga 2. Jeżeli rozważymy \(f_j(y) = \mathbf{1}_{B_j}(y)\), to \(f_j(X_j(\omega)) = \mathbf{1}_{X_j \in B_j}(\omega)\) oraz \[\begin{equation*} \mathbb{E}[f_j(X_j)] = \mathbb{P}[X_j\in B_j] \end{equation*}\] oraz \[\begin{equation*} \mathbb{E}[f_1(X_1) f_2(X_2) \cdots f_n(X_n)] = \mathbb{P}[X_1\in B_1, X_2\in B_2 \ldots X_n \in B_n] \end{equation*}\]
Wniosek 12.1 Zmienne losowe \(X_1,\ldots, X_n\) mające rozkłady dyskretne są niezależne wtedy i tylko wtedy gdy dla dowolnych \(s_1\in S_{X_1},\ldots, s_n\in S_{X_n}\) zachodzi \[\begin{equation}\label{eq:kwt1} \mathbb{P}[X_1=s_1,\ldots, X_n = s_n] = \mathbb{P}[X_1=s_1]\cdot\ldots\cdot \mathbb{P}[X_n=s_n] \tag{12.1} \end{equation}\]
Proof. Jeżeli zmienne losowe \(X_1,\ldots, X_n\) są niezależne, to warunek (12.1)
jest oczywiście spełniony.
Implikację odwrotną pokażemy jedynie dla \(n=2\) (dla uproszczenia dowodu).
Oznaczmy przez \(S_{X_1}\) oraz \(S_{X_2}\)
nośniki rozkładów zmiennych losowych \(X_1\) oraz \(X_2\) (czyli zbiorem ich wartości).
Korzystając z warunku
(12.1) otrzymujemy dla dowolnych zbiorów borelowskich \(B_1,B_2\):
\[\begin{multline*}
\mathbb{P}[X_1\in B_1, X_2\in B_2] = \mathbb{P}[X_1 \in B_1\cap S_{X_{1}}, X_2 \in B_2 \cap S_{X_2}]\\
= \sum_{\substack{ x_1 \in B_1 \cap S_{X_1}\\ x_2 \in B_2 \cap S_{X_2}}}
\mathbb{P}[X_1 = x_1, X_2 = x_2]
= \sum_{x_1 \in B_1 \cap S_{X_1}}\sum_{x_2 \in B_2 \cap S_{X_2}} \mathbb{P}[X_1 = x_1]\mathbb{P}[X_2 = x_2]\\
= \mathbb{P}[X_1 \in B_1]\mathbb{P}[X_2\in B_2]
\end{multline*}\]
Wniosek 12.2 Jeżeli zmienne losowe \(X\) i \(Y\) są niezależne i mają wartości oczekiwane, to \[\begin{equation*} \mathbb{E}[XY] = \mathbb{E}[X]\mathbb{E}[Y]. \end{equation*}\]
Proof. Niech \(\vec{X}=(X,Y)\). Rozważmy rozkład łączny \(\mu_{\vec{X}}\) zmiennych \(X\) i \(Y\). Wówczas \(\mu_{\vec{X}} = \mu_{X}\otimes \mu_Y\). Mamy zatem \[\begin{multline*} \mathbb{E}[XY] = \int_{\mathbb{R}^2} xy \: \mu_{\vec{X}}(\mathrm{d}xy) = \int_{\mathbb{R}}\int_\mathbb{R} xy \: \mu_{X} (\mathrm{d}x) \mu_{Y}(\mathrm{d}y ) = \\ \int_{\mathbb{R}} x \: \mu_{X} (\mathrm{d}x) \int_{\mathbb{R}} y \: \mu_{Y}(\mathrm{d}y) = \mathbb{E}[XY]. \end{multline*}\]
Wniosek 12.3 Zmienne losowe \(X_1,\ldots, X_n\) o gęstościach \(f_1,\ldots, f_n\) są niezależne wtedy i tylko wtedy, gdy wektor \(\vec{X} = (X_1,\ldots, X_n)\) ma gęstość \[ f(x_1,x_2,\ldots,x_n) = f_1(x_1)f_2(x_2)\ldots f_n(x_n). \]
Jeżeli zmienne losowe \(X_1,X_2\) są niezależne i mają absolutnie ciągły rozkład, to można skutecznie liczyć rozkłady ich sum:
Twierdzenie 12.2 Załóżmy, że \(X_1\) i \(X_2\) są niezależnymi zmiennymi losowymi o rozkładach absolutnie ciągłych z gęstościami \(f_1\) i \(f_2\). Wówczas zmienna losowa \(Z=X_1+X_2\) ma rozkład absolutnie ciągły z gęstością \[ f_Z(x) = f_1\ast f_2(x) = \int_\mathbb{R} f_1(x-y)f_2(y) \mathrm{d}y. \] Funkcję \(f_Z\) nazywamy splotem funkcji \(f_1\) i \(f_2\).
Proof. Niech \(\vec{X}=(X_1, X_2)\). Dla dowolnego \(t \in \mathbb{R}\): \[\begin{align*} F_Z(t)=\mathbb{P}[X_1+X_2 \leq t] & = \mu_{\vec{X}}\left( \{(x_1,x_2):\; x_1+x_2 \leq t\} \right)\\ &= \int\int_{\{(x_1,x_2):\; x_1+x_2\leq t \}} \mu_{\vec{X}}(\mathrm{d}x_1x_2)\\ &= \int\int_{\{(x_1,x_2):\; x_1+x_2\leq t\}} f_1(x_1) f_2(x_2) \mathrm{d}x_1 \mathrm{d}x_2\\ &= \int\int_{\{(z,y):\; z\leq t\}} f_1(z-y) f_2(y) \mathrm{d}z \mathrm{d}y\\ &= \int_{(-\infty,t]}\int_{\mathbb{R}} f_1(z-y) f_2(y) \mathrm{d}y \mathrm{d}z\\ &= \int_{(-\infty,t]} f_Z(z) \mathrm{d}z. \end{align*}\] Teza wynika z twierdzenia o jednoznaczności.
Podstawowych intuicji związanych z operacją splotu można nabrać z filmu Granta Sandersona.
Przykład 12.5 Niech \(X_1\) i \(X_2\) będą niezależnymi zmiennymi losowymi o rozkładzie jednostajnym na \([0,1]\), czyli \(U([0,1])\). Szukamy gęstości \(X_1+X_2\). Znamy gęstości \(X_1\) oraz \(X_2\) \[ f_1(x_1) = {\bf 1}_{[0,1]}(x_1), \qquad f_2(x_2) = {\bf 1}_{[0,1]}(x_2). \] Zatem \(X_1+X_2\) ma gęstość \[\begin{align*} f_1\ast f_2(x) &= \int_\mathbb{R} {\bf 1}_{[0,1]}(x - y) {\bf 1}_{[0,1]}(y)\mathrm{d}y\\ &=\int_\mathbb{R} {\bf 1}_{[x-1,x]}(y) {\bf 1}_{[0,1]}(y)\mathrm{d}y = \big| [x-1,x] \cap [0,1] \big| \end{align*}\] Stąd \[ f_1\ast f_2(x) = \left\{ \begin{array}{cc} 0 & \mbox{dla } x<0 \\ x & \mbox{dla } x\in[0,1]\\ 2-x & \mbox{dla } x\in[1,2]\\ 0 & \mbox{dla } x>2 \end{array} \right. \]
Przykład 12.6 Przypomnijmy, że zmienna losowa \(X\) ma rozkład normalny z parametrami \(m\in \mathbb{R}\) i \(\sigma>0\), \(\mathcal{N}(m,\sigma^2)\) jeżeli jej gęstość jest zadana wzorem \[ f(x) = \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-m)^2}{2\sigma^2}}. \]
Załóżmy, że \(X_1, X_2\) są niezależnymi zmiennymi losowymi o rozkładzie \(N(m_1,\sigma_1^2)\) oraz \(N(m_2,\sigma_2^2)\), czyli z gęstościami \[ f_i(x) = \frac{1}{\sqrt{2\pi} \sigma_i} e^{-\frac{(x-m_i)^2}{2\sigma_i^2}} \qquad i=1,2. \] Pokazuje się wówczas, że \[ f_1\ast f_2(x) = \frac{1}{2\pi \sigma_1\sigma_2} \int_\mathbb{R} e^{-\frac{(x-y-m_1)^2}{2\sigma_1^2} -\frac{(y-m_2)^2}{2\sigma_2^2} }dy = \frac{1}{\sqrt{2\pi (\sigma_1^2+\sigma^2_2)}} e^{-\frac{(x-m_1-m_2)^2}{2(\sigma_1^2+\sigma^2_2)}} \] Zatem \(X_1+X_2\) ma rozkład \(\mathcal{N}(m_1+m_2, \sigma_1^2+\sigma_2^2)\).
Jeszcze więcej o splotach od Granta Sandersona.