16 Parametry wielowymiarowe
Omówimy pokrótce wielowymiarowe parametry wektorów losowych. Od tej pory przyjmujemy konwencję, że wszystkie rozważane wektory są pionowe.
16.1 Wektor średnich
Definicja 16.1 Niech \(\vec{X}=(X_1, \ldots , X_d)^T\) będzie \(d\)-wymiarowym wektorem losowym. Powiemy, że \(\vec{X}\) ma wartość oczekiwaną jeżeli wszystkie zmienne losowe \(X_1, \ldots , X_d\) mają wartości oczekiwane. Wówczas wektor \[ \mathbb{E}\left[ \vec{X} \right] = (\mathbb{E} [X_1],\ldots,\mathbb{E} [X_d]) \] nazywamy wartością oczekiwaną zmiennej losowej \(\vec{X}\).
Przykład 16.1 Niech \(\vec{Y}=(Y_1, \ldots, Y_d)^T\) będzie \(d\)-wymiarowym wektorem losowym z rozkładem \(\mathcal{N}(\vec{m}, \Sigma)\), gdzie \(\vec{m} = (m_1, m_2, \ldots, m_d)^T\). Przypomnijmy, że oznacza to, że ma on gęstość zadaną przez \[\begin{equation*} f_{\vec{Y}}\left(\vec{y} \right) = \frac{1}{(2\pi)^{d/2} \mathrm{det}(\Sigma)^{1/2}} \exp \left\{ - \langle \Sigma^{-1}(\vec{y}-\vec{m}), \vec{y}-\vec{m} \rangle/2 \right\} \end{equation*}\] Aby wyznaczyć wektor \(\mathbb{E}[\vec{Y}]\) ustalmy \(j\in [d] = \{1,2, \ldots, d\}\) i napiszmy stosując podstawienie \(\vec{y}=\vec{z}+\vec{m}\), że \[\begin{align*} \mathbb{E}[Y_j] & = \int_{\mathbb{R}^d} y_j f_{\vec{Y}}\left(\vec{y} \right) \mathrm{d}\vec{y} \\ & = \int_{\mathbb{R}^d} (z_j +m_j) f_{\vec{Y}}\left(\vec{z} +\vec{m} \right) \mathrm{d}\vec{z} \end{align*}\] Zauważmy, że \[\begin{equation*} f_{\vec{Y}}\left(\vec{z}+\vec{m} \right) = \frac{1}{(2\pi)^{d/2} \mathrm{det}(\Sigma)^{1/2}} \exp \left\{ - \langle \Sigma^{-1}\vec{z}, \vec{z}\rangle/2 \right\} \end{equation*}\] jest symetryczna względem zera (\(f_{vec{Y}} (\vec{z}+\vec{m}) = f_{vec{Y}}(-\vec{z}+\vec{m})\)) gęstością rozkładu \(\mathcal{N}(\vec{0}, \Sigma)\). W szczególności \[\begin{equation*} \int_{\mathbb{R}^d} f_{\vec{Y}}\left(\vec{z} +\vec{m} \right) \mathrm{d}\vec{z}=1 \end{equation*}\] oraz \[\begin{equation*} \int_{\mathbb{R}^d} z_jf_{\vec{Y}}\left(\vec{z} +\vec{m} \right) \mathrm{d}\vec{z}=0. \end{equation*}\] Ostatecznie stąd \(\mathbb{E}[Y_j]=m_j\) a co za tym idzie \[\begin{equation*} \mathbb{E}\left[\vec{Y} \right] = \vec{m}. \end{equation*}\]
Twierdzenie 16.1 Niech \(\vec{X}=(X_1, \ldots , X_d)^T\) będzie \(d\)-wymiarowym wektorem losowym. Wówczas \(\vec{X}\) ma wartość oczekiwaną wtedy i tylko wtedy, gdy zmienna losowa \[\begin{equation*} \left\|\vec{X} \right\| = \sqrt{\sum_{j=1}^d X_j^2} \end{equation*}\] ma wartość oczekiwaną. Wówczas \[\begin{equation} \left\|\mathbb{E}\left[\vec{X}\right]\right\|\le \mathbb{E}\left[\left\|\vec{X}\right\|\right]. \tag{16.1} \end{equation}\] Jeżeli \(A = (A_{i,j})_{i\leq m, j\leq d}\) jest macierzą \(m \times d\), to \(A\vec{Y}\) jest \(m\)-wymiarowym wektorem losowym o średniej \[\begin{equation*} \mathbb{E}\left[A \vec{Y} \right] = A \mathbb{E}\left[\vec{Y}\right]. \end{equation*}\] Jeżeli \(\vec{Y}\) jest wektorem losowy posiadającym wartość oczekiwaną, to \[\begin{equation*} \mathbb{E}\left[a\vec{X}+b\vec{Y}\right] = a\mathbb{E}\left[\vec{X}\right] + b \mathbb{E}\left[\vec{Y}\right] \end{equation*}\] dla dowolnych rzeczywistych \(a\) i \(b\).
Proof. Pierwszy postulat wynika z nierówności \[\begin{equation*} |X_j| \le \left\|\vec{X}\right\| \le \sum_{i=1}^d|X_i|. \end{equation*}\] Druga nierówność jest konsekwencją podaddytywności pierwiastka: \(\sqrt{x+y} \leq \sqrt{x}+\sqrt{y}\) dla dowolnych nieujemnych \(x\) i \(y\). Aby uzasadnić (16.1) rozważmy dowolny wektor długości jeden \(\vec{v}=(v_1,\ldots,v_d)^T\). Mamy \[ \langle \mathbb{E}\left[ \vec{X}\right],\vec{v} \rangle = \sum_{j=1}^d \mathbb{E} [X_j] \cdot v_j = \mathbb{E}\left[ \langle \vec{X},\vec{v} \rangle\right] \le \mathbb{E}\left[ \left\|\vec{X}\right\|\left\|\vec{v}\right\|\right] = \mathbb{E}\left[\left\|\vec{X}\right\|\right]. \] Przyjmując \(v = \mathbb{E}\vec{X}/ |\vec{X}|\) otrzymujemy (16.1). Niech teraz \(A\) będzie dowolną macierzą \(m\times d\). Przypomnijmy, że wówczas \(j\)-ta współrzędna wektora \(A\vec{Y}\) jest równa \[\begin{equation*} \left(A\vec{Y} \right)_j = \sum_{k=1}^dA_{i,k}Y_k. \end{equation*}\] Mamy zatem \[\begin{equation*} \mathbb{E} \left[\left(A\vec{Y} \right)_j\right] =\mathbb{E} \left[\sum_{k=1}^d A_{j,k}Y_k\right] =\sum_{k=1}^d A_{j,k}\mathbb{E} \left[Y_k\right] = \left(A \mathbb{E}\left[\vec{Y} \right]\right)_j. \end{equation*}\] Ostatnia własność wynika wprost w liniowości wartości oczekiwanej zmiennych losowych. □
16.2 Macierz kowariancji
Definicja 16.2 Powiemy, że wektor losowy \(\vec{X}=(X_1, \ldots, X_d)\) jest całkowalny z kwadratem jeżeli wszystkie zmienne \(X_1, \ldots , X_d\) są całkowalne z kwadratem.
Rozumując analogicznie jak w ostatnim twierdzeniu łatwo pokazać, że wektor \(\vec{X}\) jest całkowalny z kwadratem wtedy i tylko wtedy, gdy zmienna losowa \(\|\vec{X}\|\) jest całkowalna z kwadratem.
Definicja 16.3 Niech \(\vec{X}=(X_1,\ldots,X_n)\) będzie \(n\)-wymiarowym wektorem losowym całkowalnym z kwadratem. Macierz \(Q^{\vec{X}} = \left( Q^{\vec{X}}_{i,j} \right)_{i,j\leq n}\) daną przez \[\begin{equation*} Q^{\vec{X}}_{i,j} = \mathrm{Cov}(X_i, X_j) \end{equation*}\] nazywamy macierzą kowariancji wektora \(\vec{X}\).
Macierz kowariancji jest wielowymiarowym uogólnieniem wariancji. Mamy \[ Q^{\vec{X}} = \left[ \begin{array}{cccc} {\rm Cov}(X_1,X_1) & {\rm Cov}(X_1,X_2) & \ldots & {\rm Cov}(X_1,X_n) \\ {\rm Cov}(X_2,X_1) & \cdots & & \\ \vdots & & \ddots & \\ {\rm Cov}(X_n,X_1) & \ldots & & {\rm Cov}(X_n,X_n) \end{array} \right] \]
Jeżeli zmienne losowe \(X_i\) są nieskorelowane, to \(Q\) jest macierzą diagonalną.
Twierdzenie 16.2 Macierz kowariancji \(Q^{\vec{X}}\) wektora losowego \(\vec{X}\) jest symetryczna oraz nieujemnie określona (tzn. dla każdych \(t_1,\ldots, t_n\), \(\sum t_it_j {Q^{\vec{X}}_{ij}}\ge 0\)). Dodatkowo, jeżeli \(A\) jest macierzą \(m \times n\), to macierz kowariancji wektora losowego \(\vec{Y}=A\vec{X}\) jest równa \[\begin{equation*} Q^{\vec{Y}} = Q^{A\vec{X}} = A Q^{\vec{X}} A^T. \end{equation*}\] Wreszcie, jeżeli \(\vec{Z}=\vec{X}+\vec{a}\), dla ustalonego wektora \(\vec{a} \in \mathbb{R}^d\), to \[\begin{equation*} Q^{\vec{Z}} = Q^{\vec{X}+\vec{a}} = Q^{\vec{X}} \end{equation*}\]
Proof. Macierz jest symetryczna, bo \({\rm Cov}(X_i,X_j) = {\rm Cov}(X_j,X_i)\). Do dowodu drugiej części twierdzenia weźmy dowolny ciąg \(t_1,\ldots,t_n\) i zdefiniujmy \(Y = \sum_{j=1}^n t_j X_j\). Wtedy \[\begin{multline*} 0\le \mathbb{V}ar [Y] = \mathbb{E} \left[ \left( \sum_{j=1}^n t_j(X_j - \mathbb{E} [X_j]) \right)^2 \right]\\ = \sum_{i,j=1}^n \mathbb{E} \big[ t_i(X_i - \mathbb{E} X_i) t_j (X_j - \mathbb{E}[ X_j]) \big] = \sum_{i,j=1}^n t_i t_j {\rm Cov} (X_i, X_j). \end{multline*}\] Aby uzasadnić ostatni wzór zauważmy, że operację wartości oczekiwanej możemy w naturalny sposób rozszerzyć do macierzy losowych. Zauważmy też, że mnożąc przez siebie wektor pionowy długości \(n\) i wektor poziomy długości \(n\) otrzymujemy macierz \(n\times n\). Dokładniej \[\begin{equation*} \left(\vec{X} - \mathbb{E}\left[\vec{X}\right] \right) \left(\vec{X} - \mathbb{E}\left[\vec{X}\right] \right)^T= \\ \left[ \begin{array}{cccc} (X_1 - \mathbb{E}[X_1]) (X_1-\mathbb{E}[X_1]) & \ldots & \ldots & (X_1-\mathbb{E}[X_1])(X_n-\mathbb{E}[X_n]) \\ (X_2-\mathbb{E}[X_2])(X_1-\mathbb{E}[X_1]) & \cdots & & \\ \vdots & & \ddots & \\ (X_n-\mathbb{E}[X_n])(X_1-\mathbb{E}[X_1]) & \ldots & & (X_n-\mathbb{E}[X_n])(X_n-\mathbb{E}[X_n]) \end{array} \right] \end{equation*}\] Czyli \[\begin{equation*} Q^{\vec{X}} = \mathbb{E} \left[\left(\vec{X} - \mathbb{E}\left[\vec{X}\right] \right) \left(\vec{X} - \mathbb{E}\left[\vec{X}\right] \right)^T\right] \end{equation*}\] Mamy zatem
\[\begin{align*} Q^{A\vec{X}} = & \mathbb{E} \left[\left(A\vec{X} - \mathbb{E}\left[A\vec{X}\right] \right) \left(A\vec{X} - \mathbb{E}\left[A\vec{X}\right] \right)^T\right] \\ = & A\mathbb{E} \left[\left(\vec{X} - \mathbb{E}\left[\vec{X}\right] \right) \left(\vec{X} - \mathbb{E}\left[\vec{X}\right] \right)^T\right]A^T \\ = & A Q^{\vec{X}}A^T. \end{align*}\] Ostatnia własność wynika z niezmienniczości kowariancji na przesunięcia, tj. \[\begin{equation*} \mathrm{Cov}(Z_i, Z_j) = \mathrm{Cov}(X_i+a_i, X_j+a_j) = \mathrm{Cov}(X_i, X_j). \end{equation*}\] □
Przykład 16.2 Załóżmy, że \(n\)-wymiarowy wektor \(\vec{X}=(X_1, X_2, \ldots, X_n)\) ma rozkład \(\mathcal{N}(\vec{0}, \mathrm{Id})\). Wówczas \[\begin{equation*} f_{\vec{X}}(\vec{x}) = \frac{1}{(2\pi)^{n/2}} e^{-(x_1^2+\ldots + x_n^2)/2} = \prod_{j=1}^n \frac{1}{\sqrt{2\pi}} e^{-x_j^2/2}. \end{equation*}\] Skoro każdy składnik produktu to gęstość standardowego rozkładu normalnego, to \(X_1, \ldots, X_n\) są niezależne ze standardowym rozkładem normalnym. W szczególności zmienne te są nieskorelowane o wariancji jeden, czyli \[\begin{equation*} Q^{\vec{X}} = \mathrm{Id}. \end{equation*}\] Niech teraz \(A\) będzie odwracalną macierzą, a \(\vec{m}\) ustalonym wektorem. Rozważmy \(\vec{Y} = A\vec{X}+\vec{m}\). Wiemy, że wówczas \(\vec{Y}\) ma rozkład \(\mathcal{N}(\vec{m}, \Sigma)\), gdzie \(\Sigma=AA^T\). Mamy \[\begin{equation*} Q^{\vec{Y}} = Q^{A\vec{X}+\vec{m}} = Q^{A\vec{X}} = A Q^{\vec{X}}A^T = AA^T=\Sigma. \end{equation*}\]