3 Prawdopodobieństwo warunkowe
Rozważmy pewien górnolotny przykład. Powiedzmy, że w chwili \(0\) zakupiliśmy opcję kupna na wykupienie akcji spółki w chwili \(1\) po określonej kwocie (taka opcja nazywana jest opcją Europejską). Jesteśmy zatem w sytuacji, której interesuje nas faktyczna wartość akcji tej spółki.
Załóżmy, że w chwili \(0.8\) chcemy ten kontrakt sprzedać. Wówczas do wyceny takiego kontraktu używać będziemy historii ceny akcji na przedziale \([0,0.8]\). Innymi słowy będziemy musieli odpowiedzieć na pytanie, jak zachowanie ceny na przedziale \([0,0.8]\) wpływa na wartość akcji w chwili \(1\)? Wykres ceny akcji na przedziałach \([0,0.8]\) i \([0.8,1]\) możemy traktować jak dwa zależne od siebie eksperymenty losowe. Jak więc informacja o pierwszym wpływa na prawdopodobieństwa poszczególnych wyników w drugim?
Pierwszym krokiem w kierunku takich zaawansowanych zastosowań rachunku prawdopodobieństwa jest zrozumienie pojęcia prawdopodobieństwa warunkowego.
Podstawowe definicje
Rozważmy rzut dwiema kośćmi sześciennymi. Wiemy już, że odpowiadająca temu doświadczeniu przestrzeń zdarzeń elementarnych to
\[
\Omega = [6]^2= \{ (1,1), (1, 2), \ldots , (6,6) \}.
\]
Jeżeli rozważymy zdarzenie \(A=\) suma oczek na obu kościach wynosi \(6\), to \(A\) jest zbiorem danym przez
\[
A= \{ (1,5), (2, 4), (3,3), (4,2), (5,1) \}.
\]
Zakładać będziemy, że kości są dobrze wyważone.
Do opisu tego eksperymentu posłużymy się prawdopodobieństwem \(\mathbb{P}\), które każdemu zdarzeniu
elementarnemu przypisuje takie samo prawdopodobieństwo.
Wówczas \(\mathbb{P}[A] = 5/36\).
Załóżmy teraz, że posiadamy dodatkową informację, że na pierwszej kości wypadło jedno oczko.
Wówczas powinniśmy zmienić rozważaną przestrzeń zdarzeń elementarnych, a mianowicie
\[
B=\{(1,1), (1,2), (1,3), (1,4), (1,5), (1,6)\}
\]
Musimy zmienić również sposób przypisywania prawdopodobieństwa na \(\mathbb{P}_1\) przypisujące każdemu
zdarzeniu elementarnemu z \(B\) takie samo prawdopodobieństwo.
Wówczas zdarzenie \(A_1=\) suma oczek jest równa \(6\) to
\[
A_1 = A \cap B =\{ (1,5)\}
\]
co daje \(\mathbb{P}_1[A_1] = 1/6\). Zauważmy, że
\[\begin{align*}
\mathbb{P}_1[A_1] & = \mathbb{P}_1[A \cap B ]= \frac{|A \cap B|}{ |B| } \\ & =
\frac{|A \cap B| \cdot |\Omega|^{-1}}{ |B| \cdot |\Omega|^{-1} } = \frac{\mathbb{P}[A \cap B]}{\mathbb{P}[B]}.
\end{align*}\]
Okazuje się, że prawdopodobieństwo \(\mathbb{P}_1\) w nowej przestrzeni probabilistycznej można wyrazić w
terminach pierwotnie rozważanego prawdopodobieństwa \(\mathbb{P}\).
Ta konstrukcja jest spotykana tak często, że wyrażenie występujące po prawej stronie ostatniego
wzoru ma swoją specjalną nazwę.
Definicja 3.1 Niech \((\Omega, \mathcal{F}, \mathbb{P})\) będzie przestrzenią probabilistyczną. Rozważmy zdarzenie \(B\) takie, że \(\mathbb{P}[B]>0\). Prawdopodobieństwem warunkowym (zajścia) zdarzenia \(A\) pod warunkiem (zajścia) zdarzenia \(B\) nazywamy liczbę \[ \mathbb{P}[A|B] = \frac{\mathbb{P}[A\cap B]}{\mathbb{P}[B]}. \]
Przy ustalonym zbiorze \(B\), \(\mathbb{P}[\cdot|B]\) jest miarą probabilistyczną na \((\Omega,\mathcal{F})\).
Prawdopodobieństwo warunkowe jest jednym z ważniejszych pojęć teorii prawdopodobieństwa. Rzadko zdarza się, aby doświadczenie było wykonywane w idealnych warunkach i zazwyczaj jest ono obarczone zewnętrznymi czynnikami, pewną dodatkową informacją. Jest to wykorzystywane np. przez firmy ubezpieczeniowe (polisa samochodu zależy np. od płci i wieku kierowcy; polisa na życie od wieku, przebytych chorób, ryzyka zawodowego), graczy giełdowych. Dla przykładu, wysokość emerytury powinna zależeć (oprócz zgromadzonych środków) od przewidywanej długości życia emeryta, co z kolei zależy od płci (mężczyźni 73,8; kobiety 81,7 - dane wg GUS za 2018r.), ale też aktualnego wieku (przeciętny 60 latek, niezależnie od płci, będzie żył jeszcze średnio 260,7 miesięcy, a 65 latek, 217,1 miesiąca).
Przykład 3.1 Wybieramy losową rodzinę z dwojgiem dzieci. Interesuje nas prawdopodobieństwo, że jest to dwóch chłopców, jeżeli wiemy, że
- starsze dziecko jest chłopcem;
- jedno z nich ma na imię Franek.
W obu przypadkach \[ \Omega=\{(c,c), (c,d), (d,c), (d,d)\}. \] W przypadku a: \[ \mathbb{P}[\{(c,c)\} | \{(c,c),(d,c)\}] = 1/2, \] a w przypadku b: \[ \mathbb{P}[\{(c,c)\} | \{(c,c),(d,c), (c,d)\}] = 1/3. \]
Wzór na prawdopodobieństwo całkowite
Liczba \(\mathbb{P}[A|B]\) mówi jakie jest prawdopodobieństwo zajścia zdarzenia \(A\) jeżeli wiemy, że zaszło zdarzenie \(B\). Prawdopodobieństwa względem wyjściowej miary \(\mathbb{P}[\cdot]\) można reprezentować w terminach względem miary warunkowanej \(\mathbb{P}[\cdot| B]\). W wielu przypadkach ułatwia to rachunki. Mamy bowiem \[ \mathbb{P}[A\cap B] = \mathbb{P}[B] \mathbb{P}[A|B] \] oraz, skoro zdarzenia \(A\cap B\) oraz \(A\cap B^c\) wykluczają się wzajemnie, \[\begin{align*} \mathbb{P}[A] & = \mathbb{P}[A\cap B] + \mathbb{P}[A\cap B^c] \\&= \mathbb{P}[B]\mathbb{P}[A|B] + \mathbb{P}[B^c]\mathbb{P}[A|B^c]. \end{align*}\] Ostatni wzór jest szczególnie pomocny kiedy eksperymenty podzielone są na etapy. Zanim zbadamy konkretny przykład uogólnijmy powyższy rachunek na dowolną liczbę zdarzeń.
Definicja 3.2 Niech \(I \subseteq \mathbb{N}\) będzie zbiorem indeksów. Mówimy, że rodzina zdarzeń \(\{B_k\}_{k\in I}\) (dopuszczamy \(|I|=\infty\)) jest rozbiciem zbioru \(\Omega\), jeżeli \[ \Omega = \bigcup_{k \in I} B_k \] oraz zbiory \(B_k\) są parami rozłączne.
Twierdzenie 3.1 (Wzór na prawdopodobieństwo całkowite) Jeżeli \(\{B_k\}_{k \in I}\) jest rozbiciem \(\Omega\) (skończonym lub przeliczalnym) takim, że \(\mathbb{P}[B_k]>0\) dla każdego \(k\in I\), to dla dowolnego zdarzenia \(A\in \mathcal{F}\) \[ \mathbb{P}[A] = \sum_{k \in I} \mathbb{P}[A|B_k]\mathbb{P}[B_k] \]
Proof. Korzystając z definicji rozbicia oraz prawdopodobieństwa warunkowego piszemy \[\begin{align*} \mathbb{P}[A] & = \mathbb{P}\left[ A\cap \bigcup_{k\in I} B_k\right] = \mathbb{P}\left[ \bigcup_{k\in I} (A\cap B_k)\right] \\ & = \sum_{k\in I} \mathbb{P}[ A\cap B_k] = \sum_{k\in I} \mathbb{P}[A|B_k]\mathbb{P}[B_k]. \end{align*}\]
Przykład 3.2 W loterii fantowej szansa wylosowania losu wygrywającego jest równa \(p\), przegrywającego \(q\), a z prawdopodobieństwem \(r\) (\(p+q+r=1\)) wyciągamy los ‘graj dalej’. Los ‘graj dalej’ wrzucany jest do urny i pozwala na kolejne losowanie. Jakie jest prawdopodobieństwo wygranej? Oznaczmy przez \(A\), \(B\), \(C\) zdarzenie polegające na wyciągnięciu losu odpowiednio wygrywającego, przegrywającego, ‘graj dalej’, a przez \(W\) zdarzenie wygrania w loterii. Wówczas \[\begin{align*} \mathbb{P}[W] =& \mathbb{P}[W|A]\mathbb{P}[A]+\mathbb{P}[W|B]\mathbb{P}[B]\\ &+\mathbb{P}[W|C]\mathbb{P}[C] \\ =& 1\cdot p + 0\cdot q + \mathbb{P}[W]\cdot r. \end{align*}\] Zatem \[ \mathbb{P}[W] = \frac{p}{1-r} = \frac p{p+q}. \]
Wzór Bayesa
Przykład 3.3 Rozważmy następujący test na obecność pewnej choroby. Wiadomo, że \(1\) osoba na \(1000\) jest chora. Ponadto wiemy, że u chorych test wykrywa chorobę z prawdopodobieństwem \(99\%\), a u osób zdrowych działa poprawnie (tzn. nie wykrywa choroby) z prawdopodobieństwem \(95\%\). Jakie jest prawdopodobieństwo, że u losowo wybranej osoby wynik będzie pozytywny? Oznaczmy
- \(C\) - badana osoba jest chora;
- \(Z\) - badana osoba jest zdrowa;
- \(T\) - test był pozytywny. Mamy \[\begin{align*} \mathbb{P}[T] & = \mathbb{P}[T|Z]\mathbb{P}[Z] + \mathbb{P}[T|C]\mathbb{P}[C] \\ & = \frac{5}{100}\cdot \frac{999}{1000} + \frac{99}{100}\cdot \frac{1}{1000} = \frac{5094}{100000} \\& =0.05094 \end{align*}\]
Zauważmy, że w powyższym przykładzie jest naturalne, o wiele istotniejsze pytanie. Jeżeli test wyszedł pozytywny, jakie jest prawdopodobieństwo, że pacjent jest rzeczywiście chory? Pytamy więc o przyczynę pozytywnego wyniku. Z jakim prawdopodobieństwem wynik jest spowodowany przez chorobę? Z jakim prawdopodobieństwem wynik jest fałszywie pozytywny? Odpowiedzi na powyższe pytanie możemy udzielić stosując wzór Bayesa.
Twierdzenie 3.2 (Wzór Bayesa) Przy założeniach jw. jeżeli \(\mathbb{P}[A]>0\), to dla każdego \(k\in I\), \[ \mathbb{P}[B_k| A] = \frac{\mathbb{P}[A|B_k]\mathbb{P}[B_k]}{\sum_{i \in I} \mathbb{P}[A|B_i]\mathbb{P}[B_i]}. \]
Proof. Ze wzoru na prawdopodobieństwo całkowite \[ \frac{\mathbb{P}[A|B_k]\mathbb{P}[B_k]}{\sum_{i \in I} \mathbb{P}[A|B_i]\mathbb{P}[B_i]} = \frac{\mathbb{P}[A\cap B_k]}{\mathbb{P}[A]} = \mathbb{P}B_k| A]. \]
Remark. Ze względu na strukturę wzorów w dwóch ostatnich twierdzeniach korzysta się z nich w różnych kontekstach.
- Wzór na prawdopodobieństwo całkowite pozwala na obliczanie prawdopodobieństw zdarzeń, które mogą zajść w wyniku innych zdarzeń, np. przy doświadczeniach wieloetapowych.
- Wzoru Bayesa używamy, gdy pytamy o przebieg doświadczenia znając już jego wynik.
Przykład 3.4 Mamy \(100\) monet, spośród których jedna jest fałszywa i ma orła po obu stronach. Wybieramy losową monetę i rzucamy nią \(10\) razy. W wyniku otrzymaliśmy \(10\) orłów. Jakie jest prawdopodobieństwo, że wylosowana moneta była fałszywa? Oznaczmy zdarzenia
- \(B_1\) - wylosowaliśmy prawidłową monetę;
- \(B_2\) - wylosowaliśmy fałszywą monetę z dwoma orłami;
- \(A\) - wyrzucono \(10\) orłów.
Ze wzoru Bayesa \[\begin{align*} \mathbb{P}[B_2|A] & = \frac{\mathbb{P}[A|B_2]\mathbb{P}[B_2]}{\mathbb{P}[A|B_1]\mathbb{P}[B_1] + \mathbb{P}[A|B_2]\mathbb{P}[B_2]} \\& = \frac{1\cdot \frac{1}{100}}{\frac 1{2^{10}}\cdot \frac{99}{100} + 1\cdot \frac 1{100}} = \frac{1024}{1123}\\ &\approx 0,91. \end{align*}\]
Przykład 3.5 U pacjenta przeprowadzono test na obecność pewnej choroby. Wiadomo, że \(1\) osoba na \(1000\) jest chora. Ponadto wiemy, że u chorych test wykrywa chorobę z prawdopodobieństwem \(99\%\), a u osób zdrowych działa poprawnie (tzn. nie wykrywa choroby) z prawdopodobieństwem \(95\%\). Załóżmy, że u pacjenta test był pozytywny. Jakie jest prawdopodobieństwo, że jest on chory? Oznaczmy - \(C\) - badana osoba jest chora; - \(Z\) - badana osoba jest zdrowa; - \(T\) - test był pozytywny. Ze wzoru Bayesa \[\begin{align*} \mathbb{P}[C|T] & = \frac{\mathbb{P}[T|C]\mathbb{P}[C]}{\mathbb{P}[T|Z]\mathbb{P}[Z] + \mathbb{P}[T|C]\mathbb{P}[C]} \\ & =\frac{ \frac{99}{100}\cdot \frac{1}{1000} }{ \frac{5}{100}\cdot \frac{999}{1000} + \frac{99}{100}\cdot \frac{1}{1000} } = \frac{99}{5094} \\& \approx 0,019. \end{align*}\] Powyższy wynik jest zaskakujący. Zobaczmy jak wygląda on na przykładowych liczbach. Jeżeli populacja składa się ze \(100000\) osób, to wśród nich jest ok. \(100\) chorych i \(99900\) zdrowych. Aby lepiej zrozumieć dysproporcję można posłużyć się poniższym obrazkiem, gdzie stosunek pola małego kwadratu w lewym dolnym rogu do całości obrazka to dokładnie 1:1000.
Spośród chorych u \(99\) osób test wyjdzie pozytywny, a spośród zdrowych u \(4995\).
Ograniczenie przestrzeni probabilistycznej do osób, u których test wyszedł pozytywny,
pozostawia nas w przestrzeni składającej się niemal wyłącznie z osób zdrowych.
Zauważmy, że powtórzenie testu niewiele poprawia jego skuteczność, dlatego też
ważna jest informacja o innych czynnikach związanych z chorobą (np. informacja genetyczna).