3 Prawdopodobieństwo warunkowe

Rozważmy pewien górnolotny przykład. Powiedzmy, że w chwili \(0\) zakupiliśmy opcję kupna na wykupienie akcji spółki w chwili \(1\) po określonej kwocie (taka opcja nazywana jest opcją Europejską). Jesteśmy zatem w sytuacji, której interesuje nas faktyczna wartość akcji tej spółki.

Załóżmy, że w chwili \(0.8\) chcemy ten kontrakt sprzedać. Wówczas do wyceny takiego kontraktu używać będziemy historii ceny akcji na przedziale \([0,0.8]\). Innymi słowy będziemy musieli odpowiedzieć na pytanie, jak zachowanie ceny na przedziale \([0,0.8]\) wpływa na wartość akcji w chwili \(1\)? Wykres ceny akcji na przedziałach \([0,0.8]\) i \([0.8,1]\) możemy traktować jak dwa zależne od siebie eksperymenty losowe. Jak więc informacja o pierwszym wpływa na prawdopodobieństwa poszczególnych wyników w drugim?

Pierwszym krokiem w kierunku takich zaawansowanych zastosowań rachunku prawdopodobieństwa jest zrozumienie pojęcia prawdopodobieństwa warunkowego.

Podstawowe definicje

Rozważmy rzut dwiema kośćmi sześciennymi. Wiemy już, że odpowiadająca temu doświadczeniu przestrzeń zdarzeń elementarnych to
\[ \Omega = [6]^2= \{ (1,1), (1, 2), \ldots , (6,6) \}. \] Jeżeli rozważymy zdarzenie \(A=\) suma oczek na obu kościach wynosi \(6\), to \(A\) jest zbiorem danym przez \[ A= \{ (1,5), (2, 4), (3,3), (4,2), (5,1) \}. \] Zakładać będziemy, że kości są dobrze wyważone. Do opisu tego eksperymentu posłużymy się prawdopodobieństwem \(\mathbb{P}\), które każdemu zdarzeniu elementarnemu przypisuje takie samo prawdopodobieństwo. Wówczas \(\mathbb{P}[A] = 5/36\). Załóżmy teraz, że posiadamy dodatkową informację, że na pierwszej kości wypadło jedno oczko. Wówczas powinniśmy zmienić rozważaną przestrzeń zdarzeń elementarnych, a mianowicie \[ B=\{(1,1), (1,2), (1,3), (1,4), (1,5), (1,6)\} \] Musimy zmienić również sposób przypisywania prawdopodobieństwa na \(\mathbb{P}_1\) przypisujące każdemu zdarzeniu elementarnemu z \(B\) takie samo prawdopodobieństwo. Wówczas zdarzenie \(A_1=\) suma oczek jest równa \(6\) to \[ A_1 = A \cap B =\{ (1,5)\} \] co daje \(\mathbb{P}_1[A_1] = 1/6\). Zauważmy, że \[\begin{align*} \mathbb{P}_1[A_1] & = \mathbb{P}_1[A \cap B ]= \frac{|A \cap B|}{ |B| } \\ & = \frac{|A \cap B| \cdot |\Omega|^{-1}}{ |B| \cdot |\Omega|^{-1} } = \frac{\mathbb{P}[A \cap B]}{\mathbb{P}[B]}. \end{align*}\] Okazuje się, że prawdopodobieństwo \(\mathbb{P}_1\) w nowej przestrzeni probabilistycznej można wyrazić w terminach pierwotnie rozważanego prawdopodobieństwa \(\mathbb{P}\). Ta konstrukcja jest spotykana tak często, że wyrażenie występujące po prawej stronie ostatniego wzoru ma swoją specjalną nazwę.

Definicja 3.1 Niech \((\Omega, \mathcal{F}, \mathbb{P})\) będzie przestrzenią probabilistyczną. Rozważmy zdarzenie \(B\) takie, że \(\mathbb{P}[B]>0\). Prawdopodobieństwem warunkowym (zajścia) zdarzenia \(A\) pod warunkiem (zajścia) zdarzenia \(B\) nazywamy liczbę \[ \mathbb{P}[A|B] = \frac{\mathbb{P}[A\cap B]}{\mathbb{P}[B]}. \]

Przy ustalonym zbiorze \(B\), \(\mathbb{P}[\cdot|B]\) jest miarą probabilistyczną na \((\Omega,\mathcal{F})\).

Prawdopodobieństwo warunkowe jest jednym z ważniejszych pojęć teorii prawdopodobieństwa. Rzadko zdarza się, aby doświadczenie było wykonywane w idealnych warunkach i zazwyczaj jest ono obarczone zewnętrznymi czynnikami, pewną dodatkową informacją. Jest to wykorzystywane np. przez firmy ubezpieczeniowe (polisa samochodu zależy np. od płci i wieku kierowcy; polisa na życie od wieku, przebytych chorób, ryzyka zawodowego), graczy giełdowych. Dla przykładu, wysokość emerytury powinna zależeć (oprócz zgromadzonych środków) od przewidywanej długości życia emeryta, co z kolei zależy od płci (mężczyźni 73,8; kobiety 81,7 - dane wg GUS za 2018r.), ale też aktualnego wieku (przeciętny 60 latek, niezależnie od płci, będzie żył jeszcze średnio 260,7 miesięcy, a 65 latek, 217,1 miesiąca).

Przykład 3.1 Wybieramy losową rodzinę z dwojgiem dzieci. Interesuje nas prawdopodobieństwo, że jest to dwóch chłopców, jeżeli wiemy, że

  1. starsze dziecko jest chłopcem;
  2. jedno z nich ma na imię Franek.

W obu przypadkach \[ \Omega=\{(c,c), (c,d), (d,c), (d,d)\}. \] W przypadku a: \[ \mathbb{P}[\{(c,c)\} | \{(c,c),(d,c)\}] = 1/2, \] a w przypadku b: \[ \mathbb{P}[\{(c,c)\} | \{(c,c),(d,c), (c,d)\}] = 1/3. \]

Wzór na prawdopodobieństwo całkowite

Liczba \(\mathbb{P}[A|B]\) mówi jakie jest prawdopodobieństwo zajścia zdarzenia \(A\) jeżeli wiemy, że zaszło zdarzenie \(B\). Prawdopodobieństwa względem wyjściowej miary \(\mathbb{P}[\cdot]\) można reprezentować w terminach względem miary warunkowanej \(\mathbb{P}[\cdot| B]\). W wielu przypadkach ułatwia to rachunki. Mamy bowiem \[ \mathbb{P}[A\cap B] = \mathbb{P}[B] \mathbb{P}[A|B] \] oraz, skoro zdarzenia \(A\cap B\) oraz \(A\cap B^c\) wykluczają się wzajemnie, \[\begin{align*} \mathbb{P}[A] & = \mathbb{P}[A\cap B] + \mathbb{P}[A\cap B^c] \\&= \mathbb{P}[B]\mathbb{P}[A|B] + \mathbb{P}[B^c]\mathbb{P}[A|B^c]. \end{align*}\] Ostatni wzór jest szczególnie pomocny kiedy eksperymenty podzielone są na etapy. Zanim zbadamy konkretny przykład uogólnijmy powyższy rachunek na dowolną liczbę zdarzeń.

Definicja 3.2 Niech \(I \subseteq \mathbb{N}\) będzie zbiorem indeksów. Mówimy, że rodzina zdarzeń \(\{B_k\}_{k\in I}\) (dopuszczamy \(|I|=\infty\)) jest rozbiciem zbioru \(\Omega\), jeżeli \[ \Omega = \bigcup_{k \in I} B_k \] oraz zbiory \(B_k\) są parami rozłączne.

Twierdzenie 3.1 (Wzór na prawdopodobieństwo całkowite) Jeżeli \(\{B_k\}_{k \in I}\) jest rozbiciem \(\Omega\) (skończonym lub przeliczalnym) takim, że \(\mathbb{P}[B_k]>0\) dla każdego \(k\in I\), to dla dowolnego zdarzenia \(A\in \mathcal{F}\) \[ \mathbb{P}[A] = \sum_{k \in I} \mathbb{P}[A|B_k]\mathbb{P}[B_k] \]

Proof. Korzystając z definicji rozbicia oraz prawdopodobieństwa warunkowego piszemy \[\begin{align*} \mathbb{P}[A] & = \mathbb{P}\left[ A\cap \bigcup_{k\in I} B_k\right] = \mathbb{P}\left[ \bigcup_{k\in I} (A\cap B_k)\right] \\ & = \sum_{k\in I} \mathbb{P}[ A\cap B_k] = \sum_{k\in I} \mathbb{P}[A|B_k]\mathbb{P}[B_k]. \end{align*}\]

Przykład 3.2 W loterii fantowej szansa wylosowania losu wygrywającego jest równa \(p\), przegrywającego \(q\), a z prawdopodobieństwem \(r\) (\(p+q+r=1\)) wyciągamy los ‘graj dalej’. Los ‘graj dalej’ wrzucany jest do urny i pozwala na kolejne losowanie. Jakie jest prawdopodobieństwo wygranej? Oznaczmy przez \(A\), \(B\), \(C\) zdarzenie polegające na wyciągnięciu losu odpowiednio wygrywającego, przegrywającego, ‘graj dalej’, a przez \(W\) zdarzenie wygrania w loterii. Wówczas \[\begin{align*} \mathbb{P}[W] =& \mathbb{P}[W|A]\mathbb{P}[A]+\mathbb{P}[W|B]\mathbb{P}[B]\\ &+\mathbb{P}[W|C]\mathbb{P}[C] \\ =& 1\cdot p + 0\cdot q + \mathbb{P}[W]\cdot r. \end{align*}\] Zatem \[ \mathbb{P}[W] = \frac{p}{1-r} = \frac p{p+q}. \]

Wzór Bayesa

Przykład 3.3 Rozważmy następujący test na obecność pewnej choroby. Wiadomo, że \(1\) osoba na \(1000\) jest chora. Ponadto wiemy, że u chorych test wykrywa chorobę z prawdopodobieństwem \(99\%\), a u osób zdrowych działa poprawnie (tzn. nie wykrywa choroby) z prawdopodobieństwem \(95\%\). Jakie jest prawdopodobieństwo, że u losowo wybranej osoby wynik będzie pozytywny? Oznaczmy

  • \(C\) - badana osoba jest chora;
  • \(Z\) - badana osoba jest zdrowa;
  • \(T\) - test był pozytywny. Mamy \[\begin{align*} \mathbb{P}[T] & = \mathbb{P}[T|Z]\mathbb{P}[Z] + \mathbb{P}[T|C]\mathbb{P}[C] \\ & = \frac{5}{100}\cdot \frac{999}{1000} + \frac{99}{100}\cdot \frac{1}{1000} = \frac{5094}{100000} \\& =0.05094 \end{align*}\]

Zauważmy, że w powyższym przykładzie jest naturalne, o wiele istotniejsze pytanie. Jeżeli test wyszedł pozytywny, jakie jest prawdopodobieństwo, że pacjent jest rzeczywiście chory? Pytamy więc o przyczynę pozytywnego wyniku. Z jakim prawdopodobieństwem wynik jest spowodowany przez chorobę? Z jakim prawdopodobieństwem wynik jest fałszywie pozytywny? Odpowiedzi na powyższe pytanie możemy udzielić stosując wzór Bayesa.

Twierdzenie 3.2 (Wzór Bayesa) Przy założeniach jw. jeżeli \(\mathbb{P}[A]>0\), to dla każdego \(k\in I\), \[ \mathbb{P}[B_k| A] = \frac{\mathbb{P}[A|B_k]\mathbb{P}[B_k]}{\sum_{i \in I} \mathbb{P}[A|B_i]\mathbb{P}[B_i]}. \]

Proof. Ze wzoru na prawdopodobieństwo całkowite \[ \frac{\mathbb{P}[A|B_k]\mathbb{P}[B_k]}{\sum_{i \in I} \mathbb{P}[A|B_i]\mathbb{P}[B_i]} = \frac{\mathbb{P}[A\cap B_k]}{\mathbb{P}[A]} = \mathbb{P}B_k| A]. \]

Remark. Ze względu na strukturę wzorów w dwóch ostatnich twierdzeniach korzysta się z nich w różnych kontekstach.

  • Wzór na prawdopodobieństwo całkowite pozwala na obliczanie prawdopodobieństw zdarzeń, które mogą zajść w wyniku innych zdarzeń, np. przy doświadczeniach wieloetapowych.
  • Wzoru Bayesa używamy, gdy pytamy o przebieg doświadczenia znając już jego wynik.

Przykład 3.4 Mamy \(100\) monet, spośród których jedna jest fałszywa i ma orła po obu stronach. Wybieramy losową monetę i rzucamy nią \(10\) razy. W wyniku otrzymaliśmy \(10\) orłów. Jakie jest prawdopodobieństwo, że wylosowana moneta była fałszywa? Oznaczmy zdarzenia

  • \(B_1\) - wylosowaliśmy prawidłową monetę;
  • \(B_2\) - wylosowaliśmy fałszywą monetę z dwoma orłami;
  • \(A\) - wyrzucono \(10\) orłów.

Ze wzoru Bayesa \[\begin{align*} \mathbb{P}[B_2|A] & = \frac{\mathbb{P}[A|B_2]\mathbb{P}[B_2]}{\mathbb{P}[A|B_1]\mathbb{P}[B_1] + \mathbb{P}[A|B_2]\mathbb{P}[B_2]} \\& = \frac{1\cdot \frac{1}{100}}{\frac 1{2^{10}}\cdot \frac{99}{100} + 1\cdot \frac 1{100}} = \frac{1024}{1123}\\ &\approx 0,91. \end{align*}\]

Przykład 3.5 U pacjenta przeprowadzono test na obecność pewnej choroby. Wiadomo, że \(1\) osoba na \(1000\) jest chora. Ponadto wiemy, że u chorych test wykrywa chorobę z prawdopodobieństwem \(99\%\), a u osób zdrowych działa poprawnie (tzn. nie wykrywa choroby) z prawdopodobieństwem \(95\%\). Załóżmy, że u pacjenta test był pozytywny. Jakie jest prawdopodobieństwo, że jest on chory? Oznaczmy - \(C\) - badana osoba jest chora; - \(Z\) - badana osoba jest zdrowa; - \(T\) - test był pozytywny. Ze wzoru Bayesa \[\begin{align*} \mathbb{P}[C|T] & = \frac{\mathbb{P}[T|C]\mathbb{P}[C]}{\mathbb{P}[T|Z]\mathbb{P}[Z] + \mathbb{P}[T|C]\mathbb{P}[C]} \\ & =\frac{ \frac{99}{100}\cdot \frac{1}{1000} }{ \frac{5}{100}\cdot \frac{999}{1000} + \frac{99}{100}\cdot \frac{1}{1000} } = \frac{99}{5094} \\& \approx 0,019. \end{align*}\] Powyższy wynik jest zaskakujący. Zobaczmy jak wygląda on na przykładowych liczbach. Jeżeli populacja składa się ze \(100000\) osób, to wśród nich jest ok. \(100\) chorych i \(99900\) zdrowych. Aby lepiej zrozumieć dysproporcję można posłużyć się poniższym obrazkiem, gdzie stosunek pola małego kwadratu w lewym dolnym rogu do całości obrazka to dokładnie 1:1000.

Spośród chorych u \(99\) osób test wyjdzie pozytywny, a spośród zdrowych u \(4995\).
Ograniczenie przestrzeni probabilistycznej do osób, u których test wyszedł pozytywny, pozostawia nas w przestrzeni składającej się niemal wyłącznie z osób zdrowych.
Zauważmy, że powtórzenie testu niewiele poprawia jego skuteczność, dlatego też ważna jest informacja o innych czynnikach związanych z chorobą (np. informacja genetyczna).