ベイズの定理

観測された結果から、原因側の確率を計算する

難易度 Lv 4 / 10想定時間:約25

できるようになること


陽性なら病気?:条件を入れ替えると確率が変わる

検査の結果が「陽性」だったとき、その人が本当に病気である確率を考えます。

まず事象を次の通り定義します。

次の3つの確率が分かっているとします。

陽性であった人が本当に病気である確率は、P(AB)P(A \mid B) と書けます。

まずやりがちな間違いとしては、「病気の人が陽性になる確率が 0.99 なのだから、陽性なら病気である確率も 0.99 だ」と考えてしまうことです。 しかし、P(AB)P(A \mid B)P(BA)P(B \mid A) は一般には同じ値になりません

全員で10万人いるとして、実際に確率を計算してみましょう。

陽性の人は合計で 99人 + 999人 = 1,098人います。 そのうち病気の人は 99人なので、

P(AB)=991,0980.090P(A \mid B) = \dfrac{99}{1{,}098} \approx 0.090

つまり、この設定では、陽性であった人が本当に病気である確率は約9%となります。 (これは感覚よりもかなり低いのではないでしょうか?)

いま行ったことは、「陽性」という条件で集団を絞り、その中で病気の割合を数えなおしただけです。 この数えなおしを数学の言葉で表現したものが、ベイズの定理(Bayes' theorem) です。

ベイズの定理:条件付き確率の定義から導く

条件付き確率の定義を、別の形に書き換えます。

P(AB)=P(AB)P(B)P(A \cap B) = P(A \mid B) \cdot P(B)

同様に、

P(AB)=P(BA)P(A)P(A \cap B) = P(B \mid A) \cdot P(A)

これらの式から P(AB)P(B)=P(BA)P(A)P(A \mid B) \cdot P(B) = P(B \mid A) \cdot P(A) となります。 P(AB)P(A \mid B) について解くことで、

P(AB)=P(BA)P(A)P(B)P(A \mid B) = \dfrac{P(B \mid A) \cdot P(A)}{P(B)}

を得ます。この式をベイズの定理といいます。

ベイズの定理では各確率に以下の名前がついています。

分母 P(B)P(B) の作り方:全確率の定理

ベイズの定理を使って P(AB)P(A \mid B) を計算するには、P(A)P(A)P(B)P(B)P(BA)P(B \mid A) の3つが必要です。 このうち P(B)P(B) が手元にないときは、全確率の定理P(B)P(B) を計算します。

まず BBAA が起きる場合と起きない場合で漏れなくダブりなく分解します。

B=(AB)(AcB)B = (A \cap B) \cup (A^c \cap B)

この2つは重なりがないので、

P(B)=P(AB)+P(AcB)P(B) = P(A \cap B) + P(A^c \cap B)

それぞれを条件付き確率を使って書き直すと、

P(B)=P(BA)P(A)+P(BAc)P(Ac)P(B) = P(B \mid A) \cdot P(A) + P(B \mid A^c) \cdot P(A^c)

が成り立ちます。この式を全確率の定理と呼びます。

より一般的に、互いに重ならず Ω\Omega 全体を分けることができる事象 A1,,AnA_1, \cdots, A_n に対しては、

P(B)=i=1nP(BAi)P(Ai)P(B) = \sum_{i=1}^{n} P(B \mid A_i) \cdot P(A_i)

と書きます。

検査の例をベイズの定理を使って計算する

ベイズの定理より、

P(AB)=P(BA)P(A)P(B)P(A \mid B) = \dfrac{P(B \mid A) \cdot P(A)}{P(B)}

P(BA)P(B \mid A)P(A)P(A) は与えられているので、残る P(B)P(B) を全確率の定理で計算します。 P(Ac)=1P(A)=0.999P(A^c) = 1 - P(A) = 0.999 なので、

P(B)=0.99×0.001+0.01×0.999=0.01098P(B) = 0.99 \times 0.001 + 0.01 \times 0.999 = 0.01098

よって、

P(AB)=0.99×0.0010.010980.090P(A \mid B) = \dfrac{0.99 \times 0.001}{0.01098} \approx 0.090

となり、先ほど数えて計算した結果と一致します。

まとめ

P(AB)P(A \mid B)P(BA)P(B \mid A) は一般には一致しません。 片方が分かっているときにもう片方を計算する方法が、ベイズの定理 です。

P(AB)=P(BA)P(A)P(B)P(A \mid B) = \dfrac{P(B \mid A) \cdot P(A)}{P(B)}

ベイズの定理を使うときの確認ポイントは2つです。