ベイズの定理

観測された結果から、原因側の確率を計算する

難易度 Lv 4 / 10想定時間：約25分

できるようになること

ベイズの定理の式を書いて、事後確率を計算できる
全確率の定理を使って分母 $P(B)$ を計算できる
$P(A \mid B)$ と $P(B \mid A)$ を混同せず、どちらを求めるべきかを判断できる

陽性なら病気？：条件を入れ替えると確率が変わる

検査の結果が「陽性」だったとき、その人が本当に病気である確率を考えます。

まず事象を次の通り定義します。

$A$ ：病気である
$B$ ：検査で陽性が出る
$A^c$ ：病気でない（ $A$ の余事象）

次の3つの確率が分かっているとします。

病気の人が陽性になる確率： $P(B \mid A) = 0.99$
病気でない人が陽性になる確率： $P(B \mid A^c) = 0.01$
そもそも病気である確率（有病率）： $P(A) = 0.001$

陽性であった人が本当に病気である確率は、 $P(A \mid B)$ と書けます。

まずやりがちな間違いとしては、「病気の人が陽性になる確率が 0.99 なのだから、陽性なら病気である確率も 0.99 だ」と考えてしまうことです。しかし、 $P(A \mid B)$ と $P(B \mid A)$ は一般には同じ値になりません。

全員で10万人いるとして、実際に確率を計算してみましょう。

病気の人の数：100,000人 × 0.001 = 100人 → そのうち陽性の人の数：100人 × 0.99 = 99人
病気でない人の数：100,000人 − 100人 = 99,900人 → そのうち陽性の人の数：99,900 × 0.01 = 999人

陽性の人は合計で 99人 + 999人 = 1,098人います。そのうち病気の人は 99人なので、

$P(A \mid B) = \dfrac{99}{1{,}098} \approx 0.090$

つまり、この設定では、陽性であった人が本当に病気である確率は約9%となります。（これは感覚よりもかなり低いのではないでしょうか？）

いま行ったことは、「陽性」という条件で集団を絞り、その中で病気の割合を数えなおしただけです。この数えなおしを数学の言葉で表現したものが、ベイズの定理（Bayes' theorem）です。

ベイズの定理：条件付き確率の定義から導く

条件付き確率の定義を、別の形に書き換えます。

$P(A \cap B) = P(A \mid B) \cdot P(B)$

同様に、

$P(A \cap B) = P(B \mid A) \cdot P(A)$

これらの式から $P(A \mid B) \cdot P(B) = P(B \mid A) \cdot P(A)$ となります。 $P(A \mid B)$ について解くことで、

$P(A \mid B) = \dfrac{P(B \mid A) \cdot P(A)}{P(B)}$

を得ます。この式をベイズの定理といいます。

ベイズの定理では各確率に以下の名前がついています。

$P(A)$ ：事前確率（観測 $B$ を見る前の $A$ の確率）
$P(B \mid A)$ ：尤度（ $A$ が起きているときに $B$ が観測される確率）
$P(A \mid B)$ ：事後確率（ $B$ を観測したあとの $A$ の確率）

分母 $P(B)$ の作り方：全確率の定理

ベイズの定理を使って $P(A \mid B)$ を計算するには、 $P(A)$ 、 $P(B)$ 、 $P(B \mid A)$ の3つが必要です。このうち $P(B)$ が手元にないときは、全確率の定理 で $P(B)$ を計算します。

まず $B$ を $A$ が起きる場合と起きない場合で漏れなくダブりなく分解します。

$B = (A \cap B) \cup (A^c \cap B)$

この2つは重なりがないので、

$P(B) = P(A \cap B) + P(A^c \cap B)$

それぞれを条件付き確率を使って書き直すと、

$P(B) = P(B \mid A) \cdot P(A) + P(B \mid A^c) \cdot P(A^c)$

が成り立ちます。この式を全確率の定理と呼びます。

より一般的に、互いに重ならず $\Omega$ 全体を分けることができる事象 $A_1, \cdots, A_n$ に対しては、

$P(B) = \sum_{i=1}^{n} P(B \mid A_i) \cdot P(A_i)$

と書きます。

検査の例をベイズの定理を使って計算する

ベイズの定理より、

$P(A \mid B) = \dfrac{P(B \mid A) \cdot P(A)}{P(B)}$

$P(B \mid A)$ 、 $P(A)$ は与えられているので、残る $P(B)$ を全確率の定理で計算します。 $P(A^c) = 1 - P(A) = 0.999$ なので、

$P(B) = 0.99 \times 0.001 + 0.01 \times 0.999 = 0.01098$

よって、

$P(A \mid B) = \dfrac{0.99 \times 0.001}{0.01098} \approx 0.090$

となり、先ほど数えて計算した結果と一致します。

まとめ

$P(A \mid B)$ と $P(B \mid A)$ は一般には一致しません。片方が分かっているときにもう片方を計算する方法が、ベイズの定理 です。

$P(A \mid B) = \dfrac{P(B \mid A) \cdot P(A)}{P(B)}$

ベイズの定理を使うときは、何が「原因側」（ $A$ ）で何が「観測された結果」（ $B$ ）かを整理し、事前確率 $P(A)$ と尤度 $P(B \mid A)$ が手元にあるか確認します。 $P(B)$ が手元にない場合は、全確率の定理 $P(B) = P(B \mid A) \cdot P(A) + P(B \mid A^c) \cdot P(A^c)$ で作ります。

ベイズの定理

できるようになること

陽性なら病気？：条件を入れ替えると確率が変わる

ベイズの定理：条件付き確率の定義から導く

分母 P(B)P(B)P(B) の作り方：全確率の定理

検査の例をベイズの定理を使って計算する

まとめ

分母 $P(B)$ の作り方：全確率の定理