二項分布

二者択一を、決められた回数繰り返す

難易度 Lv 4 / 10想定時間：約25分

できるようになること

二項分布の4つの前提を確認し、使えるかどうかを判断できる
$P(X=k) = {}_n C_k \, p^k (1-p)^{n-k}$ を使って確率を計算できる
期待値 $np$ と分散 $np(1-p)$ を求められる

不良品は何個になるか

ある工場で、製品を100個検査します。過去のデータから、各製品が不良品になる確率は5%だとします。 100個のうち不良品は何個になるでしょうか。平均的には5個になりそうですが、実際には3個だったり、8個だったりします。

このように「確率 $p$ で起こる出来事を $n$ 回試すとき、成功（起きた回数）が何回になるか」を表す確率分布を二項分布（binomial distribution）といいます。

二項分布を使うと、「ちょうど5個が不良品になる確率」や「10個以上が不良品になる確率」を計算できます。

二項分布とは何か

1回の試行で結果が2択（成功／失敗）になり、成功確率が毎回同じ $p$ だとします。これを $n$ 回繰り返したとき、成功した回数を確率変数 $X$ とおきます。

この $X$ が二項分布に従うとき、次のように書きます。

$X \sim B(n, p)$

この単元では、まず「二項分布に従う」と言えるための前提を確認し、その後で確率の計算式を扱います。

二項分布が成り立つための4つの前提

二項分布は便利ですが、使う前に前提を確認します。前提が成り立たないと、計算した確率が実態とずれる可能性があるためです。

前提	意味	品質検査（100個）の例
1. 試行回数が固定	試行回数があらかじめ $n$ 回と決まっている	$n=100$ 個を検査する
2. 結果は2択	各試行の結果が「成功／失敗」の2種類だけ	不良品（成功）／良品（失敗）
3. 成功確率が一定	どの試行でも成功確率が $p$ で変わらない	どの製品も不良品になる確率が5%
4. 独立	ある試行の結果が他の試行の確率に影響しない	ある製品の不良が他の製品に影響しない

前提が怪しいときの確認ポイント

前提ごとに「どこを確認するとよいか」を整理します。前提が成り立たないと分かった場合でも、別のモデルに置き換えたり、データの取り方を見直したりすることで対応できる場合があります。

前提1：試行回数が最初から決まっているか

「不良品が5個出たら検査を止める」とすると、試行回数が結果で変わります。これでは $n$ は固定できません。

途中で止める／途中で追加するルールが入っていないかを確認します。

前提2：成功／失敗の2択に整理できているか

「良品・要修正・不良品」の3段階で判定する場合、そのままでは2択ではありません。

目的に合わせて「成功」を定義し直し、2択にできるかを検討します（例：不良品だけを成功）。 2択に整理できない場合は、二項分布としては扱えません。

前提3：成功確率 $p$ は途中で変わっていないか

製造機械が稼働時間とともに劣化すると、後半ほど不良率が上がることがあります。この場合、成功確率 $p$ が一定とは言いにくくなります。

ロット別、時間帯別などで不良率を集計し、 $p$ が大きく変わっていないかを確認します。変化が大きいときは、区間ごとに別の $p$ として扱うことも検討します。

前提4：独立だと言える根拠はあるか

同じラインの製品は素材や製造条件が共通になりやすく、1つに問題があると他でも不良が出やすいことがあります。

独立性を正確に調べるのは実務的にはかなり難易度が高いです。 1回1回の試行に共通する要因はないか、あるいは1回の試行が他の試行に影響を与えることがないかを確認します。

二項分布の確率計算

4つの前提が成り立つとき、 $n$ 回の試行で成功が $k$ 回起こる確率は次の式で計算できます。

$P(X=k) = {}_n C_k \, p^k (1-p)^{n-k}$

各項の意味は次のとおりです。

${}_n C_k$ ： $n$ 回のうち $k$ 回を成功にする並び方の数
$p^k$ ： $k$ 回成功する確率
$(1-p)^{n-k}$ ：残りの $n-k$ 回が失敗する確率

成功確率 $p$ の値によって、分布の形は大きく変わります。

二項分布の確率質量関数：p による形の変化

$p$ が小さいと左に偏り、 $p = 0.5$ で対称、 $p$ が大きいと右に偏ります。

例として、100個検査でちょうど5個が不良品になる確率を求めます。 $n=100$ 、 $p=0.05$ 、 $k=5$ として式に当てはめます。

$P(X=5) = {}_{100} C_5 \cdot 0.05^5 \cdot 0.95^{95} \approx 0.180$

約18%の確率で、ちょうど5個が不良品になることがわかります。

確率の合計は1になるか

式を使うとき、まず小さい $n$ で確かめると混乱が減ります。コインを2回投げて表が出る回数を考えます。 $n=2$ 、 $p=0.5$ です。

$k$	0	1	2
$P(X=k)$	$\dfrac{1}{4}$	$\dfrac{1}{2}$	$\dfrac{1}{4}$

より一般的な場合でも確認します。確率質量関数を取りうる全ての値で足すと、

$\sum_{k=0}^{n} p(k) = \sum_{k=0}^{n} {}_n C_k \, p^k (1-p)^{n-k}$

二項定理より、

$(a+b)^n = \sum_{k=0}^{n} {}_n C_k \, a^k b^{n-k}$

が成り立つので、 $a=p$ 、 $b=1-p$ と置けば、

$\sum_{k=0}^{n} {}_n C_k \, p^k (1-p)^{n-k} = (p + (1-p))^n = 1^n = 1$

となり、一般式でも合計が1になることが確認できます。

期待値と分散

$X \sim B(n, p)$ のとき、

期待値： $E[X] = np$
分散： $\mathrm{Var}(X) = np(1-p)$

ここでは、式の形がどこから出てくるかを最小限で確認します。

期待値の導出

各試行 $i = 1, 2, \ldots, n$ について、成功なら1、失敗なら0をとる確率変数 $X_i$ を考えます。

$P(X_i = 1) = p$
$P(X_i = 0) = 1 - p$

成功回数 $X$ は、 $X = X_1 + X_2 + \cdots + X_n$ と書けます。

$E[X_i] = 1 \cdot p + 0 \cdot (1-p) = p$

$E[X] = E\!\left[\sum_{i=1}^{n} X_i\right] = \sum_{i=1}^{n} E[X_i] = \sum_{i=1}^{n} p = np$

分散の導出

$X_i$ は0か1なので、 $X_i^2 = X_i$ が成り立ちます。

$\mathrm{Var}(X_i) = E[X_i^2] - (E[X_i])^2 = E[X_i] - p^2 = p - p^2 = p(1-p)$

二項分布では「各試行は独立」という前提を置くため、分散は足し算になります。

$\mathrm{Var}(X) = \mathrm{Var}\!\left(\sum_{i=1}^{n} X_i\right) = \sum_{i=1}^{n} \mathrm{Var}(X_i) = \sum_{i=1}^{n} p(1-p) = np(1-p)$

まとめ

二項分布は、「成功確率 $p$ の2択の試行を $n$ 回行ったとき、成功回数 $X$ がどう分布するか」を表します。