二項分布

二者択一を、決められた回数繰り返す

難易度 Lv 4 / 10想定時間:約25

できるようになること


不良品は何個になるか

ある工場で、製品を100個検査します。過去のデータから、各製品が不良品になる確率は5%だとします。 100個のうち不良品は何個になるでしょうか。 平均的には5個になりそうですが、実際には3個だったり、8個だったりします。

このように「確率 pp で起こる出来事を nn 回試すとき、成功(起きた回数)が何回になるか」を表す確率分布を二項分布(binomial distribution)といいます。

二項分布を使うと、「ちょうど5個が不良品になる確率」や「10個以上が不良品になる確率」を計算できます。

二項分布とは何か

1回の試行で結果が2択(成功/失敗)になり、成功確率が毎回同じ pp だとします。 これを nn 回繰り返したとき、成功した回数を確率変数 XX とおきます。

この XX が二項分布に従うとき、次のように書きます。

XB(n,p)X \sim B(n, p)

この単元では、まず「二項分布に従う」と言えるための前提を確認し、その後で確率の計算式を扱います。

二項分布が成り立つための4つの前提

二項分布は便利ですが、使う前に前提を確認します。 前提が成り立たないと、計算した確率が実態とずれる可能性があるためです。

前提意味品質検査(100個)の例
1. 試行回数が固定試行回数があらかじめ nn 回と決まっているn=100n=100 個を検査する
2. 結果は2択各試行の結果が「成功/失敗」の2種類だけ不良品(成功)/良品(失敗)
3. 成功確率が一定どの試行でも成功確率が pp で変わらないどの製品も不良品になる確率が5%
4. 独立ある試行の結果が他の試行の確率に影響しないある製品の不良が他の製品に影響しない

前提が怪しいときの確認ポイント

前提ごとに「どこを確認するとよいか」を整理します。 前提が成り立たないと分かった場合でも、別のモデルに置き換えたり、データの取り方を見直したりすることで対応できる場合があります。

前提1:試行回数が最初から決まっているか

「不良品が5個出たら検査を止める」とすると、試行回数が結果で変わります。 これでは nn は固定できません。

途中で止める/途中で追加するルールが入っていないかを確認します。

前提2:成功/失敗の2択に整理できているか

「良品・要修正・不良品」の3段階で判定する場合、そのままでは2択ではありません。

目的に合わせて「成功」を定義し直し、2択にできるかを検討します(例:不良品だけを成功)。 2択に整理できない場合は、二項分布としては扱えません。

前提3:成功確率 pp は途中で変わっていないか

製造機械が稼働時間とともに劣化すると、後半ほど不良率が上がることがあります。 この場合、成功確率 pp が一定とは言いにくくなります。

ロット別、時間帯別などで不良率を集計し、pp が大きく変わっていないかを確認します。 変化が大きいときは、区間ごとに別の pp として扱うことも検討します。

前提4:独立だと言える根拠はあるか

同じラインの製品は素材や製造条件が共通になりやすく、1つに問題があると他でも不良が出やすいことがあります。

独立性を正確に調べるのは実務的にはかなり難易度が高いです。 1回1回の試行に共通する要因はないか、あるいは1回の試行が他の試行に影響を与えることがないかを確認します。

二項分布の確率計算

4つの前提が成り立つとき、nn 回の試行で成功が kk 回起こる確率は次の式で計算できます。

P(X=k)=nCkpk(1p)nkP(X=k) = {}_n C_k \, p^k (1-p)^{n-k}

各項の意味は次のとおりです。

例として、100個検査でちょうど5個が不良品になる確率を求めます。 n=100n=100p=0.05p=0.05k=5k=5 として式に当てはめます。

二項分布 B(100, 0.05) の確率質量関数

確率の合計は1になるか

式を使うとき、まず小さい nn で確かめると混乱が減ります。 コインを2回投げて表が出る回数を考えます。n=2n=2p=0.5p=0.5 です。

kk012
P(X=k)P(X=k)14\dfrac{1}{4}12\dfrac{1}{2}14\dfrac{1}{4}

より一般的な場合でも確認します。確率質量関数を取りうる全ての値で足すと、

k=0np(k)=k=0nnCkpk(1p)nk\sum_{k=0}^{n} p(k) = \sum_{k=0}^{n} {}_n C_k \, p^k (1-p)^{n-k}

二項定理より、

(a+b)n=k=0nnCkakbnk(a+b)^n = \sum_{k=0}^{n} {}_n C_k \, a^k b^{n-k}

が成り立つので、a=pa=pb=1pb=1-p と置けば、

k=0nnCkpk(1p)nk=(p+(1p))n=1n=1\sum_{k=0}^{n} {}_n C_k \, p^k (1-p)^{n-k} = (p + (1-p))^n = 1^n = 1

となり、一般式でも合計が1になることが確認できます。

期待値と分散

XB(n,p)X \sim B(n, p) のとき、

ここでは、式の形がどこから出てくるかを最小限で確認します。

期待値の導出

各試行 i=1,2,,ni = 1, 2, \ldots, n について、成功なら1、失敗なら0をとる確率変数 XiX_i を考えます。

成功回数 XX は、X=X1+X2++XnX = X_1 + X_2 + \cdots + X_n と書けます。

E[Xi]=1p+0(1p)=pE[X_i] = 1 \cdot p + 0 \cdot (1-p) = p

E[X]=E ⁣[i=1nXi]=i=1nE[Xi]=i=1np=npE[X] = E\!\left[\sum_{i=1}^{n} X_i\right] = \sum_{i=1}^{n} E[X_i] = \sum_{i=1}^{n} p = np

分散の導出

XiX_i は0か1なので、Xi2=XiX_i^2 = X_i が成り立ちます。

Var(Xi)=E[Xi2](E[Xi])2=E[Xi]p2=pp2=p(1p)\mathrm{Var}(X_i) = E[X_i^2] - (E[X_i])^2 = E[X_i] - p^2 = p - p^2 = p(1-p)

二項分布では「各試行は独立」という前提を置くため、分散は足し算になります。

Var(X)=Var ⁣(i=1nXi)=i=1nVar(Xi)=i=1np(1p)=np(1p)\mathrm{Var}(X) = \mathrm{Var}\!\left(\sum_{i=1}^{n} X_i\right) = \sum_{i=1}^{n} \mathrm{Var}(X_i) = \sum_{i=1}^{n} p(1-p) = np(1-p)

まとめ

二項分布は、「成功確率 pp の2択の試行を nn 回行ったとき、成功回数 XX がどう分布するか」を表します。

P(X=k)=nCkpk(1p)nkP(X=k) = {}_n C_k \, p^k (1-p)^{n-k}

期待値は npnp、分散は np(1p)np(1-p) です。

使う前に 4つの前提(試行回数固定・2択・成功確率一定・独立) が成り立つかを確認してください。 特に「独立」と「成功確率一定」は、実務では成り立ちにくい前提です。 前提ごとのチェックポイントを参照して、モデルの妥当性を判断してください。