幾何分布

初めて成功するまで、何回かかるか

難易度 Lv 3 / 10想定時間:約20

できるようになること


不良品はいつ見つかるか

ある工場で、製品を1個ずつ検査していきます。不良品率は5%です。

二項分布では「100個のうち何個が不良か」を考えました。試行回数が n=100n = 100 と決まっていて、その中の成功回数を数えます。

ここでは問いが変わります。「何個目で初めて不良品が見つかるか」です。

今度は試行回数が決まっていません。1個目で見つかるかもしれないし、50個目かもしれません。「初めて成功するまでの試行回数」を確率変数として扱う分布が幾何分布(geometric distribution)です。

なお、幾何分布では「目的の事象が起きること」を慣習的に「成功」と呼びます。今回は「不良品を見つけること」が検査の目的なので、不良品の発見が「成功」にあたります。

幾何分布とは何か

1回の試行で成功確率が pp のベルヌーイ試行を繰り返し、初めて成功するまでの試行回数を確率変数 XX とします。

この XX が幾何分布に従うとき、次のように書きます。

XGeo(p)X \sim \mathrm{Geo}(p)

XX は1以上の整数値をとります(最低でも1回は試行が必要なため)。

注意

幾何分布には「初めて成功するまでの試行回数」(X=1,2,3,X = 1, 2, 3, \ldots)と「初めて成功するまでの失敗回数」(X=0,1,2,X = 0, 1, 2, \ldots)の2通りの定義があります。教科書やソフトウェアによって異なるため、どちらを使っているかを必ず確認してください。本単元では 試行回数 の定義を使います。

二項分布との違い

幾何分布と二項分布はどちらもベルヌーイ試行に基づきますが、何が固定で何が変数かが異なります。

二項分布 B(n,p)B(n, p)幾何分布 Geo(p)\mathrm{Geo}(p)
固定するもの試行回数 nn成功回数(1回)
確率変数成功回数 XX試行回数 XX
問いnn 回中、何回成功するか初めて成功するまで何回かかるか

幾何分布が成り立つための前提

幾何分布を使うためには、二項分布と共通する前提が必要です。

前提意味検査の例
1. 結果は2択各試行の結果が「成功/失敗」の2種類だけ不良品(成功)/良品(失敗)
2. 成功確率が一定どの試行でも成功確率が pp で変わらないどの製品も不良品になる確率が5%
3. 独立ある試行の結果が他の試行の確率に影響しないある製品の良否が次の製品に影響しない

二項分布では「試行回数が固定」という前提がありましたが、幾何分布では試行回数そのものが確率変数なので、この前提は不要です。

前提が怪しいときの確認ポイント

前提1:成功/失敗の2択に整理できているか

検査結果が「良品・要修正・不良品」のように3段階以上ある場合、そのままでは2択になりません。目的に合わせて「成功」を定義し直し、2択にできるかを検討します。

前提2:成功確率 pp は途中で変わっていないか

製造ラインが長時間稼働すると不良率が上がることがあります。この場合、初期に検査する製品と後半の製品で pp が異なるため、幾何分布の前提が崩れます。

ロットや時間帯ごとに不良率を確認し、pp が安定しているかを検証します。

前提3:独立だと言える根拠はあるか

同じ素材ロットから作られた製品は、1つに欠陥があると他にも欠陥が出やすいことがあります。こうした場合、試行間に依存関係があり、独立の前提が怪しくなります。

試行間に共通の要因がないかを確認します。

幾何分布の確率計算

前提が成り立つとき、kk 回目に初めて成功する確率は次の式で計算できます。

P(X=k)=(1p)k1p(k=1,2,3,)P(X=k) = (1-p)^{k-1} \, p \qquad (k = 1, 2, 3, \ldots)

各項の意味は次のとおりです。

前提3(独立)より、各試行の確率を掛け合わせることができます。そのため「k1k-1 回連続で失敗」と「kk 回目に成功」の確率の積で表せます。

成功確率 pp の値によって、分布の形が変わります。

幾何分布の確率質量関数:p による形の変化

k=1k = 1 のとき(1回目で成功)が最も確率が高く、kk が大きくなるほど確率は減少します。pp が大きいほど早い段階に集中し、pp が小さいほどなだらかに減少していきます。

:不良品率 p=0.05p = 0.05 のとき、ちょうど3個目で初めて不良品が見つかる確率は、

P(X=3)=(10.05)31×0.05=0.952×0.05=0.045125P(X=3) = (1 - 0.05)^{3-1} \times 0.05 = 0.95^2 \times 0.05 = 0.045125

例:p=0.2p = 0.2 のとき、何回目が起こりやすいか

p=0.2p = 0.2 のとき、各 kk の確率を並べます。

kk123456
P(X=k)P(X=k)0.20000.16000.12800.10240.08190.0655

確率の合計は1になるか

確率質量関数を k=1k = 1 から \infty まで足すと、

k=1P(X=k)=k=1(1p)k1p=pk=0(1p)k\sum_{k=1}^{\infty} P(X=k) = \sum_{k=1}^{\infty} (1-p)^{k-1} \, p = p \sum_{k=0}^{\infty} (1-p)^k

0<p10 < p \leq 1 のとき 1p<1|1-p| < 1 なので、等比級数の公式より、

p11(1p)=p1p=1p \cdot \dfrac{1}{1 - (1-p)} = p \cdot \dfrac{1}{p} = 1

となり、確率の合計が1であることが確認できます。

期待値と分散

XGeo(p)X \sim \mathrm{Geo}(p) のとき、

:不良品率が5%(p=0.05p = 0.05)なら、初めて不良品が見つかるまでの平均回数は 10.05=20\dfrac{1}{0.05} = 20 回です。直感的にも「20個に1個の割合なら、平均20個で見つかる」と納得できます。

期待値の導出

E[X]=k=1k(1p)k1p=pk=1k(1p)k1E[X] = \sum_{k=1}^{\infty} k \, (1-p)^{k-1} \, p = p \sum_{k=1}^{\infty} k \, (1-p)^{k-1}

ここで、等比級数の和の公式 k=0rk=11r\displaystyle\sum_{k=0}^{\infty} r^k = \dfrac{1}{1-r}rr で微分すると得られる k=1krk1=1(1r)2\displaystyle\sum_{k=1}^{\infty} k \, r^{k-1} = \dfrac{1}{(1-r)^2}r<1|r| < 1)を使うと、

=p1(1(1p))2=p1p2=1p= p \cdot \dfrac{1}{(1-(1-p))^2} = p \cdot \dfrac{1}{p^2} = \dfrac{1}{p}

分散の導出

E[X(X1)]E[X(X-1)] を求めます。

E[X(X1)]=k=1k(k1)(1p)k1p=p(1p)k=2k(k1)(1p)k2E[X(X-1)] = \sum_{k=1}^{\infty} k(k-1) \, (1-p)^{k-1} \, p = p(1-p) \sum_{k=2}^{\infty} k(k-1) \, (1-p)^{k-2}

k=2k(k1)rk2=2(1r)3\displaystyle\sum_{k=2}^{\infty} k(k-1) \, r^{k-2} = \dfrac{2}{(1-r)^3} を使うと、

=p(1p)2p3=2(1p)p2= p(1-p) \cdot \dfrac{2}{p^3} = \dfrac{2(1-p)}{p^2}

E[X2]=E[X(X1)]+E[X]=2(1p)p2+1p=2(1p)+pp2=2pp2E[X^2] = E[X(X-1)] + E[X] = \dfrac{2(1-p)}{p^2} + \dfrac{1}{p} = \dfrac{2(1-p) + p}{p^2} = \dfrac{2 - p}{p^2}

Var(X)=E[X2](E[X])2=2pp21p2=1pp2\mathrm{Var}(X) = E[X^2] - (E[X])^2 = \dfrac{2 - p}{p^2} - \dfrac{1}{p^2} = \dfrac{1 - p}{p^2}

無記憶性

幾何分布には無記憶性(memorylessness)という特別な性質があります。

「すでに ss 回失敗した後、さらに tt 回以上かかる確率」は、「最初から tt 回以上かかる確率」と同じになります。

P(X>s+tX>s)=P(X>t)P(X > s + t \mid X > s) = P(X > t)

具体例:不良品率5%の検査で、19個調べても不良品が見つかりませんでした。「あと5個以内に見つかる確率」は、最初から「5個以内に見つかる確率」と変わりません。

「もう19個も調べたのだから、そろそろ見つかるはず」と感じるかもしれませんが、各試行が独立で成功確率が一定であるかぎり、過去の結果は未来に影響しません。この感覚はギャンブラーの誤謬と呼ばれる代表的な認知の歪みです。

無記憶性の確認

P(X>n)P(X > n) を求めます。X>nX > n は「最初の nn 回がすべて失敗」を意味するので、

P(X>n)=(1p)nP(X > n) = (1-p)^n

条件付き確率の定義より、

P(X>s+tX>s)=P(X>s+t かつ X>s)P(X>s)P(X > s + t \mid X > s) = \dfrac{P(X > s + t \text{ かつ } X > s)}{P(X > s)}

X>s+tX > s + t であれば当然 X>sX > s も満たすため、分子は単に P(X>s+t)P(X > s + t) となります。

=P(X>s+t)P(X>s)=(1p)s+t(1p)s=(1p)t=P(X>t)= \dfrac{P(X > s + t)}{P(X > s)} = \dfrac{(1-p)^{s+t}}{(1-p)^s} = (1-p)^t = P(X > t)

指数分布との対比

指数分布の単元で「連続型分布の中で無記憶性を持つのは指数分布だけ」と学びました。

実は、離散型分布の中で無記憶性を持つのは幾何分布だけです。

幾何分布指数分布
離散型連続型
確率変数初めて成功するまでの試行回数次の事象が起きるまでの待ち時間
無記憶性P(X>s+tX>s)=P(X>t)P(X > s + t \mid X > s) = P(X > t)P(X>s+tX>s)=P(X>t)P(X > s + t \mid X > s) = P(X > t)
パラメータ成功確率 pp発生率 λ\lambda
期待値1/p1/p1/λ1/\lambda

どちらも「各試行(時点)が独立で、成功(発生)の確率が一定」という同じ前提に基づいています。幾何分布は離散的に数える場合、指数分布は連続的に時間を測る場合に使い分けます。

まとめ

幾何分布 Geo(p)\mathrm{Geo}(p) は、成功確率 pp のベルヌーイ試行を繰り返したとき、初めて成功するまでの試行回数を表す離散分布です。

P(X=k)=(1p)k1pP(X=k) = (1-p)^{k-1} \, p

期待値は 1p\dfrac{1}{p}、分散は 1pp2\dfrac{1-p}{p^2} です。

代表的な特徴は無記憶性で、過去の失敗回数が今後の確率に影響しません。離散型分布の中で無記憶性を持つのは幾何分布だけであり、これは連続型における指数分布と対をなす性質です。

使う前に 3つの前提(2択・成功確率一定・独立) を確認してください。