ポアソン分布

単位あたりの発生回数を数える

難易度 Lv 4 / 10想定時間:約25

できるようになること


ある単位(時間・ページなど)の中で、事象が何回起こるか

次の X1,X2,X3X_1, X_2, X_3 はどのような分布に従うでしょうか。

共通しているのは、「ある単位(時間・ページなど)の中で、事象が何回起こるか」を数えている点です。

二項分布に従うとみなしてよいか

例えば X1X_1 について考えます。 事故が起きるかどうかという二者択一を繰り返す視点で見ると、二項分布とみなすこともできます。

実際、通過する車の台数 nn と車1台が事故を起こす確率 pp が分かれば、X1B(n,p)X_1 \sim B(n, p) として扱うこともできます。

ただし、nn が非常に大きく pp が非常に小さいような場合に二項分布として扱うと、次の2つの問題が発生します。

そこで登場するのがポアソン分布(Poisson distribution)です。 ポアソン分布は、「滅多に起きないことが、単位あたり何回起こるか」をシンプルに表現した確率分布です。

ポアソン分布とは何か

ポアソン分布は、単位あたりの発生回数を表現したいときに用いる分布で、平均発生回数を表すパラメータ λ\lambda(ラムダ) を持ちます。

二項分布が nnpp の2つで決まるのに対し、ポアソン分布は λ\lambda 1つで決まるため、計算を簡便に行うことができます。

XX がポアソン分布に従うことを次のように表現します。

XPo(λ)X \sim \mathrm{Po}(\lambda)

二項分布との関係(ポアソン近似)

XB(n,p)X \sim B(n, p) のうち「nn が大きく、pp が小さい」状況では、λ=np\lambda = np として、二項分布をポアソン分布で近似できることがあります。 つまり B(n,p)Po(λ)B(n, p) \approx \mathrm{Po}(\lambda) です。

近似してよい目安 としては、nn が十分大きく、pp が十分小さく、かつ λ=np\lambda = np が極端に大きすぎないときです。実務では例えば n20n \geq 20 かつ p0.05p \leq 0.05 あたりを一つの目安にすることがあります。

ただし「目安を満たす=常に十分近い」ではありません。 P(X=0)P(X=0)P(X2)P(X \geq 2) など、いくつかの確率について二項分布とポアソン分布の値を並べて確認すると、誤差の大きさを把握できます。

ポアソン分布が成り立つための前提

ポアソン分布に従うと仮定するのに必要な前提を確認します。

前提意味例(問い合わせ件数など)
1. 独立ある発生が、他の発生の起こりやすさに影響しない1件起きた直後に、連鎖的に増えたり減ったりしない
2. λ\lambda が安定単位あたりの平均回数が大きく変わらない時間帯や曜日で平均が大きく変わるなら、単位の切り方を見直す
3. 同時発生が起きにくい十分小さい単位では、2回以上が同時に起こりにくい単位を細かく切ったとき、重なりが頻発しない

前提が怪しいときの確認ポイント

前提ごとに「どこを確認するとよいか」を整理します。 前提が成り立たないと分かった場合でも、別のモデルに置き換えたり、データの取り方を見直したりすることで対応できる場合があります。

前提1:発生が「まとまって起きる」傾向はないか

事故が起きると同じ場所で続けて起きやすくなることがあります。 このように発生がまとまると、独立とは言いにくくなります。

「特定の時間帯・場所で固まっていないか」「連続して起きた直後に増えていないか」を集計で確認します。

前提2:λ\lambda は単位によって大きく変わっていないか

問い合わせ件数は、昼と深夜、平日と休日で平均が大きく違うことがあります。 この場合、全時間をまとめて1つの λ\lambda で扱うとズレやすくなります。

時間帯ごと、曜日ごとなどで区切って平均を取り直し、λ\lambda が安定している範囲でモデル化することを検討します。

前提3:単位を小さく切ったとき、同時に2回以上が起きやすくないか

単位を大きく取りすぎると、「同じ単位の中で2回以上」が普通に起きる状況になります。 その場合でも回数分布としてポアソン分布が近いことはありますが、前提3は弱くなります。

まずは単位を小さめに切って、同時発生(短時間に集中)が頻発していないかを確認します。

ポアソン分布の確率計算

パラメータ λ\lambda のポアソン分布に従う確率変数 XX について、XX がちょうど kk 回起こる確率は次で与えられます(k!k!kk の階乗)。

P(X=k)=λkeλk!(k=0,1,2,)P(X=k) = \dfrac{\lambda^k e^{-\lambda}}{k!} \qquad (k = 0, 1, 2, \ldots)

例として、λ=3\lambda = 3 のときに X=2X = 2 となる確率を計算します。

P(X=2)=32e32!=9e320.2240P(X=2) = \dfrac{3^2 e^{-3}}{2!} = \dfrac{9e^{-3}}{2} \approx 0.2240

例:λ=3\lambda=3 のとき、どの kk が起こりやすいか

λ=3\lambda = 3 のときの確率をいくつか並べます。

kk012345
P(X=k)P(X=k)0.04980.14940.22400.22400.16800.1008

ポアソン分布 λ=3 の確率質量関数

確率の合計は1になるか

指数関数の級数展開 k=0λkk!=eλ\displaystyle\sum_{k=0}^{\infty} \dfrac{\lambda^k}{k!} = e^{\lambda} を使うと確認できます。

k=0P(X=k)=k=0λkeλk!=eλk=0λkk!=eλeλ=1\sum_{k=0}^{\infty} P(X=k) = \sum_{k=0}^{\infty} \dfrac{\lambda^k e^{-\lambda}}{k!} = e^{-\lambda} \sum_{k=0}^{\infty} \dfrac{\lambda^k}{k!} = e^{-\lambda} \cdot e^{\lambda} = 1

期待値と分散

ポアソン分布では、期待値と分散がどちらも λ\lambda になります。

期待値の導出

E[X]=k=0kP(X=k)=k=0kλkeλk!=eλk=1λk(k1)!E[X] = \sum_{k=0}^{\infty} k \, P(X=k) = \sum_{k=0}^{\infty} k \, \dfrac{\lambda^k e^{-\lambda}}{k!} = e^{-\lambda} \sum_{k=1}^{\infty} \dfrac{\lambda^k}{(k-1)!}

j=k1j = k-1 と置くと、

=λeλj=0λjj!=λeλeλ=λ= \lambda e^{-\lambda} \sum_{j=0}^{\infty} \dfrac{\lambda^j}{j!} = \lambda e^{-\lambda} \cdot e^{\lambda} = \lambda

分散の導出

まず E[X(X1)]E[X(X-1)] を求めます。

E[X(X1)]=k=0k(k1)λkeλk!=eλk=2λk(k2)!=λ2eλj=0λjj!=λ2E[X(X-1)] = \sum_{k=0}^{\infty} k(k-1) \, \dfrac{\lambda^k e^{-\lambda}}{k!} = e^{-\lambda} \sum_{k=2}^{\infty} \dfrac{\lambda^k}{(k-2)!} = \lambda^2 e^{-\lambda} \sum_{j=0}^{\infty} \dfrac{\lambda^j}{j!} = \lambda^2

よって、

E[X2]=E[X(X1)]+E[X]=λ2+λE[X^2] = E[X(X-1)] + E[X] = \lambda^2 + \lambda

以上から、

Var(X)=E[X2](E[X])2=(λ2+λ)λ2=λ\mathrm{Var}(X) = E[X^2] - (E[X])^2 = (\lambda^2 + \lambda) - \lambda^2 = \lambda

まとめ

ポアソン分布 は、「ある単位の中で事象が何回起こるか」を表す確率分布です。 パラメータは単位あたりの 平均回数 λ\lambda 1つで決まります。

P(X=k)=λkeλk!P(X=k) = \dfrac{\lambda^k e^{-\lambda}}{k!}

期待値・分散はともに λ\lambda です。

二項分布の「nn が大きく pp が小さい」状況を λ=np\lambda = np でまとめて扱う近似としても整理できます。

使う前に 3つの前提(独立・λ\lambda の安定・同時発生が起きにくい) を確認してください。 特に λ\lambda の安定については、単位の切り方を見直すだけで改善できることがあります。