ポアソン分布

単位あたりの発生回数を数える

難易度 Lv 4 / 10想定時間：約25分

できるようになること

ポアソン分布の3つの前提を確認し、使えるかどうかを判断できる
$P(X=k) = \dfrac{\lambda^k e^{-\lambda}}{k!}$ を使って確率を計算できる
期待値・分散がともに $\lambda$ になることを説明できる

ある単位（時間・ページなど）の中で、事象が何回起こるか

次の $X_1, X_2, X_3$ はどのような分布に従うでしょうか。

$X_1$ ：ある場所で1日に発生する交通事故の件数
$X_2$ ：あるコールセンターに1時間でかかってくる電話件数
$X_3$ ：ある書籍の1ページあたりの誤字の数

共通しているのは、「ある単位（時間・ページなど）の中で、事象が何回起こるか」を数えている点です。

二項分布に従うとみなしてよいか

例えば $X_1$ について考えます。事故が起きるかどうかという二者択一を繰り返す視点で見ると、二項分布とみなすこともできます。

実際、通過する車の台数 $n$ と車1台が事故を起こす確率 $p$ が分かれば、 $X_1 \sim B(n, p)$ として扱うこともできます。

ただし、 $n$ が非常に大きく $p$ が非常に小さいような場合に二項分布として扱うと、次の2つの問題が発生します。

計算が複雑になる： ${}_n C_k$ の計算が膨大になり、 $p^k$ が極めて小さな数になる
$n$ や $p$ を測定することが難しい：通過台数や事故率を正確に把握できないことも多い

そこで登場するのがポアソン分布（Poisson distribution）です。ポアソン分布は、「滅多に起きないことが、単位あたり何回起こるか」をシンプルに表現した確率分布です。

ポアソン分布とは何か

ポアソン分布は、単位あたりの発生回数を表現したいときに用いる分布で、平均発生回数を表すパラメータ $\lambda$ （ラムダ） を持ちます。

「1日あたり平均0.5件の事故」： $\lambda = 0.5$
「1ページあたり平均2個の誤字」： $\lambda = 2$

二項分布が $n$ と $p$ の2つで決まるのに対し、ポアソン分布は $\lambda$ 1つで決まるため、計算を簡便に行うことができます。

$X$ がポアソン分布に従うことを次のように表現します。

$X \sim \mathrm{Po}(\lambda)$

二項分布との関係（ポアソン近似）

$X \sim B(n, p)$ のうち「 $n$ が大きく、 $p$ が小さい」状況では、 $\lambda = np$ として、二項分布をポアソン分布で近似できることがあります。つまり $B(n, p) \approx \mathrm{Po}(\lambda)$ です。

近似してよい目安 としては、 $n$ が十分大きく、 $p$ が十分小さく、かつ $\lambda = np$ が極端に大きすぎないときです。実務では例えば $n \geq 20$ かつ $p \leq 0.05$ あたりを一つの目安にすることがあります。

ただし「目安を満たす＝常に十分近い」ではありません。 $P(X=0)$ や $P(X \geq 2)$ など、いくつかの確率について二項分布とポアソン分布の値を並べて確認すると、誤差の大きさを把握できます。

ポアソン分布が成り立つための前提

ポアソン分布に従うと仮定するのに必要な前提を確認します。

前提	意味	例（問い合わせ件数など）
1. 独立	ある発生が、他の発生の起こりやすさに影響しない	1件起きた直後に、連鎖的に増えたり減ったりしない
2. $\lambda$ が安定	単位あたりの平均回数が大きく変わらない	時間帯や曜日で平均が大きく変わるなら、単位の切り方を見直す
3. 同時発生が起きにくい	十分小さい単位では、2回以上が同時に起こりにくい	単位を細かく切ったとき、重なりが頻発しない

前提が怪しいときの確認ポイント

前提ごとに「どこを確認するとよいか」を整理します。前提が成り立たないと分かった場合でも、別のモデルに置き換えたり、データの取り方を見直したりすることで対応できる場合があります。

前提1：発生が「まとまって起きる」傾向はないか

事故が起きると同じ場所で続けて起きやすくなることがあります。このように発生がまとまると、独立とは言いにくくなります。

「特定の時間帯・場所で固まっていないか」「連続して起きた直後に増えていないか」を集計で確認します。

前提2： $\lambda$ は単位によって大きく変わっていないか

問い合わせ件数は、昼と深夜、平日と休日で平均が大きく違うことがあります。この場合、全時間をまとめて1つの $\lambda$ で扱うとズレやすくなります。

時間帯ごと、曜日ごとなどで区切って平均を取り直し、 $\lambda$ が安定している範囲でモデル化することを検討します。

前提3：単位を小さく切ったとき、同時に2回以上が起きやすくないか

単位を大きく取りすぎると、「同じ単位の中で2回以上」が普通に起きる状況になります。その場合でも回数分布としてポアソン分布が近いことはありますが、前提3は弱くなります。

まずは単位を小さめに切って、同時発生（短時間に集中）が頻発していないかを確認します。

ポアソン分布の確率計算

パラメータ $\lambda$ のポアソン分布に従う確率変数 $X$ について、 $X$ がちょうど $k$ 回起こる確率は次で与えられます（ $k!$ は $k$ の階乗）。

$P(X=k) = \dfrac{\lambda^k e^{-\lambda}}{k!} \qquad (k = 0, 1, 2, \ldots)$

$\lambda$ の値によって、分布の形は大きく変わります。

ポアソン分布の確率質量関数：λ による形の変化

$\lambda$ が小さいと0回付近に集中し、 $\lambda$ が大きくなるほど山が右に移動して対称に近づきます。

例として、 $\lambda = 3$ のときに $X = 2$ となる確率を計算します。

$P(X=2) = \dfrac{3^2 e^{-3}}{2!} = \dfrac{9e^{-3}}{2} \approx 0.2240$

例： $\lambda=3$ のとき、どの $k$ が起こりやすいか

$\lambda = 3$ のときの確率をいくつか並べます。

$k$	0	1	2	3	4	5
$P(X=k)$	0.0498	0.1494	0.2240	0.2240	0.1680	0.1008

確率の合計は1になるか

指数関数の級数展開 $\displaystyle\sum_{k=0}^{\infty} \dfrac{\lambda^k}{k!} = e^{\lambda}$ を使うと確認できます。

$\sum_{k=0}^{\infty} P(X=k) = \sum_{k=0}^{\infty} \dfrac{\lambda^k e^{-\lambda}}{k!} = e^{-\lambda} \sum_{k=0}^{\infty} \dfrac{\lambda^k}{k!} = e^{-\lambda} \cdot e^{\lambda} = 1$

期待値と分散

ポアソン分布では、期待値と分散がどちらも $\lambda$ になります。

期待値： $E[X] = \lambda$
分散： $\mathrm{Var}(X) = \lambda$

期待値の導出

$E[X] = \sum_{k=0}^{\infty} k \, P(X=k) = \sum_{k=0}^{\infty} k \, \dfrac{\lambda^k e^{-\lambda}}{k!} = e^{-\lambda} \sum_{k=1}^{\infty} \dfrac{\lambda^k}{(k-1)!}$

$j = k-1$ と置くと、

$= \lambda e^{-\lambda} \sum_{j=0}^{\infty} \dfrac{\lambda^j}{j!} = \lambda e^{-\lambda} \cdot e^{\lambda} = \lambda$

分散の導出

まず $E[X(X-1)]$ を求めます。

$E[X(X-1)] = \sum_{k=0}^{\infty} k(k-1) \, \dfrac{\lambda^k e^{-\lambda}}{k!} = e^{-\lambda} \sum_{k=2}^{\infty} \dfrac{\lambda^k}{(k-2)!} = \lambda^2 e^{-\lambda} \sum_{j=0}^{\infty} \dfrac{\lambda^j}{j!} = \lambda^2$

よって、

$E[X^2] = E[X(X-1)] + E[X] = \lambda^2 + \lambda$

以上から、

$\mathrm{Var}(X) = E[X^2] - (E[X])^2 = (\lambda^2 + \lambda) - \lambda^2 = \lambda$

まとめ

ポアソン分布 は、「ある単位の中で事象が何回起こるか」を表す確率分布です。パラメータは単位あたりの 平均回数 $\lambda$ 1つで決まります。

$P(X=k) = \dfrac{\lambda^k e^{-\lambda}}{k!}$

期待値・分散はともに $\lambda$ です。

二項分布の「 $n$ が大きく $p$ が小さい」状況を $\lambda = np$ でまとめて扱う近似としても整理できます。

使う前に 3つの前提（独立・ $\lambda$ の安定・同時発生が起きにくい） を確認してください。特に $\lambda$ の安定については、単位の切り方を見直すだけで改善できることがあります。