超幾何分布

有限の集団から非復元抽出で当たりを引く回数

難易度 Lv 3 / 10想定時間:約20

できるようになること


くじ引きは「戻さない」

10本のくじがあり、3本が当たりです。ここから4本引くとき、当たりは何本入っているでしょうか。

二項分布で扱えそうに見えますが、1つ問題があります。くじを1本引くたびに残りの本数と当たりの割合が変わるのです。

最初の当たり確率は 3/103/10。1本引いて当たりだった場合、次は 2/92/9 になります。外れだった場合は 3/93/9 です。引いたくじを「戻さずに」次を引くため、成功確率が毎回変わり、試行間が独立ではなくなります。

二項分布の前提「成功確率が一定」「独立」が成り立たない — これが超幾何分布(hypergeometric distribution)の出発点です。

超幾何分布とは何か

有限の母集団(NN 個)の中に当たりが KK 個あるとき、nn 個を非復元抽出(引いたものを戻さない)で取り出し、その中の当たりの数を確率変数 XX とします。

この XX が超幾何分布に従うとき、次のように書きます。

XHG(N,K,n)X \sim \mathrm{HG}(N, K, n)

パラメータは3つです。

パラメータ意味くじの例
NN母集団の大きさくじの総数 10
KK母集団中の当たりの数当たりくじの数 3
nn抽出する数引く本数 4

二項分布との違い

超幾何分布と二項分布はどちらも「nn 回中の当たり回数」を扱いますが、抽出方法が異なります。

二項分布 B(n,p)B(n, p)超幾何分布 HG(N,K,n)\mathrm{HG}(N, K, n)
抽出方法復元抽出(引いて戻す)非復元抽出(引いたら戻さない)
成功確率毎回一定 pp残りの構成に応じて変化
独立性各試行は独立各試行は従属(前の結果に依存)
母集団無限 or 十分大きい有限(NN 個)

超幾何分布が成り立つための前提

前提意味くじの例
1. 母集団が有限母集団の大きさ NN が決まっているくじの総数が10本と確定
2. 当たりの数が既知母集団中の当たり数 KK が分かっている当たりが3本と分かっている
3. 非復元抽出一度取り出したものは戻さない引いたくじは箱に戻さない
4. 結果は2択各個体が「当たり」か「外れ」のどちらか当たりくじ or 外れくじ

前提が怪しいときの確認ポイント

前提1:母集団は決まっているか

超幾何分布は母集団の大きさ NN が有限で確定していることが前提です。「母集団があまりにも大きくて正確に数えられない」場合は、二項分布で近似する方が実用的です。

前提2:当たりの数は分かっているか

KK が不明だと確率を計算できません。品質検査で「ロット中の不良品数が分からない」場合、実際には超幾何分布を逆に使って KK を推定する(後述のフィッシャーの正確確率検定など)こともあります。

前提3:本当に戻していないか

復元抽出(引いて戻す)なら二項分布を使います。非復元抽出でも母集団が十分大きければ(n/Nn/N が小さければ)、二項分布でよく近似できます。

前提4:2択に整理できているか

「当たり・はずれ・引き分け」のように3種類以上ある場合は、超幾何分布としては扱えません。「良品・軽微不良・重大不良」を「良品か否か」に整理するなど、分析目的に合わせて2カテゴリに再定義できるかを検討します。

超幾何分布の確率計算

前提が成り立つとき、nn 個を取り出して当たりがちょうど kk 個である確率は次の式で計算できます。

P(X=k)=(Kk)(NKnk)(Nn)P(X=k) = \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}

非復元抽出では、NN 個から nn 個を選ぶすべての組合せが等確率で起こると考えます。そのうち、当たりがちょうど kk 個入る組合せの割合が求める確率です。各項の意味はそれぞれ次のとおりです。

:10本中3本当たりのくじから4本引いて、ちょうど2本が当たりになる確率は、

P(X=2)=(32)(72)(104)=3×21210=63210=0.300P(X=2) = \frac{\binom{3}{2}\binom{7}{2}}{\binom{10}{4}} = \frac{3 \times 21}{210} = \frac{63}{210} = 0.300

同様に、k=1k=1 の場合は、

P(X=1)=(31)(73)(104)=3×35210=105210=0.500P(X=1) = \frac{\binom{3}{1}\binom{7}{3}}{\binom{10}{4}} = \frac{3 \times 35}{210} = \frac{105}{210} = 0.500

例:N=10,K=3,n=4N=10,\, K=3,\, n=4 の確率分布

kk の確率を並べます。

kk0123
P(X=k)P(X=k)352100.167\frac{35}{210} \approx 0.167105210=0.500\frac{105}{210} = 0.50063210=0.300\frac{63}{210} = 0.30072100.033\frac{7}{210} \approx 0.033

kk の範囲は max(0,nN+K)kmin(n,K)\max(0, n-N+K) \leq k \leq \min(n, K) です。上限 min(n,K)\min(n, K) は「引く数か当たりの総数の小さい方」です。下限 nN+Kn-N+K は、外れが NKN-K 個しかないため nkNKn-k \leq N-K 、つまり kn(NK)k \geq n-(N-K) となることから来ています。この例では max(0,410+3)=max(0,3)=0\max(0, 4-10+3) = \max(0, -3) = 0 から min(4,3)=3\min(4, 3) = 3 までです。

確率の合計は1になるか

ヴァンデルモンドの恒等式(Vandermonde's identity)を使うと確認できます。

k(Kk)(NKnk)=(Nn)\sum_{k} \binom{K}{k}\binom{N-K}{n-k} = \binom{N}{n}

両辺を (Nn)\binom{N}{n} で割ると、

kP(X=k)=k(Kk)(NKnk)(Nn)=1\sum_{k} P(X=k) = \sum_{k} \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}} = 1

期待値と分散

XHG(N,K,n)X \sim \mathrm{HG}(N, K, n) のとき、

期待値について

期待値 nK/Nn \cdot K/N は、二項分布の期待値 npnp と同じ形です(p=K/Np = K/N と対応)。引いたくじを戻しても戻さなくても、「nn 個中の当たりの平均数」は同じです。これは、引く前に中身が分からない状態であれば、何回目の抽出でも「その回に当たりを引く確率」自体は K/NK/N であるためです(期待値の線形性)。

分散と有限修正係数

分散は二項分布の分散 np(1p)np(1-p)NnN1\dfrac{N-n}{N-1} を掛けた形になっています。

Var(X)=nKNNKN二項分布の分散に対応×NnN1有限修正係数\mathrm{Var}(X) = \underbrace{n \cdot \frac{K}{N} \cdot \frac{N-K}{N}}_{\text{二項分布の分散に対応}} \times \underbrace{\frac{N-n}{N-1}}_{\text{有限修正係数}}

この NnN1\dfrac{N-n}{N-1}有限修正係数(finite population correction factor)と呼びます。

n=Nn = N(全数抽出)なら当たりの数は KK に確定するので、分散が0になるのは直感的にも納得できます。

二項分布との近似

母集団 NN が抽出数 nn に比べて十分大きいとき、引いた1個が全体に与える影響が小さくなるため、超幾何分布は二項分布 B(n,K/N)B(n, K/N) で近似できます。

目安n/N<0.05n/N < 0.05(抽出率が5%未満)であれば、近似の精度は実用的に十分です。

補足

実際の品質検査では、1000個のロットから50個を検査するような場面があります。n/N=50/1000=0.05n/N = 50/1000 = 0.05 なので、この目安の境界です。非復元抽出でも二項分布で計算して十分ですが、厳密な計算が必要なら超幾何分布を使います。

応用:フィッシャーの正確確率検定との関係

超幾何分布はフィッシャーの正確確率検定(Fisher's exact test)の基盤となっています。

2×2分割表でカテゴリ間の関連を調べるとき、周辺度数(行合計・列合計)を固定すると、セルの度数が超幾何分布に従います。この性質を利用して、観測データが偶然得られる確率を正確に計算します。

カイ二乗検定がサンプルサイズの大きい近似を使うのに対し、フィッシャーの正確確率検定は小標本でも正確な pp 値を与えます。

補足

フィッシャーの正確確率検定の詳しい手順は「カイ二乗検定」の単元を参照してください。ここでは「超幾何分布が検定にも使われている」ことを知っておけば十分です。

まとめ

超幾何分布 HG(N,K,n)\mathrm{HG}(N, K, n) は、有限母集団(NN 個中当たり KK 個)から nn 個を非復元抽出したときの当たりの数を表す離散分布です。

P(X=k)=(Kk)(NKnk)(Nn)P(X=k) = \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}

期待値は nK/NnK/N、分散は nKNNKNNnN1n \cdot \dfrac{K}{N} \cdot \dfrac{N-K}{N} \cdot \dfrac{N-n}{N-1} です。

二項分布との最大の違いは「引いたものを戻さない」点です。母集団が十分大きい(n/N<0.05n/N < 0.05)場合は二項分布で近似でき、有限修正係数が1に近づきます。

使う前に 4つの前提(有限母集団・当たり数既知・非復元抽出・2択) を確認してください。