超幾何分布
有限の集団から非復元抽出で当たりを引く回数
難易度 Lv 3 / 10想定時間:約20分
できるようになること
- 超幾何分布の前提を確認し、使えるかどうかを判断できる
- P(X=k)=(nN)(kK)(n−kN−K) を使って確率を計算できる
- 二項分布との違いと近似が成り立つ条件を説明できる
くじ引きは「戻さない」
10本のくじがあり、3本が当たりです。ここから4本引くとき、当たりは何本入っているでしょうか。
二項分布で扱えそうに見えますが、1つ問題があります。くじを1本引くたびに残りの本数と当たりの割合が変わるのです。
最初の当たり確率は 3/10。1本引いて当たりだった場合、次は 2/9 になります。外れだった場合は 3/9 です。引いたくじを「戻さずに」次を引くため、成功確率が毎回変わり、試行間が独立ではなくなります。
二項分布の前提「成功確率が一定」「独立」が成り立たない — これが超幾何分布(hypergeometric distribution)の出発点です。
超幾何分布とは何か
有限の母集団(N 個)の中に当たりが K 個あるとき、n 個を非復元抽出(引いたものを戻さない)で取り出し、その中の当たりの数を確率変数 X とします。
この X が超幾何分布に従うとき、次のように書きます。
X∼HG(N,K,n)
パラメータは3つです。
| パラメータ | 意味 | くじの例 |
|---|
| N | 母集団の大きさ | くじの総数 10 |
| K | 母集団中の当たりの数 | 当たりくじの数 3 |
| n | 抽出する数 | 引く本数 4 |
二項分布との違い
超幾何分布と二項分布はどちらも「n 回中の当たり回数」を扱いますが、抽出方法が異なります。
| 二項分布 B(n,p) | 超幾何分布 HG(N,K,n) |
|---|
| 抽出方法 | 復元抽出(引いて戻す) | 非復元抽出(引いたら戻さない) |
| 成功確率 | 毎回一定 p | 残りの構成に応じて変化 |
| 独立性 | 各試行は独立 | 各試行は従属(前の結果に依存) |
| 母集団 | 無限 or 十分大きい | 有限(N 個) |
超幾何分布が成り立つための前提
| 前提 | 意味 | くじの例 |
|---|
| 1. 母集団が有限 | 母集団の大きさ N が決まっている | くじの総数が10本と確定 |
| 2. 当たりの数が既知 | 母集団中の当たり数 K が分かっている | 当たりが3本と分かっている |
| 3. 非復元抽出 | 一度取り出したものは戻さない | 引いたくじは箱に戻さない |
| 4. 結果は2択 | 各個体が「当たり」か「外れ」のどちらか | 当たりくじ or 外れくじ |
前提が怪しいときの確認ポイント
前提1:母集団は決まっているか
超幾何分布は母集団の大きさ N が有限で確定していることが前提です。「母集団があまりにも大きくて正確に数えられない」場合は、二項分布で近似する方が実用的です。
前提2:当たりの数は分かっているか
K が不明だと確率を計算できません。品質検査で「ロット中の不良品数が分からない」場合、実際には超幾何分布を逆に使って K を推定する(後述のフィッシャーの正確確率検定など)こともあります。
前提3:本当に戻していないか
復元抽出(引いて戻す)なら二項分布を使います。非復元抽出でも母集団が十分大きければ(n/N が小さければ)、二項分布でよく近似できます。
前提4:2択に整理できているか
「当たり・はずれ・引き分け」のように3種類以上ある場合は、超幾何分布としては扱えません。「良品・軽微不良・重大不良」を「良品か否か」に整理するなど、分析目的に合わせて2カテゴリに再定義できるかを検討します。
超幾何分布の確率計算
前提が成り立つとき、n 個を取り出して当たりがちょうど k 個である確率は次の式で計算できます。
P(X=k)=(nN)(kK)(n−kN−K)
非復元抽出では、N 個から n 個を選ぶすべての組合せが等確率で起こると考えます。そのうち、当たりがちょうど k 個入る組合せの割合が求める確率です。各項の意味はそれぞれ次のとおりです。
- (kK):K 個の当たりから k 個を選ぶ組合せ
- (n−kN−K):N−K 個の外れから n−k 個を選ぶ組合せ
- (nN):N 個の全体から n 個を選ぶ組合せ(全事象)
例:10本中3本当たりのくじから4本引いて、ちょうど2本が当たりになる確率は、
P(X=2)=(410)(23)(27)=2103×21=21063=0.300
同様に、k=1 の場合は、
P(X=1)=(410)(13)(37)=2103×35=210105=0.500
例:N=10,K=3,n=4 の確率分布
各 k の確率を並べます。
| k | 0 | 1 | 2 | 3 |
|---|
| P(X=k) | 21035≈0.167 | 210105=0.500 | 21063=0.300 | 2107≈0.033 |
k の範囲は max(0,n−N+K)≤k≤min(n,K) です。上限 min(n,K) は「引く数か当たりの総数の小さい方」です。下限 n−N+K は、外れが N−K 個しかないため n−k≤N−K 、つまり k≥n−(N−K) となることから来ています。この例では max(0,4−10+3)=max(0,−3)=0 から min(4,3)=3 までです。
確率の合計は1になるか
ヴァンデルモンドの恒等式(Vandermonde's identity)を使うと確認できます。
∑k(kK)(n−kN−K)=(nN)
両辺を (nN) で割ると、
∑kP(X=k)=∑k(nN)(kK)(n−kN−K)=1
期待値と分散
X∼HG(N,K,n) のとき、
- 期待値:E[X]=nNK
- 分散:Var(X)=nNKNN−KN−1N−n
期待値について
期待値 n⋅K/N は、二項分布の期待値 np と同じ形です(p=K/N と対応)。引いたくじを戻しても戻さなくても、「n 個中の当たりの平均数」は同じです。これは、引く前に中身が分からない状態であれば、何回目の抽出でも「その回に当たりを引く確率」自体は K/N であるためです(期待値の線形性)。
分散と有限修正係数
分散は二項分布の分散 np(1−p) に N−1N−n を掛けた形になっています。
Var(X)=二項分布の分散に対応n⋅NK⋅NN−K×有限修正係数N−1N−n
この N−1N−n を有限修正係数(finite population correction factor)と呼びます。
- N が n よりはるかに大きいとき:N−1N−n≈1(二項分布と同じ)
- n が N に近づくとき:N−1N−n→0(分散が小さくなる)
n=N(全数抽出)なら当たりの数は K に確定するので、分散が0になるのは直感的にも納得できます。
二項分布との近似
母集団 N が抽出数 n に比べて十分大きいとき、引いた1個が全体に与える影響が小さくなるため、超幾何分布は二項分布 B(n,K/N) で近似できます。
目安:n/N<0.05(抽出率が5%未満)であれば、近似の精度は実用的に十分です。
実際の品質検査では、1000個のロットから50個を検査するような場面があります。n/N=50/1000=0.05 なので、この目安の境界です。非復元抽出でも二項分布で計算して十分ですが、厳密な計算が必要なら超幾何分布を使います。
応用:フィッシャーの正確確率検定との関係
超幾何分布はフィッシャーの正確確率検定(Fisher's exact test)の基盤となっています。
2×2分割表でカテゴリ間の関連を調べるとき、周辺度数(行合計・列合計)を固定すると、セルの度数が超幾何分布に従います。この性質を利用して、観測データが偶然得られる確率を正確に計算します。
カイ二乗検定がサンプルサイズの大きい近似を使うのに対し、フィッシャーの正確確率検定は小標本でも正確な p 値を与えます。
フィッシャーの正確確率検定の詳しい手順は「カイ二乗検定」の単元を参照してください。ここでは「超幾何分布が検定にも使われている」ことを知っておけば十分です。
まとめ
超幾何分布 HG(N,K,n) は、有限母集団(N 個中当たり K 個)から n 個を非復元抽出したときの当たりの数を表す離散分布です。
P(X=k)=(nN)(kK)(n−kN−K)
期待値は nK/N、分散は n⋅NK⋅NN−K⋅N−1N−n です。
二項分布との最大の違いは「引いたものを戻さない」点です。母集団が十分大きい(n/N<0.05)場合は二項分布で近似でき、有限修正係数が1に近づきます。
使う前に 4つの前提(有限母集団・当たり数既知・非復元抽出・2択) を確認してください。