超幾何分布

有限の集団から非復元抽出で当たりを引く回数の分布です。二項分布との違いと、品質検査などの応用場面を学びます。

難易度 Lv 3 / 10想定時間：約20分

できるようになること

超幾何分布の前提を確認し、使えるかどうかを判断できる
$P(X=k) = \dfrac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}$ を使って確率を計算できる
二項分布との違いと近似が成り立つ条件を説明できる

くじ引きは「戻さない」

10本のくじがあり、3本が当たりです。ここから4本引くとき、当たりは何本入っているでしょうか。

二項分布で扱えそうに見えますが、1つ問題があります。くじを1本引くたびに残りの本数と当たりの割合が変わるのです。

最初の当たり確率は $3/10$ 。1本引いて当たりだった場合、次は $2/9$ になります。外れだった場合は $3/9$ です。引いたくじを「戻さずに」次を引くため、成功確率が毎回変わり、試行間が独立ではなくなります。

二項分布の前提「成功確率が一定」「独立」が成り立たない — これが超幾何分布（hypergeometric distribution）の出発点です。

超幾何分布とは何か

有限の母集団（ $N$ 個）の中に当たりが $K$ 個あるとき、 $n$ 個を非復元抽出（引いたものを戻さない）で取り出し、その中の当たりの数を確率変数 $X$ とします。

この $X$ が超幾何分布に従うとき、次のように書きます。

$X \sim \mathrm{HG}(N, K, n)$

パラメータは3つです。

パラメータ	意味	くじの例
$N$	母集団の大きさ	くじの総数 10
$K$	母集団中の当たりの数	当たりくじの数 3
$n$	抽出する数	引く本数 4

二項分布との違い

超幾何分布と二項分布はどちらも「 $n$ 回中の当たり回数」を扱いますが、抽出方法が異なります。

	二項分布 $B(n, p)$	超幾何分布 $\mathrm{HG}(N, K, n)$
抽出方法	復元抽出（引いて戻す）	非復元抽出（引いたら戻さない）
成功確率	毎回一定 $p$	残りの構成に応じて変化
独立性	各試行は独立	各試行は従属（前の結果に依存）
母集団	無限 or 十分大きい	有限（ $N$ 個）

超幾何分布が成り立つための前提

前提	意味	くじの例
1. 母集団が有限	母集団の大きさ $N$ が決まっている	くじの総数が10本と確定
2. 当たりの数が既知	母集団中の当たり数 $K$ が分かっている	当たりが3本と分かっている
3. 非復元抽出	一度取り出したものは戻さない	引いたくじは箱に戻さない
4. 結果は2択	各個体が「当たり」か「外れ」のどちらか	当たりくじ or 外れくじ

前提が怪しいときの確認ポイント

前提1：母集団は決まっているか

超幾何分布は母集団の大きさ $N$ が有限で確定していることが前提です。「母集団があまりにも大きくて正確に数えられない」場合は、二項分布で近似する方が実用的です。

前提2：当たりの数は分かっているか

$K$ が不明だと確率を計算できません。品質検査で「ロット中の不良品数が分からない」場合、実際には超幾何分布を逆に使って $K$ を推定する（後述のフィッシャーの正確確率検定など）こともあります。

前提3：本当に戻していないか

復元抽出（引いて戻す）なら二項分布を使います。非復元抽出でも母集団が十分大きければ（ $n/N$ が小さければ）、二項分布でよく近似できます。

前提4：2択に整理できているか

「当たり・はずれ・引き分け」のように3種類以上ある場合は、超幾何分布としては扱えません。「良品・軽微不良・重大不良」を「良品か否か」に整理するなど、分析目的に合わせて2カテゴリに再定義できるかを検討します。

超幾何分布の確率計算

前提が成り立つとき、 $n$ 個を取り出して当たりがちょうど $k$ 個である確率は次の式で計算できます。

$P(X=k) = \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}$

非復元抽出では、 $N$ 個から $n$ 個を選ぶすべての組合せが等確率で起こると考えます。そのうち、当たりがちょうど $k$ 個入る組合せの割合が求める確率です。各項の意味はそれぞれ次のとおりです。

$\binom{K}{k}$ ： $K$ 個の当たりから $k$ 個を選ぶ組合せ
$\binom{N-K}{n-k}$ ： $N-K$ 個の外れから $n-k$ 個を選ぶ組合せ
$\binom{N}{n}$ ： $N$ 個の全体から $n$ 個を選ぶ組合せ（全事象）

例：10本中3本当たりのくじから4本引いて、ちょうど2本が当たりになる確率は、

$P(X=2) = \frac{\binom{3}{2}\binom{7}{2}}{\binom{10}{4}} = \frac{3 \times 21}{210} = \frac{63}{210} = 0.300$

同様に、 $k=1$ の場合は、

$P(X=1) = \frac{\binom{3}{1}\binom{7}{3}}{\binom{10}{4}} = \frac{3 \times 35}{210} = \frac{105}{210} = 0.500$

例： $N=10,\, K=3,\, n=4$ の確率分布

各 $k$ の確率を並べます。

$k$	0	1	2	3
$P(X=k)$	$\frac{35}{210} \approx 0.167$	$\frac{105}{210} = 0.500$	$\frac{63}{210} = 0.300$	$\frac{7}{210} \approx 0.033$

$k$ の範囲は $\max(0, n-N+K) \leq k \leq \min(n, K)$ です。上限 $\min(n, K)$ は「引く数か当たりの総数の小さい方」です。下限 $n-N+K$ は、外れが $N-K$ 個しかないため $n-k \leq N-K$ 、つまり $k \geq n-(N-K)$ となることから来ています。この例では $\max(0, 4-10+3) = \max(0, -3) = 0$ から $\min(4, 3) = 3$ までです。

確率の合計は1になるか

ヴァンデルモンドの恒等式（Vandermonde's identity）を使うと確認できます。

$\sum_{k} \binom{K}{k}\binom{N-K}{n-k} = \binom{N}{n}$

両辺を $\binom{N}{n}$ で割ると、

$\sum_{k} P(X=k) = \sum_{k} \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}} = 1$

期待値と分散

$X \sim \mathrm{HG}(N, K, n)$ のとき、

期待値： $E[X] = n\dfrac{K}{N}$
分散： $\mathrm{Var}(X) = n\dfrac{K}{N}\dfrac{N-K}{N}\dfrac{N-n}{N-1}$

期待値について

期待値 $n \cdot K/N$ は、二項分布の期待値 $np$ と同じ形です（ $p = K/N$ と対応）。引いたくじを戻しても戻さなくても、「 $n$ 個中の当たりの平均数」は同じです。これは、引く前に中身が分からない状態であれば、何回目の抽出でも「その回に当たりを引く確率」自体は $K/N$ であるためです（期待値の線形性）。

分散と有限修正係数

分散は二項分布の分散 $np(1-p)$ に $\dfrac{N-n}{N-1}$ を掛けた形になっています。

$\mathrm{Var}(X) = \underbrace{n \cdot \frac{K}{N} \cdot \frac{N-K}{N}}_{\text{二項分布の分散に対応}} \times \underbrace{\frac{N-n}{N-1}}_{\text{有限修正係数}}$

この $\dfrac{N-n}{N-1}$ を有限修正係数（finite population correction factor）と呼びます。

$N$ が $n$ よりはるかに大きいとき： $\dfrac{N-n}{N-1} \approx 1$ （二項分布と同じ）
$n$ が $N$ に近づくとき： $\dfrac{N-n}{N-1} \to 0$ （分散が小さくなる）

$n = N$ （全数抽出）なら当たりの数は $K$ に確定するので、分散が0になるのは直感的にも納得できます。

二項分布との近似

母集団 $N$ が抽出数 $n$ に比べて十分大きいとき、引いた1個が全体に与える影響が小さくなるため、超幾何分布は二項分布 $B(n, K/N)$ で近似できます。

目安： $n/N < 0.05$ （抽出率が5%未満）であれば、近似の精度は実用的に十分です。

補足

実際の品質検査では、1000個のロットから50個を検査するような場面があります。 $n/N = 50/1000 = 0.05$ なので、この目安の境界です。非復元抽出でも二項分布で計算して十分ですが、厳密な計算が必要なら超幾何分布を使います。

応用：フィッシャーの正確確率検定との関係

超幾何分布はフィッシャーの正確確率検定（Fisher's exact test）の基盤となっています。

2×2分割表でカテゴリ間の関連を調べるとき、周辺度数（行合計・列合計）を固定すると、セルの度数が超幾何分布に従います。この性質を利用して、観測データが偶然得られる確率を正確に計算します。

カイ二乗検定がサンプルサイズの大きい近似を使うのに対し、フィッシャーの正確確率検定は小標本でも正確な $p$ 値を与えます。

補足

フィッシャーの正確確率検定の詳しい手順は「カイ二乗検定」の単元を参照してください。ここでは「超幾何分布が検定にも使われている」ことを知っておけば十分です。

まとめ

超幾何分布 $\mathrm{HG}(N, K, n)$ は、有限母集団（ $N$ 個中当たり $K$ 個）から $n$ 個を非復元抽出したときの当たりの数を表す離散分布です。