二項分布の正規近似

nが大きいとき、二項分布を正規分布で置き換える

難易度 Lv 3 / 10想定時間:約20

できるようになること


「1000回中520回」をどう評価するか

ある世論調査で1000人に賛否を聞いたところ、520人が「賛成」と答えました。「賛成が多数派か」を統計的に判断するには、もし本当に賛成率が50%(p=0.5p = 0.5)だとして、520人以上が賛成になる確率を求める必要があります。

賛成した人数を XX とすると、XB(1000,0.5)X \sim B(1000, 0.5) です。求めたいのは P(X520)P(X \geq 520) ですが、これを二項分布の式で直接計算するには

P(X520)=k=52010001000Ck0.51000P(X \geq 520) = \sum_{k=520}^{1000} {}_{1000}C_k \cdot 0.5^{1000}

という481個の項を計算して合計する必要があります。1000C520{}_{1000}C_{520} のような巨大な組合せ数を含むこの計算は、手作業では現実的ではありません。

二項分布を正規分布で近似すれば、この計算を標準正規分布表の参照だけで済ませられます。


なぜ正規分布で近似できるのか

二項分布 B(n,p)B(n, p) に従う確率変数 XX は、独立なベルヌーイ試行の和として表せます。

X=X1+X2++Xn(XiBernoulli(p))X = X_1 + X_2 + \cdots + X_n \quad (X_i \sim \text{Bernoulli}(p))

XiX_i は確率 pp で1、確率 1p1-p で0をとる独立な確率変数です。中心極限定理により、分散が有限な独立な確率変数の和は nn が大きいとき正規分布に近づきます。ベルヌーイ分布の分散 p(1p)p(1-p) は有限なので、nn が大きいとき

XN(np,np(1p))(近似)X \sim N(np, \, np(1-p)) \quad (\text{近似})

と近似できます。つまり、二項分布の期待値 npnp と分散 np(1p)np(1-p) を持つ正規分布で置き換えるということです。

標準化すると、

Z=Xnpnp(1p)N(0,1)(近似)Z = \frac{X - np}{\sqrt{np(1-p)}} \sim N(0, 1) \quad (\text{近似})

となり、標準正規分布表を使って確率を求められます。

補足

この近似は中心極限定理の特殊ケースです。歴史的には、ド・モアブルとラプラスが中心極限定理よりも先にこの結果を発見しており、ド・モアブル=ラプラスの定理(de Moivre–Laplace theorem)と呼ばれています。


連続修正

二項分布は離散的(XX は0, 1, 2, …の整数値しか取らない)ですが、正規分布は連続的です。この違いを補正するのが連続修正(continuity correction)です。

離散的な確率 P(X=k)P(X = k) は、正規分布上では k0.5k - 0.5 から k+0.5k + 0.5 までの面積に対応します。区間を広げる方向は「その整数を含みたい側」に合わせます。P(Xk)P(X \geq k)kk を下から含みたいので下限を k0.5k - 0.5 に、P(Xk)P(X \leq k)kk を上から含みたいので上限を k+0.5k + 0.5 にします。

求めたい確率連続修正なし連続修正あり
P(Xk)P(X \leq k)P ⁣(Zknpnp(1p))P\!\left(Z \leq \dfrac{k - np}{\sqrt{np(1-p)}}\right)P ⁣(Zk+0.5npnp(1p))P\!\left(Z \leq \dfrac{k + 0.5 - np}{\sqrt{np(1-p)}}\right)
P(Xk)P(X \geq k)P ⁣(Zknpnp(1p))P\!\left(Z \geq \dfrac{k - np}{\sqrt{np(1-p)}}\right)P ⁣(Zk0.5npnp(1p))P\!\left(Z \geq \dfrac{k - 0.5 - np}{\sqrt{np(1-p)}}\right)
P(X=k)P(X = k)P ⁣(k0.5npnp(1p)Zk+0.5npnp(1p))P\!\left(\dfrac{k - 0.5 - np}{\sqrt{np(1-p)}} \leq Z \leq \dfrac{k + 0.5 - np}{\sqrt{np(1-p)}}\right)

連続修正の考え方は「整数 kk を、区間 [k0.5,k+0.5][k - 0.5, \, k + 0.5] に広げて考える」ということです。P(X520)P(X \geq 520) なら k=520k = 520 を含む必要があるので、下限を 5200.5=519.5520 - 0.5 = 519.5 にします。

ヒント

連続修正は nn が大きいほど影響が小さくなります。nn が数百以上なら、連続修正の有無で結果はほとんど変わりません。ただし統計検定の問題では連続修正を求められることがあるので、手順は把握しておくとよいでしょう。


近似が使える条件

正規近似はいつでも使えるわけではありません。nn が小さかったり pp が0や1に非常に近かったりすると、二項分布の形が正規分布から大きくずれます。

一般的に使われる目安は次の条件です。

np5かつn(1p)5np \geq 5 \quad \text{かつ} \quad n(1-p) \geq 5

この条件は「成功が平均5回以上、失敗も平均5回以上は期待できる」という意味です。

nnppnpnpn(1p)n(1-p)近似の可否
1000.55050✅ 良好
1000.11090✅ 使える
1000.02298np<5np < 5
200.51010✅ 使える
100.119np<5np < 5
ポイント

pp が小さく(あるいは大きく)npnp が5未満になるとき、二項分布は左右非対称になり正規分布による近似の精度が悪くなります。このような場合はポアソン近似が適切なことがあります。


冒頭の問いに答える

世論調査の問題に戻ります。XB(1000,0.5)X \sim B(1000, 0.5) のとき、P(X520)P(X \geq 520) を正規近似で求めます。

Step 1:条件の確認

np=1000×0.5=5005np = 1000 \times 0.5 = 500 \geq 5n(1p)=5005n(1-p) = 500 \geq 5 なので、正規近似は使えます。

Step 2:標準化(連続修正あり)

P(X520)P(X \geq 520) を求めるので、k=520k = 520 から 0.5-0.5 して

Z=519.55001000×0.5×0.5=19.5250=19.515.811.23Z = \frac{519.5 - 500}{\sqrt{1000 \times 0.5 \times 0.5}} = \frac{19.5}{\sqrt{250}} = \frac{19.5}{15.81} \approx 1.23

Step 3:確率の計算

P(X520)P(Z1.23)=1Φ(1.23)P(X \geq 520) \approx P(Z \geq 1.23) = 1 - \Phi(1.23)

標準正規分布表から Φ(1.23)0.8907\Phi(1.23) \approx 0.8907 なので、

P(X520)10.8907=0.1093P(X \geq 520) \approx 1 - 0.8907 = 0.1093

つまり、もし賛成率が本当に50%なら、1000人中520人以上が賛成になる確率は約11%です。有意水準5%では棄却できませんが、10%ならかなり微妙なラインです。なお連続修正なしでは Z1.27Z \approx 1.27P0.102P \approx 0.102 となり、n=1000n = 1000 では差はわずかです。


まとめ

二項分布 B(n,p)B(n, p) は、nn が十分に大きいとき正規分布 N(np,np(1p))N(np, \, np(1-p)) で近似できます。これは中心極限定理の特殊ケースであり、ベルヌーイ試行の和が正規分布に近づくことから導かれます。

近似を使うかどうかは np5np \geq 5 かつ n(1p)5n(1-p) \geq 5 を目安に判断します。離散を連続で近似する際には ±0.5 の連続修正を加えると精度が上がりますが、nn が大きければ省略しても影響はわずかです。

ヒント

正規近似の手順:(1) npnpn(1p)n(1-p) がともに5以上か確認 → (2) Z=(Xnp)/np(1p)Z = (X - np) / \sqrt{np(1-p)} で標準化(必要なら連続修正)→ (3) 標準正規分布表で確率を求める。