2標本検定(母分散の比・母比率の差)

F検定で分散の等しさを調べ、正規近似で比率の差を検定する

難易度 Lv 4 / 10想定時間:約20

できるようになること


母平均以外の比較

「2標本検定(母平均の差)」では、2つの標本の平均を比較する方法を学びました。ここでは、分散(ばらつき)の比較比率の比較を扱います。


母分散の比の検定(F検定)

2つの母集団の分散が等しいかどうかを検定します。この検定の結果は、プールドt検定を使ってよいかどうかの判断にも使えます。

H0:σ12=σ22vsH1:σ12σ22H_0: \sigma_1^2 = \sigma_2^2 \quad \text{vs} \quad H_1: \sigma_1^2 \neq \sigma_2^2

検定統計量は、2つの不偏分散のです。

F=s12s22F = \frac{s_1^2}{s_2^2}

慣例として、大きい方の不偏分散を分子に置きます(s12s22s_1^2 \geq s_2^2)。この統計量は自由度 (n11,n21)(n_1 - 1, n_2 - 1)F分布に従います。

FF が1に近ければ2つの分散はほぼ等しく、1から大きく離れるほど差があることを示します。

補足

F分布は0以上の値のみを取る右に裾の長い分布です。大きい不偏分散を分子に置く操作によって検定統計量が F1F \geq 1(分布の右側)に強制されるため、下側の棄却域を気にする必要がなくなり、上側 α/2\alpha/2 の棄却点との比較だけで両側検定と同値の判定ができます。

例:2つの生産ラインのばらつき比較

2つの生産ラインの品質のばらつきに差があるかを検定します(ライン1:s12=100s_1^2 = 100, n1=20n_1 = 20、ライン2:s22=121s_2^2 = 121, n2=25n_2 = 25)。

手順:

  1. H0:σ12=σ22H_0: \sigma_1^2 = \sigma_2^2H1:σ12σ22H_1: \sigma_1^2 \neq \sigma_2^2

  2. α=0.05\alpha = 0.05(両側)

  3. 大きい不偏分散(ライン2:s22=121s_2^2 = 121)を分子に置く:

F=121100=1.21F = \frac{121}{100} = 1.21
  1. 自由度 (24,19)(24, 19) のF分布の上側 2.5%2.5\%2.45\approx 2.45(両側検定なので α/2=0.025\alpha/2 = 0.025
  2. F=1.21<2.45F = 1.21 < 2.45 なので棄却域に入らない
  3. 結論:2つのラインの分散が異なるとは言えない
ポイント

F検定は母集団の正規性に非常に敏感です。母集団が正規分布から大きくずれている場合、F検定の結果は信頼できません。そのため、プールドt検定を使うかWelchのt検定を使うかの判断にF検定を使うことには注意が必要です。迷った場合はWelchのt検定を選ぶ方が頑健です。


母比率の差の検定

2つの母集団の比率が等しいかどうかを検定します。

H0:p1=p2vsH1:p1p2H_0: p_1 = p_2 \quad \text{vs} \quad H_1: p_1 \neq p_2

帰無仮説のもとでは p1=p2p_1 = p_2 なので、2つの標本を統合してプールド比率を求めます。

p^=x1+x2n1+n2\hat{p} = \frac{x_1 + x_2}{n_1 + n_2}

ここで x1x_1, x2x_2 はそれぞれの標本での「成功」数です。

検定統計量は:

z=p^1p^2p^(1p^)(1n1+1n2)z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1 - \hat{p})\left(\dfrac{1}{n_1} + \dfrac{1}{n_2}\right)}}

この統計量は近似的に標準正規分布に従います。

補足

1標本の母比率の検定では分母に p0p_0 を使いましたが、2標本では帰無仮説のもとで共通の比率が未知なので、プールド比率 p^\hat{p} で推定します。

例:2つの工場の不良品率

A工場とB工場で不良品率に差があるかを検定します。

A工場B工場
検査数 nn300250
不良品数 xx1825
標本比率 p^\hat{p}0.0600.100

両側検定(α=0.05\alpha = 0.05)で検定します。

手順:

  1. H0:p1=p2H_0: p_1 = p_2H1:p1p2H_1: p_1 \neq p_2

  2. α=0.05\alpha = 0.05(両側)、臨界値 ±1.96\pm 1.96

  3. プールド比率を計算:

p^=18+25300+250=435500.0782\hat{p} = \frac{18 + 25}{300 + 250} = \frac{43}{550} \approx 0.0782
  1. 差の標準誤差を計算:
0.0782×0.9218×(1300+1250)=0.0721×0.00733=0.0005280.0230\sqrt{0.0782 \times 0.9218 \times \left(\frac{1}{300} + \frac{1}{250}\right)} = \sqrt{0.0721 \times 0.00733} = \sqrt{0.000528} \approx 0.0230
  1. 検定統計量を計算:
z=0.0600.1000.0230=0.0400.02301.74z = \frac{0.060 - 0.100}{0.0230} = \frac{-0.040}{0.0230} \approx -1.74
  1. z=1.74<1.96|z| = 1.74 < 1.96 なので棄却域に入らない
  2. 結論:2つの工場の不良品率に差があるとは言えない

A工場6%に対しB工場10%と、数字上は差が大きく見えますが、z=1.74|z| = 1.74 は棄却域にかなり近い値です。「差がない」と確定したわけではなく、「この標本サイズでは差を統計的に裏付けるには至らなかった」という意味です。

補足

この近似が妥当であるためには、n1p^n_1\hat{p}, n1(1p^)n_1(1-\hat{p}), n2p^n_2\hat{p}, n2(1p^)n_2(1-\hat{p}) がすべて5以上であることを確認してください。


検定の選び方

検定したい対象検定統計量従う分布条件
母分散の比F=s12/s22F = s_1^2 / s_2^2F分布(自由度 n11,n21n_1-1, n_2-1正規母集団
母比率の差z=p^1p^2p^(1p^)(1/n1+1/n2)z = \dfrac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(1/n_1+1/n_2)}}標準正規分布各群の成功・失敗の期待度数 ≥ 5

まとめ

F検定は2つの母分散が等しいかを判定しますが、正規性に敏感なため結果の解釈には慎重さが必要です。母比率の差の検定はプールド比率を使った正規近似で、2群の比率を比較します。どちらの検定も、前提条件(F検定は正規母集団、比率の検定は期待度数 ≥ 5)を確認してから使いましょう。