2標本検定(母平均の差)

2つの標本を比較して、母平均に差があるかを検定する

難易度 Lv 4 / 10想定時間:約20

できるようになること


比較相手が「もう1つの標本」になるとき

「1標本検定」では、1つの標本から得た統計量を固定の基準値と比較しました。しかし実際の分析では、比較対象が固定の数値ではなく、もう1つの標本であることもよくあります。

たとえば、A工場とB工場のどちらの品質が高いかを調べたいとき、比較するのは「規格値500g」ではなく「もう一方の工場から取った標本」です。

ここで新たな問題が生じます。1標本検定では比較相手は固定値なので不確実性は標本側だけにありましたが、2標本検定では両方の標本にばらつきがあるため、差の不確実性がより大きくなります。検定統計量もこの「二重の不確実性」を反映した形になります。

補足

この単元では、2つの独立な(互いに無関係な)標本を比較する場合を扱います。同じ対象を2回測定する場合(例:同じ製品の改良前と改良後)は「対応のあるデータ」と呼ばれ、別の検定方法を使います。


母平均の差の検定

2つの独立な母集団の平均が等しいかどうかを検定します。

H0:μ1=μ2vsH1:μ1μ2H_0: \mu_1 = \mu_2 \quad \text{vs} \quad H_1: \mu_1 \neq \mu_2

片側検定にする場合は、H1:μ1>μ2H_1: \mu_1 > \mu_2H1:μ1<μ2H_1: \mu_1 < \mu_2 と設定します。

母分散が既知の場合(z検定)

2つの母集団の分散 σ12\sigma_1^2, σ22\sigma_2^2 がともに既知の場合、検定統計量は標準正規分布に従います。

z=xˉ1xˉ2σ12n1+σ22n2z = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\dfrac{\sigma_1^2}{n_1} + \dfrac{\sigma_2^2}{n_2}}}

分母は差の標準誤差です。1標本検定では σ/n\sigma / \sqrt{n} でしたが、2標本では2つの分散を足し合わせます。独立な確率変数の差の分散は、それぞれの分散を足したものになるからです(「確率変数の和と線形結合」で学んだ性質です)。

例:2つの工場の製品重量(母分散が既知)

A工場とB工場の製品の平均重量に差があるかを検定します。以下のデータが得られました。

A工場B工場
標本サイズ nn200150
標本平均 xˉ\bar{x}502 g498 g
母標準偏差 σ\sigma15 g12 g

両側検定(α=0.05\alpha = 0.05)で検定します。

手順:

  1. H0:μ1=μ2H_0: \mu_1 = \mu_2H1:μ1μ2H_1: \mu_1 \neq \mu_2

  2. α=0.05\alpha = 0.05(両側)、臨界値 ±1.96\pm 1.96

  3. 差の標準誤差を計算:

152200+122150=225200+144150=1.125+0.96=2.0851.444\sqrt{\frac{15^2}{200} + \frac{12^2}{150}} = \sqrt{\frac{225}{200} + \frac{144}{150}} = \sqrt{1.125 + 0.96} = \sqrt{2.085} \approx 1.444
  1. 検定統計量を計算:
z=5024981.444=41.4442.77z = \frac{502 - 498}{1.444} = \frac{4}{1.444} \approx 2.77
  1. z=2.77>1.96z = 2.77 > 1.96 なので棄却域に入る
  2. 結論:2つの工場の平均重量には差があると判断する

母分散が未知で等しいと仮定する場合(プールドt検定)

母分散が未知の場合、標本から推定する必要があります。2つの母集団の分散が等しい(σ12=σ22\sigma_1^2 = \sigma_2^2)と仮定できる場合、2つの標本のデータを統合(プール)して共通の分散を推定します。

プールド分散(pooled variance)は次の式で求めます。

sp2=(n11)s12+(n21)s22n1+n22s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}

これは、2つの標本の偏差平方和を合わせて自由度の合計で割ったものです。それぞれの不偏分散 s12s_1^2, s22s_2^2 を自由度(n11n_1 - 1, n21n_2 - 1)に応じて重みづけした加重平均と考えることができます。

検定統計量は:

t=xˉ1xˉ2sp1n1+1n2t = \frac{\bar{x}_1 - \bar{x}_2}{s_p \sqrt{\dfrac{1}{n_1} + \dfrac{1}{n_2}}}

この統計量は自由度 n1+n22n_1 + n_2 - 2t分布に従います。

例:2つの生産ラインの比較(等分散を仮定)

同じ工場内の2つの生産ラインの品質を比較します。以下のデータが得られました。

ライン1ライン2
標本サイズ nn2025
標本平均 xˉ\bar{x}501 g497 g
不偏標準偏差 ss10 g11 g

両側検定(α=0.05\alpha = 0.05)で検定します。

手順:

  1. H0:μ1=μ2H_0: \mu_1 = \mu_2H1:μ1μ2H_1: \mu_1 \neq \mu_2

  2. α=0.05\alpha = 0.05(両側)、自由度 20+252=4320 + 25 - 2 = 43 のt分布の臨界値 ±2.017\pm 2.017

  3. プールド分散を計算:

sp2=(201)×102+(251)×11220+252=19×100+24×12143=1900+290443=480443111.7s_p^2 = \frac{(20-1) \times 10^2 + (25-1) \times 11^2}{20 + 25 - 2} = \frac{19 \times 100 + 24 \times 121}{43} = \frac{1900 + 2904}{43} = \frac{4804}{43} \approx 111.7 sp=111.710.57s_p = \sqrt{111.7} \approx 10.57
  1. 検定統計量を計算:
t=50149710.57×120+125=410.57×0.09=410.57×0.30043.171.26t = \frac{501 - 497}{10.57 \times \sqrt{\dfrac{1}{20} + \dfrac{1}{25}}} = \frac{4}{10.57 \times \sqrt{0.09}} = \frac{4}{10.57 \times 0.300} \approx \frac{4}{3.17} \approx 1.26
  1. t=1.26<2.017t = 1.26 < 2.017 なので棄却域に入らない
  2. 結論:2つのラインの平均重量に差があるとは言えない

母分散が未知で等しいと仮定しない場合(Welchのt検定)

等分散の仮定は常に正しいとは限りません。2つの母集団の分散が異なる可能性がある場合は、Welch(ウェルチ)のt検定を使います。

検定統計量は:

t=xˉ1xˉ2s12n1+s22n2t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}}}

分母の形はz検定と似ていますが、σ\sigma の代わりに ss を使っています。

この統計量は自由度 ν\nu のt分布に近似的に従います。自由度はウェルチ–サタスウェイトの近似(Welch–Satterthwaite approximation)で求めます。

ν=(s12n1+s22n2)2(s12n1)2n11+(s22n2)2n21\nu = \frac{\left(\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}\right)^2}{\dfrac{\left(\dfrac{s_1^2}{n_1}\right)^2}{n_1 - 1} + \dfrac{\left(\dfrac{s_2^2}{n_2}\right)^2}{n_2 - 1}}

この式を暗記する必要はありませんが、自由度が2つの群のばらつきと標本サイズに依存していることを確認してください。実際の計算では統計ソフトが自動で処理します。ポイントは、等分散を仮定しないので、自由度が単純な整数にならないことです。

ポイント

プールドt検定とWelchのt検定のどちらを使うべきか迷ったら、Welchのt検定を選ぶのが安全です。等分散が成り立つ場合でもWelchの検定はほぼ同じ結果を出しますが、等分散が成り立たないのにプールドt検定を使うと、誤った結論を出す危険があります。実際、多くの統計ソフトではWelchのt検定がデフォルトになっています。

例:異なる工場の比較(等分散を仮定しない)

A工場とB工場のばらつきが異なる可能性があるため、Welchのt検定を使います。

A工場B工場
標本サイズ nn2025
標本平均 xˉ\bar{x}501 g497 g
不偏標準偏差 ss10 g18 g

手順:

  1. H0:μ1=μ2H_0: \mu_1 = \mu_2H1:μ1μ2H_1: \mu_1 \neq \mu_2

  2. α=0.05\alpha = 0.05(両側)

  3. 差の標準誤差を計算:

10220+18225=10020+32425=5+12.96=17.964.24\sqrt{\frac{10^2}{20} + \frac{18^2}{25}} = \sqrt{\frac{100}{20} + \frac{324}{25}} = \sqrt{5 + 12.96} = \sqrt{17.96} \approx 4.24
  1. 検定統計量を計算:
t=5014974.24=44.240.94t = \frac{501 - 497}{4.24} = \frac{4}{4.24} \approx 0.94
  1. 自由度を計算:
ν=(5+12.96)25219+12.96224=17.9622519+167.9624=322.61.316+6.998=322.68.31438.8\nu = \frac{(5 + 12.96)^2}{\dfrac{5^2}{19} + \dfrac{12.96^2}{24}} = \frac{17.96^2}{\dfrac{25}{19} + \dfrac{167.96}{24}} = \frac{322.6}{1.316 + 6.998} = \frac{322.6}{8.314} \approx 38.8
  1. 自由度 3838(小数点以下切り捨て)のt分布の臨界値 ±2.024\pm 2.024(統計ソフトでは小数のまま正確なp値が計算されますが、手計算で分布表を使う場合は安全側に倒すために切り捨てます)
  2. t=0.94<2.024t = 0.94 < 2.024 なので棄却域に入らない
  3. 結論:2つの工場の平均重量に差があるとは言えない

B工場の標準偏差(18g)がA工場(10g)よりかなり大きいため、差の標準誤差が大きくなり、同じ4gの差でも検出しにくくなっています。


検定の選び方

検定したい対象検定統計量従う分布条件
母平均の差(σ既知)z=xˉ1xˉ2σ12/n1+σ22/n2z = \dfrac{\bar{x}_1 - \bar{x}_2}{\sqrt{\sigma_1^2/n_1 + \sigma_2^2/n_2}}標準正規分布母分散が既知
母平均の差(σ未知・等分散)t=xˉ1xˉ2sp1/n1+1/n2t = \dfrac{\bar{x}_1 - \bar{x}_2}{s_p\sqrt{1/n_1 + 1/n_2}}t分布(自由度 n1+n22n_1+n_2-2等分散の仮定
母平均の差(σ未知・不等分散)t=xˉ1xˉ2s12/n1+s22/n2t = \dfrac{\bar{x}_1 - \bar{x}_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}}t分布(自由度 ν\nuWelch近似

よくある誤解

注意
  • 誤解1:2標本検定では必ずF検定で等分散を確認してからt検定を選ぶべき — F検定は正規性に敏感であり、万能ではありません。実務では最初からWelchのt検定を使うのが主流です。等分散が成り立つ場合でもWelchの結果はプールドt検定とほぼ一致します。
  • 誤解2:標本サイズが同じなら、プールドt検定とWelchのt検定は同じ結果になる — 標本サイズが等しい場合、検定統計量の値は一致しますが、自由度が異なるため臨界値が変わり、結論が異なることがあります。Welchの自由度は n1+n22n_1 + n_2 - 2 以下になることが多く、t分布の裾が厚くなるため臨界値は大きくなる傾向があります。
  • 誤解3:標本平均の差が大きければ、必ず有意になる — 有意かどうかは差の大きさだけでなく、ばらつきと標本サイズにも依存します。差の標準誤差が分母に入っているのはそのためです。

まとめ

2標本検定(母平均の差)では、2つの独立な標本の平均を比較します。1標本検定と同じ論理構造(仮説→検定統計量→判定)ですが、比較対象にも不確実性があることが新たなポイントです。母分散が既知ならz検定を使い、未知の場合は等分散を仮定するならプールドt検定、仮定しないならWelchのt検定を使います。迷ったらWelchのt検定が安全です。

「1標本検定」と対比すると、検定統計量の分母(標準誤差)に「2つの分散が合わさっている」ことが構造的な違いです。これは、2つの独立な確率変数の差の分散がそれぞれの分散の和になることの反映です。

「2標本検定(母分散の比・母比率の差)」では、母分散の比の検定(F検定)と母比率の差の検定を学びます。