2標本検定（母平均の差）

2つの標本を比較して母平均に差があるかを検定する方法を学びます。等分散・不等分散の判断、Welchのt検定の実行手順を扱います。

難易度 Lv 4 / 10想定時間：約20分

できるようになること

2つの独立な標本から母平均の差をz検定で検定できる
プールドt検定とWelchのt検定の違いを説明できる
状況に応じて適切な検定手法を選べる

比較相手が「もう1つの標本」になるとき

「1標本検定」では、1つの標本から得た統計量を固定の基準値と比較しました。しかし実際の分析では、比較対象が固定の数値ではなく、もう1つの標本であることもよくあります。

たとえば、A工場とB工場のどちらの品質が高いかを調べたいとき、比較するのは「規格値500g」ではなく「もう一方の工場から取った標本」です。

ここで新たな問題が生じます。1標本検定では比較相手は固定値なので不確実性は標本側だけにありましたが、2標本検定では両方の標本にばらつきがあるため、差の不確実性がより大きくなります。検定統計量もこの「二重の不確実性」を反映した形になります。

補足

この単元では、2つの独立な（互いに無関係な）標本を比較する場合を扱います。同じ対象を2回測定する場合（例：同じ製品の改良前と改良後）は「対応のあるデータ」と呼ばれ、別の検定方法を使います。

母平均の差の検定

2つの独立な母集団の平均が等しいかどうかを検定します。

H_0: \mu_1 = \mu_2 \quad \text{vs} \quad H_1: \mu_1 \neq \mu_2

片側検定にする場合は、 $H_1: \mu_1 > \mu_2$ や $H_1: \mu_1 < \mu_2$ と設定します。

母分散が既知の場合（z検定）

2つの母集団の分散 $\sigma_1^2$ , $\sigma_2^2$ がともに既知の場合、検定統計量は標準正規分布に従います。

z = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\dfrac{\sigma_1^2}{n_1} + \dfrac{\sigma_2^2}{n_2}}}

分母は差の標準誤差です。1標本検定では $\sigma / \sqrt{n}$ でしたが、2標本では2つの分散を足し合わせます。独立な確率変数の差の分散は、それぞれの分散を足したものになるからです（「確率変数の和と線形結合」で学んだ性質です）。

例：2つの工場の製品重量（母分散が既知）

A工場とB工場の製品の平均重量に差があるかを検定します。以下のデータが得られました。

	A工場	B工場
標本サイズ $n$	200	150
標本平均 $\bar{x}$	502 g	498 g
母標準偏差 $\sigma$	15 g	12 g

両側検定（ $\alpha = 0.05$ ）で検定します。

手順：

$H_0: \mu_1 = \mu_2$ 、 $H_1: \mu_1 \neq \mu_2$
$\alpha = 0.05$ （両側）、臨界値 $\pm 1.96$
差の標準誤差を計算：

\sqrt{\frac{15^2}{200} + \frac{12^2}{150}} = \sqrt{\frac{225}{200} + \frac{144}{150}} = \sqrt{1.125 + 0.96} = \sqrt{2.085} \approx 1.444

検定統計量を計算：

z = \frac{502 - 498}{1.444} = \frac{4}{1.444} \approx 2.77

$z = 2.77 > 1.96$ なので棄却域に入る
結論：2つの工場の平均重量には差があると判断する

母分散が未知で等しいと仮定する場合（プールドt検定）

母分散が未知の場合、標本から推定する必要があります。2つの母集団の分散が等しい（ $\sigma_1^2 = \sigma_2^2$ ）と仮定できる場合、2つの標本のデータを統合（プール）して共通の分散を推定します。

プールド分散（pooled variance）は次の式で求めます。

s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}

これは、2つの標本の偏差平方和を合わせて自由度の合計で割ったものです。それぞれの不偏分散 $s_1^2$ , $s_2^2$ を自由度（ $n_1 - 1$ , $n_2 - 1$ ）に応じて重みづけした加重平均と考えることができます。

検定統計量は：

t = \frac{\bar{x}_1 - \bar{x}_2}{s_p \sqrt{\dfrac{1}{n_1} + \dfrac{1}{n_2}}}

この統計量は自由度 $n_1 + n_2 - 2$ の t分布に従います。

例：2つの生産ラインの比較（等分散を仮定）

同じ工場内の2つの生産ラインの品質を比較します。以下のデータが得られました。

	ライン1	ライン2
標本サイズ $n$	20	25
標本平均 $\bar{x}$	501 g	497 g
不偏標準偏差 $s$	10 g	11 g

両側検定（ $\alpha = 0.05$ ）で検定します。

手順：

$H_0: \mu_1 = \mu_2$ 、 $H_1: \mu_1 \neq \mu_2$
$\alpha = 0.05$ （両側）、自由度 $20 + 25 - 2 = 43$ のt分布の臨界値 $\pm 2.017$
プールド分散を計算：

s_p^2 = \frac{(20-1) \times 10^2 + (25-1) \times 11^2}{20 + 25 - 2} = \frac{19 \times 100 + 24 \times 121}{43} = \frac{1900 + 2904}{43} = \frac{4804}{43} \approx 111.7

s_p = \sqrt{111.7} \approx 10.57

検定統計量を計算：

t = \frac{501 - 497}{10.57 \times \sqrt{\dfrac{1}{20} + \dfrac{1}{25}}} = \frac{4}{10.57 \times \sqrt{0.09}} = \frac{4}{10.57 \times 0.300} \approx \frac{4}{3.17} \approx 1.26

$t = 1.26 < 2.017$ なので棄却域に入らない
結論：2つのラインの平均重量に差があるとは言えない

母分散が未知で等しいと仮定しない場合（Welchのt検定）

等分散の仮定は常に正しいとは限りません。2つの母集団の分散が異なる可能性がある場合は、Welch（ウェルチ）のt検定を使います。

検定統計量は：

t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}}}

分母の形はz検定と似ていますが、 $\sigma$ の代わりに $s$ を使っています。

この統計量は自由度 $\nu$ のt分布に近似的に従います。自由度はウェルチ–サタスウェイトの近似（Welch–Satterthwaite approximation）で求めます。

\nu = \frac{\left(\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}\right)^2}{\dfrac{\left(\dfrac{s_1^2}{n_1}\right)^2}{n_1 - 1} + \dfrac{\left(\dfrac{s_2^2}{n_2}\right)^2}{n_2 - 1}}

この式を暗記する必要はありませんが、自由度が2つの群のばらつきと標本サイズに依存していることを確認してください。実際の計算では統計ソフトが自動で処理します。ポイントは、等分散を仮定しないので、自由度が単純な整数にならないことです。

ポイント

プールドt検定とWelchのt検定のどちらを使うべきか迷ったら、Welchのt検定を選ぶのが安全です。等分散が成り立つ場合でもWelchの検定はほぼ同じ結果を出しますが、等分散が成り立たないのにプールドt検定を使うと、誤った結論を出す危険があります。実際、多くの統計ソフトではWelchのt検定がデフォルトになっています。

例：異なる工場の比較（等分散を仮定しない）

A工場とB工場のばらつきが異なる可能性があるため、Welchのt検定を使います。

	A工場	B工場
標本サイズ $n$	20	25
標本平均 $\bar{x}$	501 g	497 g
不偏標準偏差 $s$	10 g	18 g

手順：

$H_0: \mu_1 = \mu_2$ 、 $H_1: \mu_1 \neq \mu_2$
$\alpha = 0.05$ （両側）
差の標準誤差を計算：

\sqrt{\frac{10^2}{20} + \frac{18^2}{25}} = \sqrt{\frac{100}{20} + \frac{324}{25}} = \sqrt{5 + 12.96} = \sqrt{17.96} \approx 4.24

検定統計量を計算：

t = \frac{501 - 497}{4.24} = \frac{4}{4.24} \approx 0.94

自由度を計算：

\nu = \frac{(5 + 12.96)^2}{\dfrac{5^2}{19} + \dfrac{12.96^2}{24}} = \frac{17.96^2}{\dfrac{25}{19} + \dfrac{167.96}{24}} = \frac{322.6}{1.316 + 6.998} = \frac{322.6}{8.314} \approx 38.8

自由度 $38$ （小数点以下切り捨て）のt分布の臨界値 $\pm 2.024$ （統計ソフトでは小数のまま正確なp値が計算されますが、手計算で分布表を使う場合は安全側に倒すために切り捨てます）
$t = 0.94 < 2.024$ なので棄却域に入らない
結論：2つの工場の平均重量に差があるとは言えない

B工場の標準偏差（18g）がA工場（10g）よりかなり大きいため、差の標準誤差が大きくなり、同じ4gの差でも検出しにくくなっています。

検定の選び方

検定したい対象	検定統計量	従う分布	条件
母平均の差（σ既知）	$z = \dfrac{\bar{x}_1 - \bar{x}_2}{\sqrt{\sigma_1^2/n_1 + \sigma_2^2/n_2}}$	標準正規分布	母分散が既知
母平均の差（σ未知・等分散）	$t = \dfrac{\bar{x}_1 - \bar{x}_2}{s_p\sqrt{1/n_1 + 1/n_2}}$	t分布（自由度 $n_1+n_2-2$ ）	等分散の仮定
母平均の差（σ未知・不等分散）	$t = \dfrac{\bar{x}_1 - \bar{x}_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}}$	t分布（自由度 $\nu$ ）	Welch近似

よくある誤解

注意

誤解1：2標本検定では必ずF検定で等分散を確認してからt検定を選ぶべき — F検定は正規性に敏感であり、万能ではありません。実務では最初からWelchのt検定を使うのが主流です。等分散が成り立つ場合でもWelchの結果はプールドt検定とほぼ一致します。
誤解2：標本サイズが同じなら、プールドt検定とWelchのt検定は同じ結果になる — 標本サイズが等しい場合、検定統計量の値は一致しますが、自由度が異なるため臨界値が変わり、結論が異なることがあります。Welchの自由度は $n_1 + n_2 - 2$ 以下になることが多く、t分布の裾が厚くなるため臨界値は大きくなる傾向があります。
誤解3：標本平均の差が大きければ、必ず有意になる — 有意かどうかは差の大きさだけでなく、ばらつきと標本サイズにも依存します。差の標準誤差が分母に入っているのはそのためです。

まとめ

2標本検定（母平均の差）では、2つの独立な標本の平均を比較します。1標本検定と同じ論理構造（仮説→検定統計量→判定）ですが、比較対象にも不確実性があることが新たなポイントです。母分散が既知ならz検定を使い、未知の場合は等分散を仮定するならプールドt検定、仮定しないならWelchのt検定を使います。迷ったらWelchのt検定が安全です。

「1標本検定」と対比すると、検定統計量の分母（標準誤差）に「2つの分散が合わさっている」ことが構造的な違いです。これは、2つの独立な確率変数の差の分散がそれぞれの分散の和になることの反映です。

「2標本検定（母分散の比・母比率の差）」では、母分散の比の検定（F検定）と母比率の差の検定を学びます。