1標本検定
1つの標本から母平均・母分散・母比率を検定する手順を学ぶ
できるようになること
- 母平均の検定をz検定またはt検定で実行できる
- 母分散の検定をカイ二乗検定で実行できる
- 母比率の検定を正規近似で実行できる
道具を使ってみる
「仮説検定の考え方」で検定の論理を、「棄却域と片側・両側検定」で判定方法を学びました。ここからは、実際にデータを使って検定を最後まで実行します。
1標本検定とは、1つの標本から得た統計量を、ある基準値と比較する検定です。たとえば「この工場の製品の平均重量は500gか」「不良品率は5%以下か」といった問いに答えます。
検定したい対象によって、使う検定統計量と分布が変わります。この単元では、母平均・母分散・母比率の3つを順に見ていきます。
母平均の検定
母集団の平均が特定の値と異なるかどうかを検定します。使う検定は、母分散が分かっているかどうかで変わります。
母分散が既知の場合(z検定)
母分散 が分かっている場合、検定統計量は標準正規分布に従います。
- :標本平均
- :検定したい基準値
- :母標準偏差(既知)
- :標本サイズ
例:製品の平均重量
ある工場の製品300個を検査したところ、標本平均 g でした。この工場では過去の大量のデータから母標準偏差 g が分かっています。平均重量は500gと言えるかを両側検定()で検定します。
手順:
-
、
-
(両側)、臨界値
-
検定統計量を計算:
- なので棄却域に入る
- 結論:平均重量は500gではないと判断する
母分散が未知の場合(t検定)
実際のデータ分析では、母分散が分かっていることはほとんどありません。母分散が未知の場合は、不偏標準偏差 (偏差平方和を で割った分散の正の平方根)で代用し、t分布を使います。
この統計量は自由度 の t分布に従います。t分布は標準正規分布より裾が厚く、標本サイズが小さいほど不確実性を大きく見積もります。t分布の性質については「 t分布」の単元で詳しく学びます。
z検定とt検定の式は同じ形をしていますが、分母が (母標準偏差、定数)か (不偏標準偏差、標本ごとにばらつく確率変数)かが異なります。定数である の代わりに、ばらつきを持つ を使うことで不確実性が増すため、t分布は標準正規分布より裾が厚くなります。
例:製品の平均重量(母分散が未知の場合)
今度は別の工場で、母標準偏差が分かっていない場合を考えます。製品25個を抽出したところ、標本平均 g、不偏標準偏差 g でした。平均重量は500gと言えるかを両側検定()で検定します。
手順:
-
、
-
(両側)、自由度 のt分布の臨界値
-
検定統計量を計算:
- なので棄却域に入らない
- 結論:平均重量が500gと異なるとは言えない
z検定ではn=300の大標本で棄却されましたが、t検定ではn=25の小標本で棄却されませんでした。同じ標本平均の差(2g)でも、標本サイズと使える情報によって結論が変わることが分かります。
t検定を使うには、母集団が正規分布に従うことが前提です。標本サイズが十分に大きい場合は、中心極限定理により正規近似が働くため、正規性の影響は小さくなります。前提条件の詳細と確認方法は、別の単元で扱います。
母分散の検定
母集団の分散が特定の値と異なるかどうかを検定します。
検定統計量はカイ二乗統計量を使います。
- :不偏分散(偏差平方和を で割ったもの)
- :検定したい基準の分散
- :標本サイズ
この統計量は自由度 のカイ二乗分布に従います。
カイ二乗分布は0以上の値しか取らず、左右非対称です。そのため、両側検定では棄却域が「左右対称」ではなく、上側と下側のパーセント点をそれぞれ分布表から求めます。
例:製品の重量のばらつき
先ほどの工場で、製品重量の分散が (標準偏差15g)と言えるかを検定します。25個の標本から標本分散 が得られました。両側検定()で検定します。
手順:
-
、
-
(両側)、自由度 のカイ二乗分布の臨界値:下側 、上側 (添字は上側確率を示す)
-
検定統計量を計算:
- なので棄却域に入らない
- 結論:分散が225と異なるとは言えない
母分散の検定は、母集団の正規性に対して敏感です。母平均のt検定よりも正規性の前提が重要になります。詳細は別の単元で扱います。
母比率の検定
母集団における比率が特定の値と異なるかどうかを検定します。
標本比率 が十分なサンプルサイズのもとで近似的に正規分布に従うことを利用します。
- :標本比率
- :検定したい基準の比率
- :標本サイズ
分母で (標本比率)ではなく (帰無仮説の基準値)を使うのは、「帰無仮説が正しいと仮定したもとでの標準誤差」を使うためです。この正規近似が妥当であるためには、 かつ を満たす必要があります。
例:製品の不良品率
工場の管理基準では不良品率は5%とされています。200個の製品を検査したところ、不良品は16個()でした。不良品率が5%と異なるかを両側検定()で検定します。
手順:
-
、
-
(両側)、臨界値
-
近似条件の確認:、(OK)
-
検定統計量を計算:
- なので棄却域に入らない
- 結論:不良品率が5%と異なるとは言えない
この例では臨界値にきわめて近い値が出ました。棄却域にぎりぎり入らなかったからといって「差がない」と確定したわけではありません。もし事前により大きなサンプルサイズで設計していれば、結論が変わった可能性があります。ただし、「有意にならなかったからサンプルを追加する」のは結果を見てからの操作であり、第1種の過誤率を乱します。サンプルサイズは検定の前に決めるものです。
検定の選び方
| 検定したい対象 | 検定統計量 | 従う分布 | 条件 |
|---|---|---|---|
| 母平均(σ既知) | 標準正規分布 | 母分散が既知 | |
| 母平均(σ未知) | t分布(自由度 n-1) | 母集団が正規 | |
| 母分散 | カイ二乗分布(自由度 n-1) | 母集団が正規 | |
| 母比率 | 標準正規分布 | , |
よくある誤解
- 誤解1:標本サイズが大きければ常にz検定を使ってよい — 大標本ではt分布と標準正規分布が近づくため数値はほぼ一致しますが、 が未知である事実は変わらないため、t検定が正しい選択です。
- 誤解2:母分散の検定でもt分布を使う — 母分散の検定にはカイ二乗分布を使います。t分布を使うのは母平均の検定です。
- 誤解3:検定統計量が棄却域に入らなかったので、帰無仮説は正しい — 棄却できなかったのは「証拠不足」であり、帰無仮説が正しいと証明されたわけではありません。「仮説検定の考え方」で学んだ通りです。
まとめ
1標本検定では、1つの標本から得た統計量を基準値と比較します。母平均を検定するには母分散が既知ならz検定、未知ならt検定を使い、母分散を検定するにはカイ二乗統計量、母比率を検定するには正規近似を使います。
どの検定も手順は共通しています。仮説を立て、検定統計量を計算し、棄却域と比較して結論を出します。「棄却域と片側・両側検定」で学んだ判定方法がそのまま使えます。各検定の前提条件(正規性など)の確認方法と、前提が満たされないときの対処は別の単元で学びます。