対応のある検定（対応のあるt検定）

同じ対象を2回測定し、差の平均がゼロかどうかを検定する対応のあるt検定を学びます。対応なしの検定との違いと、使い分けの判断基準を扱います。

難易度 Lv 4 / 10想定時間：約20分

できるようになること

対応のあるデータと独立な2標本データの違いを説明できる
対応のあるt検定の検定統計量を導き、検定を実行できる
対応のあるデータに独立2標本検定を使うとなぜ誤りになるかを理解している
対応のある検定の前提条件（差の正規性）を確認できる

なぜ「同じ人」を2回測るのか

「2標本検定（母平均の差）」では、2つの異なるグループを比較しました。A工場の製品とB工場の製品、薬Aを飲んだグループと薬Bを飲んだグループ──比較するのは別々の対象でした。

しかし実務では、同じ対象を2回測定して変化を見ることが非常に多くあります。

ダイエットプログラムの効果を調べるため、同じ参加者の実施前と実施後の体重を測る
新しい教育法の効果を調べるため、同じ学生の受講前と受講後のテストの点数を測る
2つの血圧計の精度を比べるため、同じ患者の血圧を両方の機器で測る

こうしたデータには「同じ人」という対応関係があります。Aさんの体重80kgとBさんの体重60kgを引き算しても意味がないように、異なる人の間で引き算をすることは適切ではありません。しかし、Aさんの「ダイエット前80kg→ダイエット後76kg」という差4kgは、Aさん個人の変化として意味を持ちます。

この「対応関係」を活かすか無視するかによって、検定の結果が大きく変わります。

対応のあるデータの構造

対応のあるデータとは、各データ対（ペア）が自然に結びついている2組の測定値のことです。各ペアについて、1回目の測定値を $x_{1i}$ 、2回目の測定値を $x_{2i}$ と表記すると、データは次のように整理できます。

対象	測定1（ $x_{1i}$ ）	測定2（ $x_{2i}$ ）	差（ $d_i = x_{2i} - x_{1i}$ ）
Aさん	80 kg	76 kg	−4 kg
Bさん	65 kg	63 kg	−2 kg
Cさん	90 kg	85 kg	−5 kg
︙	︙	︙	︙

ここで重要なのは、 $n$ 対のペアから $n$ 個の差 $d_1, d_2, \ldots, d_n$ を計算すれば、問題が「差の平均はゼロか？」という1標本問題に帰着することです。

ポイント

対応のあるデータかどうかを判断する基本的な問いは、「2つの測定値を結びつけている"対象"が存在するか」です。同じ人・同じ製品・同じ地点など、対を作る自然な単位があれば対応ありです。

対応のあるt検定

差を取って1標本問題にする

各ペアの差 $d_i = x_{2i} - x_{1i}$ を計算したら、検定の問いは次のようになります。

H_0: \mu_d = 0 \quad \text{vs} \quad H_1: \mu_d \neq 0

ここで $\mu_d$ は「差の母平均」です。つまり、母集団全体で差の平均がゼロかどうかを検定します。

差の標本平均と不偏標準偏差を計算します。

\bar{d} = \frac{1}{n}\sum_{i=1}^{n} d_i, \qquad s_d = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(d_i - \bar{d})^2}

検定統計量

検定統計量は1標本t検定と同じ形です。

t = \frac{\bar{d} - 0}{s_d / \sqrt{n}} = \frac{\bar{d}}{s_d / \sqrt{n}}

この統計量は自由度 $n - 1$ のt分布に従います（ $n$ はペアの数）。

補足

対応のあるt検定は、新しい検定ではありません。差 $d_i$ を1つの変数と見なせば、「1標本検定」で学んだ母平均のt検定そのものです。見かけは2組のデータですが、本質は1組の差のデータに対する検定です。

例1：ダイエットプログラムの効果

10人の参加者がダイエットプログラムを8週間実施しました。プログラム前後の体重（kg）は次の通りです。体重が減少したかどうかを片側検定（ $\alpha = 0.05$ ）で検定します。

参加者	実施前	実施後	差 $d_i$ （後 − 前）
1	82	78	−4
2	75	74	−1
3	90	85	−5
4	68	69	+1
5	95	90	−5
6	78	76	−2
7	85	80	−5
8	72	71	−1
9	88	83	−5
10	65	64	−1

手順：

$H_0: \mu_d = 0$ （プログラムの効果はない）、 $H_1: \mu_d < 0$ （体重が減少した）
$\alpha = 0.05$ （片側）、自由度 $9$ のt分布の臨界値 $-1.833$
差の平均を計算：

\bar{d} = \frac{(-4)+(-1)+(-5)+(+1)+(-5)+(-2)+(-5)+(-1)+(-5)+(-1)}{10} = \frac{-28}{10} = -2.8

差の不偏標準偏差を計算（各偏差の2乗の合計は $45.60$ ）：

s_d = \sqrt{\frac{45.60}{9}} = \sqrt{5.067} \approx 2.251

検定統計量を計算：

t = \frac{-2.8}{2.251 / \sqrt{10}} = \frac{-2.8}{0.712} \approx -3.93

$t = -3.93 < -1.833$ なので棄却域に入る
結論：ダイエットプログラムにより体重が減少したと判断する

差 $\mu_d$ の95%信頼区間も求めてみましょう。自由度 $9$ の両側 $\alpha = 0.05$ のt値は $2.262$ なので：

\bar{d} \pm t_{0.025,\,9} \cdot \frac{s_d}{\sqrt{n}} = -2.8 \pm 2.262 \times 0.712 = (-4.41,\; -1.19)

信頼区間が $0$ を含まないことは、検定で棄却されたことと整合しています。さらに、差の大きさが「少なくとも1.19kg、最大で4.41kg程度」であることが分かり、検定の二値的な結論よりも豊富な情報を提供します。

なぜ独立2標本検定を使ってはいけないのか

同じデータに対して、仮に対応関係を無視してWelchのt検定を適用するとどうなるでしょうか。元データから各群の統計量を計算すると次のようになります。

	実施前（10人）	実施後（10人）
標本平均 $\bar{x}$	79.8 kg	77.0 kg
不偏標準偏差 $s$	9.89 kg	7.87 kg

差の標準誤差は：

\sqrt{\frac{9.89^2}{10} + \frac{7.87^2}{10}} = \sqrt{\frac{97.8}{10} + \frac{62.0}{10}} = \sqrt{9.78 + 6.20} = \sqrt{15.98} \approx 4.00

検定統計量は（対応のある検定と引き算の方向を「後 − 前」で合わせると）：

t = \frac{77.0 - 79.8}{4.00} = \frac{-2.8}{4.00} = -0.70

$t = -0.70$ では、どのような有意水準でも棄却できません。同じデータなのに、対応関係を無視すると結論が正反対になります。

構造的な理由

違いの原因は標準誤差の大きさにあります。

検定	差の標準誤差	t値
対応のあるt検定	$s_d / \sqrt{n} \approx 0.712$	$-3.93$
独立2標本t検定	$\sqrt{s_1^2/n_1 + s_2^2/n_2} \approx 4.00$	$-0.70$

独立2標本検定では、個人差（体重が重い人も軽い人もいる）が丸ごとばらつきに含まれます。体重65kgの人と95kgの人が混在しているため、全体の標準偏差は大きくなり、2.8kgの差はノイズに埋もれてしまいます。

一方、対応のあるt検定では、各個人について「引き算」をした時点で個人差が消えます。残るのは「プログラムによる純粋な変化」のばらつきだけなので、標準誤差が格段に小さくなり、わずかな差でも検出できます。

ポイント

対応のあるデータに独立2標本検定を使うのは統計的に誤りです。逆もまた誤りです。独立な2群のデータに対応のある検定を使うことはできません（ペアの組み方が恣意的になるため）。データの構造に合った検定を選ぶことが重要です。

前提条件

対応のあるt検定が正しく機能するための前提条件は、以下の通りです。

各ペアが独立：ペア同士は互いに無関係であること。Aさんの結果がBさんの結果に影響しない。
差 $d_i$ が正規分布に従う：母集団において差のデータが正規分布に従うこと。ただし、 $n$ が十分に大きい場合（目安として $n \geq 30$ ）、中心極限定理により標本平均 $\bar{d}$ が近似的に正規分布に従うため、元の差のデータが正規分布でなくても検定を適用できる。

補足

前提条件はあくまで「差」 $d_i$ の正規性であり、元の測定値 $x_{1i}$ や $x_{2i}$ が正規分布に従う必要はありません。元のデータが歪んでいても、差を取ると歪みが打ち消されて正規分布に近づくことがあります。 $n$ が小さい場合は、差のヒストグラムやQ-Qプロット、シャピロ・ウィルク検定などで正規性を確認します。正規性が疑わしい場合は、ノンパラメトリック代替としてウィルコクソン符号順位検定を使うことができます。

例2：2つの測定器の比較

同じ試料12個の鉄分含有量を、測定器Aと測定器Bの両方で測定しました。2つの測定器の間に系統的な差があるかを両側検定（ $\alpha = 0.05$ ）で検定します。

試料	測定器A	測定器B	差 $d_i$ （B − A）
1	15.2	15.5	0.3
2	18.7	18.9	0.2
3	12.1	12.5	0.4
4	20.3	20.1	−0.2
5	16.8	17.0	0.2
6	14.5	14.8	0.3
7	19.0	19.4	0.4
8	11.4	11.3	−0.1
9	17.6	17.9	0.3
10	13.9	14.2	0.3
11	21.5	21.7	0.2
12	16.0	16.4	0.4

手順：

$H_0: \mu_d = 0$ 、 $H_1: \mu_d \neq 0$
$\alpha = 0.05$ （両側）、自由度 $11$ のt分布の臨界値 $\pm 2.201$
差の平均を計算：

\bar{d} = \frac{0.3+0.2+0.4+(-0.2)+0.2+0.3+0.4+(-0.1)+0.3+0.3+0.2+0.4}{12} = \frac{2.7}{12} = 0.225

差の不偏標準偏差を計算（各偏差の2乗の合計は $0.4025$ ）：

s_d = \sqrt{\frac{0.4025}{11}} = \sqrt{0.03659} \approx 0.191

検定統計量を計算：

t = \frac{0.225}{0.191 / \sqrt{12}} = \frac{0.225}{0.0552} \approx 4.07

$t = 4.07 > 2.201$ なので棄却域に入る
結論：2つの測定器の間には系統的な差がある

測定器Bは平均して0.225だけ高い値を示しています。このずれは偶然では説明できないほど一貫しているため、測定器の校正が必要かもしれません。

検定の選び方：独立 vs 対応あり

	独立2標本検定	対応のある検定
データ構造	2つの別々のグループ	同じ対象の2回の測定
標本サイズ	$n_1$ と $n_2$ （異なってもよい）	$n$ 対のペア
帰無仮説	$\mu_1 = \mu_2$	$\mu_d = 0$
自由度	$n_1+n_2-2$ （プールド）または Welch近似	$n - 1$
利点	異なるサイズの群を比較可能	個人差を除去し、検出力が高い
前提	2群が独立	差 $d_i$ が正規分布に従う

よくある誤解

注意

誤解1：同じ変数を測っていれば対応のあるデータである — 対応ありかどうかは変数の種類ではなく、データの構造で決まります。「異なる患者に薬Aと薬Bをそれぞれ投与して効果を比較する」場合は、別々の患者なので対応なし（独立2標本）です。「同じ患者に薬Aを投与した後、十分な休薬期間を置いて薬Bを投与し、効果を比較する」場合は対応ありです。
誤解2：対応のある検定は常に独立2標本検定より検出力が高い — 対応のある検定の検出力が高いのは、個人差を除去することで差のばらつきが小さくなる場合です。対応が弱い（2回の測定の相関が低い）場合は、検出力の利点はほとんどありません。さらに、自由度は $n-1$ となり、独立2標本検定の $n_1+n_2-2$ よりも小さくなります。
誤解3：サンプルサイズが同じなら、どちらの検定を使っても大差ない — 例1で見たように、同じデータでも対応関係を活かすかどうかで検定統計量が $-3.93$ と $-0.70$ のように大きく異なります。データの構造に合った検定を選ぶことが不可欠です。

まとめ

対応のある検定は、同じ対象を2回測定したデータに適用します。核心的なアイデアは、各ペアの差を取ることで個人差を除去し、問題を1標本t検定に帰着させることです。

独立2標本検定との最大の違いは「個人差の扱い」です。独立2標本検定では個人差がそのままノイズになりますが、対応のある検定では差を取ることで個人差が消え、介入（ダイエット、新教育法など）による純粋な変化だけが残ります。その結果、同じデータでも標準誤差が劇的に小さくなり、小さな効果でも検出できるようになります。

データを前にしたとき、まず確認すべきは「このデータに対応関係はあるか？」です。対応があるデータに独立2標本検定を使うと検出力を失い、逆に独立なデータに対応あり検定を使うと結果が無意味になります。