カイ二乗検定（適合度・独立性）

観測度数と期待度数のズレで分布の形や変数間の関連を検定するカイ二乗検定を学びます。適合度検定と独立性検定の両方を扱います。

難易度 Lv 4 / 10想定時間：約25分

できるようになること

適合度検定と独立性検定の目的の違いを説明できる
検定統計量 $\chi^2 = \sum (O_i - E_i)^2 / E_i$ の意味を説明できる
クロス表から期待度数を計算し、独立性の検定を実行できる

サイコロは公正か？

サイコロを60回振ったら、各目の出た回数は次のようになりました。

目	1	2	3	4	5	6
観測度数	8	12	7	15	9	9
期待度数	10	10	10	10	10	10

公正なサイコロなら各目は $1/6$ の確率で出るので、60回中 $60 \times 1/6 = 10$ 回ずつ出るのが「期待される度数」です。

実際の結果にはバラつきがあります。これは単なる偶然の範囲でしょうか？それともこのサイコロは偏っているのでしょうか？

この「観測された度数」と「仮説のもとで期待される度数」のズレを統計的に評価するのがカイ二乗検定（chi-squared test）です。

適合度検定

考え方

適合度検定（goodness-of-fit test）は、観測データの度数分布が、ある理論的な分布に適合しているかを検定します。

帰無仮説 $H_0$ ：データは想定した分布に従っている
対立仮説 $H_1$ ：データは想定した分布に従っていない

サイコロの例では、 $H_0$ ：「各目の出る確率は $1/6$ で等しい」です。

検定統計量

観測度数と期待度数のズレを1つの数値にまとめるのが、カイ二乗統計量です。

$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$

$O_i$ ：カテゴリ $i$ の観測度数（observed frequency）
$E_i$ ：カテゴリ $i$ の期待度数（expected frequency）
$k$ ：カテゴリの数

各カテゴリで $(O_i - E_i)^2$ を計算しているので、ズレが大きいほど $\chi^2$ の値が大きくなります。 $E_i$ で割っているのは、期待度数が大きいカテゴリではある程度のズレが自然に起こるため、相対的な大きさで評価するためです。

$H_0$ のもとで、サンプルサイズ $n$ が十分に大きく、各カテゴリの期待度数が概ね5以上であれば、この統計量は近似的に自由度 $k-1$ のカイ二乗分布に従います。

なぜ自由度は $k - 1$ か

$k$ 個のカテゴリがある場合、期待度数の合計は標本サイズ $n$ に等しいという制約があります。つまり $E_1 + E_2 + \cdots + E_k = n$ です。この制約によって独立に動ける度数は $k - 1$ 個なので、自由度は $k - 1$ です。

例題：サイコロの公正さ

冒頭のサイコロの例を計算してみましょう。

$\chi^2 = \frac{(8-10)^2}{10} + \frac{(12-10)^2}{10} + \frac{(7-10)^2}{10} + \frac{(15-10)^2}{10} + \frac{(9-10)^2}{10} + \frac{(9-10)^2}{10}$

$= \frac{4}{10} + \frac{4}{10} + \frac{9}{10} + \frac{25}{10} + \frac{1}{10} + \frac{1}{10} = \frac{44}{10} = 4.40$

自由度は $k - 1 = 6 - 1 = 5$ です。

有意水準 $\alpha = 0.05$ のとき、 $\chi^2(5)$ の上側5%点は 11.07 です。

$\chi^2 = 4.40 < 11.07$ なので、棄却域に入りません。「このサイコロは偏っている」とは言えません。

ポイント

すべてのカテゴリで期待度数 $E_i \geq 5$ であることが推奨されます。期待度数が小さいカテゴリがある場合は、隣接するカテゴリを統合するなどの工夫が必要です。

独立性の検定

考え方

次に、2つのカテゴリ変数の間に関連があるかどうかを検定する独立性の検定（test of independence）を見ます。

ある工場で、3つの生産ライン（A, B, C）ごとに製品の品質（良品・不良品）を記録したとします。

	良品	不良品	合計
ラインA	180	20	200
ラインB	150	50	200
ラインC	120	30	150
合計	450	100	550

帰無仮説 $H_0$ ：生産ラインと品質は独立（ラインによって不良品率に差がない）
対立仮説 $H_1$ ：生産ラインと品質は独立でない（ラインによって不良品率が異なる）

期待度数の計算

$H_0$ （独立）のもとでは、各セルの期待度数は次のように計算します。

$E_{ij} = \frac{\text{行}i\text{の合計} \times \text{列}j\text{の合計}}{\text{総合計}}$

これは確率の独立性の定義 $P(A \cap B) = P(A)P(B)$ に基づいています。2つの変数が独立であれば、各セルに属する確率は（行の合計 / 総合計）×（列の合計 / 総合計）で求まり、これに総合計を掛けることで期待度数が得られます。

たとえばラインAの不良品の期待度数は、

$E = \frac{200 \times 100}{550} \approx 36.36$

すべてのセルの期待度数を計算すると、

	良品（期待）	不良品（期待）
ラインA	163.64	36.36
ラインB	163.64	36.36
ラインC	122.73	27.27

検定統計量と自由度

適合度検定と同じカイ二乗統計量を使います。

$\chi^2 = \sum_{\text{全セル}} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$

独立性の検定の自由度は、

$\text{自由度} = (r - 1)(c - 1)$

$r$ ：行の数
$c$ ：列の数

この例では $(3 - 1)(2 - 1) = 2$ です。

例題の計算

$\chi^2 = \frac{(180 - 163.64)^2}{163.64} + \frac{(20 - 36.36)^2}{36.36} + \frac{(150 - 163.64)^2}{163.64} + \frac{(50 - 36.36)^2}{36.36} + \frac{(120 - 122.73)^2}{122.73} + \frac{(30 - 27.27)^2}{27.27}$

$= \frac{267.65}{163.64} + \frac{267.65}{36.36} + \frac{186.05}{163.64} + \frac{186.05}{36.36} + \frac{7.45}{122.73} + \frac{7.45}{27.27}$

$\approx 1.64 + 7.36 + 1.14 + 5.12 + 0.06 + 0.27 = 15.59$

自由度2のカイ二乗分布の上側5%点は 5.99 です。

$\chi^2 = 15.59 > 5.99$ で棄却域に入るため、帰無仮説を棄却します。生産ラインと品質には関連があると判断できます。

ポイント

独立性の検定は「関連があるかどうか」を判定しますが、「どのラインが問題か」までは教えてくれません。各セルの $\chi^2$ への寄与（ $(O - E)^2 / E$ の値）を見ることで、どのセルが大きくズレているかを確認できます。この例では、ラインBの不良品の寄与（7.36）が最大であり、期待より不良品が多いことが示されます。

適合度検定と独立性検定の対比

	適合度検定	独立性検定
目的	1つの変数の度数分布が理論分布に合うか	2つの変数に関連があるか
データ	1次元の度数表	2次元のクロス表
帰無仮説	理論分布に従っている	2変数は独立
期待度数	$E_i = n \times p_i$	$E_{ij} = (\text{行合計} \times \text{列合計}) / n$
自由度	$k - 1$	$(r-1)(c-1)$
検定統計量	同じ： $\chi^2 = \sum (O - E)^2 / E$

どちらも「観測と期待のズレ」をカイ二乗統計量で測る点は共通ですが、期待度数の求め方と自由度の決まり方が異なります。

カイ二乗検定の前提条件

適合度検定・独立性検定のいずれにも、以下の前提条件があります。

前提条件	意味	満たさない場合の例
1. 観測が相互に独立	各データが他のデータに影響しない	同じ人を2回調査し、両方を別の観測として数える
2. 各観測が1つのカテゴリにのみ属する	カテゴリが排反で漏れなく定義されている	「良品」と「やや不良」を重複して分類する
3. すべてのセルで期待度数 $E_i \geq 5$	カイ二乗近似が十分に正確であること	稀な事象のカテゴリで期待度数が2や3になる

条件3が満たされない場合の対処法：

カテゴリの統合：期待度数が小さいカテゴリを隣接カテゴリと統合して $E_i \geq 5$ にする
フィッシャーの正確確率検定：特に $2 \times 2$ 表ではカイ二乗近似を使わず正確な確率を計算できる
サンプルサイズを増やす：可能であれば、より多くのデータを収集して期待度数を大きくする

よくある誤解

「 $\chi^2$ が大きい＝効果が大きい」

$\chi^2$ の値はサンプルサイズに依存します。サンプルが大きければ、実質的に小さな差でも $\chi^2$ が大きくなり有意になります。効果の大きさを評価するには、クラメールの $V$ などの効果量指標を併用します。

「独立性の検定＝因果関係の検定」

独立性の検定は2つの変数に統計的な関連があることを示すだけで、「AがBの原因である」とは言えません。交絡要因の可能性は常にあります。

まとめ

カイ二乗検定は、「観測度数と期待度数のズレ」をカイ二乗統計量 $\sum (O - E)^2 / E$ で測り、そのズレが偶然で説明できる範囲かを判定します。適合度検定は1つの変数の観測分布が理論分布に合うかを調べ（自由度 $k - 1$ ）、独立性の検定は2つのカテゴリ変数に関連があるかをクロス表で調べます（自由度 $(r-1)(c-1)$ ）。

どちらも期待度数がすべて5以上あることが前提です。検定統計量の構造は共通ですが、期待度数の計算方法と自由度が異なる点を区別して使いましょう。