カイ二乗検定(適合度・独立性)

観測度数と期待度数のズレで、分布の形や変数間の関連を検定する

難易度 Lv 4 / 10想定時間:約25

できるようになること


サイコロは公正か?

サイコロを60回振ったら、各目の出た回数は次のようになりました。

123456
観測度数81271599
期待度数101010101010

公正なサイコロなら各目は 1/61/6 の確率で出るので、60回中 60×1/6=1060 \times 1/6 = 10 回ずつ出るのが「期待される度数」です。

実際の結果にはバラつきがあります。これは単なる偶然の範囲でしょうか? それともこのサイコロは偏っているのでしょうか?

この「観測された度数」と「仮説のもとで期待される度数」のズレを統計的に評価するのがカイ二乗検定(chi-squared test)です。


適合度検定

考え方

適合度検定(goodness-of-fit test)は、観測データの度数分布が、ある理論的な分布に適合しているかを検定します。

サイコロの例では、H0H_0:「各目の出る確率は 1/61/6 で等しい」です。

検定統計量

観測度数と期待度数のズレを1つの数値にまとめるのが、カイ二乗統計量です。

χ2=i=1k(OiEi)2Ei\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}

各カテゴリで (OiEi)2(O_i - E_i)^2 を計算しているので、ズレが大きいほど χ2\chi^2 の値が大きくなります。EiE_i で割っているのは、期待度数が大きいカテゴリではある程度のズレが自然に起こるため、相対的な大きさで評価するためです。

H0H_0 のもとで、サンプルサイズ nn が十分に大きく、各カテゴリの期待度数が概ね5以上であれば、この統計量は近似的に自由度 k1k-1 のカイ二乗分布に従います。

なぜ自由度は k1k - 1

kk 個のカテゴリがある場合、期待度数の合計は標本サイズ nn に等しいという制約があります。つまり E1+E2++Ek=nE_1 + E_2 + \cdots + E_k = n です。この制約によって独立に動ける度数は k1k - 1 個なので、自由度は k1k - 1 です。

例題:サイコロの公正さ

冒頭のサイコロの例を計算してみましょう。

χ2=(810)210+(1210)210+(710)210+(1510)210+(910)210+(910)210\chi^2 = \frac{(8-10)^2}{10} + \frac{(12-10)^2}{10} + \frac{(7-10)^2}{10} + \frac{(15-10)^2}{10} + \frac{(9-10)^2}{10} + \frac{(9-10)^2}{10}

=410+410+910+2510+110+110=4410=4.40= \frac{4}{10} + \frac{4}{10} + \frac{9}{10} + \frac{25}{10} + \frac{1}{10} + \frac{1}{10} = \frac{44}{10} = 4.40

自由度は k1=61=5k - 1 = 6 - 1 = 5 です。

有意水準 α=0.05\alpha = 0.05 のとき、χ2(5)\chi^2(5) の上側5%点は 11.07 です。

χ2=4.40<11.07\chi^2 = 4.40 < 11.07 なので、棄却域に入りません。「このサイコロは偏っている」とは言えません。

ポイント

すべてのカテゴリで期待度数 Ei5E_i \geq 5 であることが推奨されます。期待度数が小さいカテゴリがある場合は、隣接するカテゴリを統合するなどの工夫が必要です。


独立性の検定

考え方

次に、2つのカテゴリ変数の間に関連があるかどうかを検定する独立性の検定(test of independence)を見ます。

ある工場で、3つの生産ライン(A, B, C)ごとに製品の品質(良品・不良品)を記録したとします。

良品不良品合計
ラインA18020200
ラインB15050200
ラインC12030150
合計450100550

期待度数の計算

H0H_0(独立)のもとでは、各セルの期待度数は次のように計算します。

Eij=iの合計×jの合計総合計E_{ij} = \frac{\text{行}i\text{の合計} \times \text{列}j\text{の合計}}{\text{総合計}}

これは確率の独立性の定義 P(AB)=P(A)P(B)P(A \cap B) = P(A)P(B) に基づいています。2つの変数が独立であれば、各セルに属する確率は(行の合計 / 総合計)×(列の合計 / 総合計)で求まり、これに総合計を掛けることで期待度数が得られます。

たとえばラインAの不良品の期待度数は、

E=200×10055036.36E = \frac{200 \times 100}{550} \approx 36.36

すべてのセルの期待度数を計算すると、

良品(期待)不良品(期待)
ラインA163.6436.36
ラインB163.6436.36
ラインC122.7327.27

検定統計量と自由度

適合度検定と同じカイ二乗統計量を使います。

χ2=全セル(OijEij)2Eij\chi^2 = \sum_{\text{全セル}} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}

独立性の検定の自由度は、

自由度=(r1)(c1)\text{自由度} = (r - 1)(c - 1)

この例では (31)(21)=2(3 - 1)(2 - 1) = 2 です。

例題の計算

χ2=(180163.64)2163.64+(2036.36)236.36+(150163.64)2163.64+(5036.36)236.36+(120122.73)2122.73+(3027.27)227.27\chi^2 = \frac{(180 - 163.64)^2}{163.64} + \frac{(20 - 36.36)^2}{36.36} + \frac{(150 - 163.64)^2}{163.64} + \frac{(50 - 36.36)^2}{36.36} + \frac{(120 - 122.73)^2}{122.73} + \frac{(30 - 27.27)^2}{27.27}

=267.65163.64+267.6536.36+186.05163.64+186.0536.36+7.45122.73+7.4527.27= \frac{267.65}{163.64} + \frac{267.65}{36.36} + \frac{186.05}{163.64} + \frac{186.05}{36.36} + \frac{7.45}{122.73} + \frac{7.45}{27.27}

1.64+7.36+1.14+5.12+0.06+0.27=15.59\approx 1.64 + 7.36 + 1.14 + 5.12 + 0.06 + 0.27 = 15.59

自由度2のカイ二乗分布の上側5%点は 5.99 です。

χ2=15.59>5.99\chi^2 = 15.59 > 5.99 で棄却域に入るため、帰無仮説を棄却します。生産ラインと品質には関連があると判断できます。

ポイント

独立性の検定は「関連があるかどうか」を判定しますが、「どのラインが問題か」までは教えてくれません。各セルの χ2\chi^2 への寄与((OE)2/E(O - E)^2 / E の値)を見ることで、どのセルが大きくズレているかを確認できます。この例では、ラインBの不良品の寄与(7.36)が最大であり、期待より不良品が多いことが示されます。


適合度検定と独立性検定の対比

適合度検定独立性検定
目的1つの変数の度数分布が理論分布に合うか2つの変数に関連があるか
データ1次元の度数表2次元のクロス表
帰無仮説理論分布に従っている2変数は独立
期待度数Ei=n×piE_i = n \times p_iEij=(行合計×列合計)/nE_{ij} = (\text{行合計} \times \text{列合計}) / n
自由度k1k - 1(r1)(c1)(r-1)(c-1)
検定統計量同じ:χ2=(OE)2/E\chi^2 = \sum (O - E)^2 / E

どちらも「観測と期待のズレ」をカイ二乗統計量で測る点は共通ですが、期待度数の求め方と自由度の決まり方が異なります。


カイ二乗検定の前提条件

適合度検定・独立性検定のいずれにも、以下の前提条件があります。

前提条件意味満たさない場合の例
1. 観測が相互に独立各データが他のデータに影響しない同じ人を2回調査し、両方を別の観測として数える
2. 各観測が1つのカテゴリにのみ属するカテゴリが排反で漏れなく定義されている「良品」と「やや不良」を重複して分類する
3. すべてのセルで期待度数 Ei5E_i \geq 5カイ二乗近似が十分に正確であること稀な事象のカテゴリで期待度数が2や3になる

条件3が満たされない場合の対処法:


よくある誤解

χ2\chi^2 が大きい=効果が大きい」

χ2\chi^2 の値はサンプルサイズに依存します。サンプルが大きければ、実質的に小さな差でも χ2\chi^2 が大きくなり有意になります。効果の大きさを評価するには、クラメールの VV などの効果量指標を併用します。

「独立性の検定=因果関係の検定」

独立性の検定は2つの変数に統計的な関連があることを示すだけで、「AがBの原因である」とは言えません。交絡要因の可能性は常にあります。


まとめ

カイ二乗検定は、「観測度数と期待度数のズレ」をカイ二乗統計量 (OE)2/E\sum (O - E)^2 / E で測り、そのズレが偶然で説明できる範囲かを判定します。適合度検定は1つの変数の観測分布が理論分布に合うかを調べ(自由度 k1k - 1)、独立性の検定は2つのカテゴリ変数に関連があるかをクロス表で調べます(自由度 (r1)(c1)(r-1)(c-1))。

どちらも期待度数がすべて5以上あることが前提です。検定統計量の構造は共通ですが、期待度数の計算方法と自由度が異なる点を区別して使いましょう。