カイ二乗分布
正規分布の2乗の和が作る標本分布
難易度 Lv 3 / 10想定時間:約25分
できるようになること
- カイ二乗分布が「標準正規分布の2乗の和」であることを説明できる
- 自由度による分布の形の変化を理解できる
- 標本分散とカイ二乗分布の関係を説明できる
ばらつきを評価するための分布
工場で製品の重さを管理しているとします。平均値は規格通りでも、ばらつき(分散)が大きければ品質に問題があります。
「ばらつきが許容範囲内かどうか」を統計的に判定するには、標本分散がどのような分布に従うかを知る必要があります。ここで登場するのがカイ二乗分布(chi-squared distribution)です。
カイ二乗分布の定義
標準正規分布に従う独立な確率変数 Z1,Z2,…,Zn(n は正の整数)があるとき、
X=Z12+Z22+⋯+Zn2
で定義される X は自由度 n のカイ二乗分布に従います。
X∼χ2(n)
つまり、カイ二乗分布は標準正規分布を2乗して足し合わせたものです。
自由度とは
パラメータ n を自由度(degrees of freedom)と呼びます。これは「制約条件のもとで独立に値を決定できる変数の数」を意味します。
たとえば自由度3のカイ二乗分布は、標準正規分布3個の2乗和です。自由度が大きくなるほど、足す項が増えるため期待値もばらつきも大きくなります。
カイ二乗分布が成り立つための前提
| 前提 | 意味 |
|---|
| 1. 各変数が標準正規分布に従う | 2乗する前の変数が N(0,1) に従う |
| 2. 各変数が独立 | ある変数の値が他の変数に影響しない |
元のデータが正規分布に従わない場合、カイ二乗分布の結果は正確でなくなります。ただしサンプルサイズが大きい場合は、中心極限定理により近似的に使えることがあります。
分布の形
カイ二乗分布の形は自由度 n によって変わります。
- n=1,2:x=0 付近に集中し、右に裾が長い
- n が大きくなる:山型になり、ピークが右に移動
- n が十分大きい:正規分布に近づく(中心極限定理)

2乗の和なので値は常に 0 以上であり、分布は右に裾が長い(正の歪度を持つ)形になります。
確率密度関数
自由度 n のカイ二乗分布の確率密度関数は次の式で表されます(x>0)。
f(x)=2n/2Γ(n/2)1xn/2−1e−x/2
この式はガンマ分布 Gamma(α,λ) で α=n/2, λ=1/2 としたものと一致します。実際の計算では統計ソフトや数表を使うため、この式を直接計算する必要はありません。
期待値と分散
X∼χ2(n) のとき、
- 期待値:E[X]=n
- 分散:Var(X)=2n
導出
各 Zi2 について、E[Zi2]=1(標準正規分布の2次モーメント)です。
Var(Zi2) は、標準正規分布の4次モーメント E[Zi4]=3 を使って、
Var(Zi2)=E[Zi4]−(E[Zi2])2=3−1=2
独立な n 個の和なので、
E[X]=n⋅1=n
Var(X)=n⋅2=2n
例:自由度10のカイ二乗分布なら、E[X]=10、Var(X)=20(標準偏差 ≈4.47)です。
ガンマ分布との対応確認
χ2(n)=Gamma(n/2,1/2) なので、ガンマ分布の期待値 α/λ=(n/2)/(1/2)=n、分散 α/λ2=(n/2)/(1/4)=2n と一致します。
標本分散との関係
母集団が正規分布 N(μ,σ2) に従うとき、不偏分散
S2=n−11∑i=1n(Xi−Xˉ)2
を使った統計量
σ2(n−1)S2∼χ2(n−1)
は自由度 n−1 のカイ二乗分布に従います。ここで n はサンプルサイズです。
自由度が n ではなく n−1 になるのは、偏差 Xi−Xˉ の合計が必ず ∑i=1n(Xi−Xˉ)=0 となるためです。n−1 個の偏差が決まれば残り1個は自動的に決まるので、独立に動ける偏差は n−1 個になります。
この関係は、母分散の区間推定や検定の基盤となります。
他の分布との関係
- χ2(n)=Gamma(n/2,1/2):ガンマ分布の特殊ケース
- n=1 のとき:Z2∼χ2(1)(標準正規分布の2乗)
まとめ
カイ二乗分布 χ2(n) は、標準正規分布 n 個の2乗の和が従う分布です。
期待値は n、分散は 2n で、自由度が大きくなるほど山型になり正規分布に近づきます。
母分散の推定・検定の基盤となる重要な分布で、不偏分散との関係 σ2(n−1)S2∼χ2(n−1) を通じて実際の統計分析で使われます。
t分布・F分布もカイ二乗分布を土台に定義されており、次の単元でその関係を確認します。