中心極限定理
母集団がどんな分布でも、標本平均は正規分布に近づく
難易度 Lv 3 / 10想定時間:約25分
できるようになること
- 中心極限定理の内容と成立条件を正確に説明できる
- 標本平均の標準化の手順を理解できる
- 中心極限定理がなぜ推測統計の基盤となるかを説明できる
大数の法則の「その先」
前の単元で、大数の法則を学びました。サンプルサイズ n を大きくすれば、標本平均 Xˉn は母平均 μ に確率収束します。
XˉnPμ
これは「平均がどこに落ち着くか」を教えてくれますが、次の問いに答えてくれません。
「標本平均は母平均からどれくらいの幅でばらつくのか? そのばらつきはどんな形をしているのか?」
たとえば、100人の身長の平均をとったとき、その平均が母平均から ±0.5 cm 以内に入る確率はどれくらいでしょうか。この問いに答えるには、標本平均の分布の形を知る必要があります。
中心極限定理(Central Limit Theorem, CLT)は、その答えを与えます。
中心極限定理
中心極限定理
X1,X2,…,Xn が独立で同じ分布に従い(i.i.d.)、E[Xi]=μ、V[Xi]=σ2(0<σ2<∞)のとき、
Zn=σ/nXˉn−μ
は n→∞ で標準正規分布 N(0,1) に分布収束します。
同じことを標本平均で書くと、n が十分大きいとき、
Xˉn∼˙N(μ,nσ2)
この定理の本質
中心極限定理がなぜ「驚異的」と呼ばれるかの核心は、母集団の分布を問わない点にあります。
- サイコロの出目(離散一様分布)
- 指数分布(右に長い裾)
- ベルヌーイ分布(0か1だけ)
どんな分布であっても、標本平均は正規分布に近づきます。母集団の形がわからなくても、標本平均の分布は予測できるのです。
標準化の意味
中心極限定理で登場する Zn は、標本平均を標準化したものです。
Zn=σ/nXˉn−μ
この変換は2つのステップからなります。
- 中心化:Xˉn−μ(期待値を 0 にする)
- 尺度変換:σ/n で割る(標準偏差を 1 にする)
標準化によって、サンプルサイズや元の分布に依存しない「共通の尺度」で比較できるようになります。
正規近似の精度
中心極限定理は「n が十分大きければ」という条件を含みますが、「十分」とはどれくらいでしょうか。
| 母集団の分布 | 近似が良好になる目安 |
|---|
| 正規分布 | n=1 で正確に成立する(正規分布の平均は正規分布) |
| 左右対称で裾が短い分布 | n≥10 程度 |
| やや歪んだ分布 | n≥30 程度 |
| 極端に歪んだ分布(指数分布など) | n≥50 〜 100 程度 |
「n≥30 なら正規近似できる」 という経験則はよく使われますが、母集団の歪みが大きいほど、より大きな n が必要になります。
具体例:サイコロの出目の平均
サイコロの出目は μ=3.5、σ2=35/12、σ≈1.71 です。
n=36 回投げたときの標本平均の分布を、中心極限定理で近似してみましょう。
Xˉ36∼˙N(3.5,3635/12)=N(3.5,0.081)
標準偏差は 0.081≈0.285 です。
「平均が 3.5±0.5 の範囲に入る確率」を計算すると、
P(3.0≤Xˉ36≤4.0)=P(0.2853.0−3.5≤Z≤0.2854.0−3.5)=P(−1.75≤Z≤1.75)≈0.92
つまり、36回投げれば平均が 3.0 から 4.0 の範囲に入る確率は約 92% です。
チェビシェフの不等式(大数の法則の単元)を同じ条件に適用すると、P(∣Xˉ36−3.5∣≥0.5)≤35/12÷(36×0.25)=0.324 となり、上限は約 68%(= 1−0.324)にとどまります。中心極限定理を使うことで、92% というはるかに精度の高い評価が得られます。
中心極限定理の前提条件
中心極限定理が成り立つには、以下の条件が必要です。
- 独立同分布(i.i.d.):X1,X2,…,Xn が独立で同じ分布に従う
- 分散が有限:0<σ2<∞
分散が無限大の分布(例:コーシー分布)では中心極限定理は成り立ちません。コーシー分布から標本を取ると、標本平均の分布は n を増やしても正規分布に近づきません。
中心極限定理と推測統計
中心極限定理がなぜ推測統計の基盤となるのかを整理します。
推測統計で行いたいのは、「標本から母集団について語る」ことです。
標本平均 Xˉn⟶母平均 μ について推論
中心極限定理のおかげで、n が十分大きければ次のことが言えます。
- 標本平均は正規分布に従う → 確率の計算ができる
- 母平均からのずれの幅が σ/n でわかる → 信頼区間が作れる
- 「母平均がこの値である」という仮説を確率で検証できる → 仮説検定ができる
このように、中心極限定理は推定と検定のすべての計算の土台です。
よくある誤解
「中心極限定理は母集団が正規分布のときだけ成り立つ」
逆です。母集団がどんな分布でも(分散が有限なら)、標本平均は正規分布に近づきます。正規分布でない母集団に対しても使えるからこそ、この定理は強力なのです。
「個々のデータ Xi が正規分布に近づく」
中心極限定理が正規分布に近づくと言っているのは標本平均 Xˉn の分布であり、個々のデータ Xi の分布ではありません。サイコロの出目は何回投げても {1,2,3,4,5,6} の離散分布のままですが、その「平均値」は正規分布に近づきます。
まとめ
中心極限定理は、母集団の分布によらず、標本平均の分布は正規分布に近づくことを示す定理です。
Zn=σ/nXˉn−μdN(0,1)
大数の法則が「平均がどこに収束するか」を教えるのに対し、中心極限定理は「平均がどんな形で分布するか」を教えてくれます。この定理のおかげで、母集団の分布が未知でも標本平均に基づく確率計算が可能になり、信頼区間の構成や仮説検定はこの定理の上に成り立っています。