中心極限定理
母集団がどんな分布でも、サンプルサイズが十分大きければ標本平均は正規分布に近づくという中心極限定理を学びます。推測統計の核となる定理です。
できるようになること
- 中心極限定理の内容と成立条件を正確に説明できる
- 標本平均の標準化の手順を理解できる
- 中心極限定理がなぜ推測統計の基盤となるかを説明できる
大数の法則の「その先」
前の単元で、大数の法則を学びました。サンプルサイズ を大きくすれば、標本平均 は母平均 に確率収束します。
これは「平均がどこに落ち着くか」を教えてくれますが、次の問いに答えてくれません。
「標本平均は母平均からどれくらいの幅でばらつくのか? そのばらつきはどんな形をしているのか?」
たとえば、100人の身長の平均をとったとき、その平均が母平均から cm 以内に入る確率はどれくらいでしょうか。この問いに答えるには、標本平均の分布の形を知る必要があります。
中心極限定理(Central Limit Theorem, CLT)は、その答えを与えます。
中心極限定理
中心極限定理
が独立で同じ分布に従い(i.i.d.)、、()のとき、
は で標準正規分布 に分布収束します。
同じことを標本平均で書くと、 が十分大きいとき、
この定理の本質
中心極限定理がなぜ「驚異的」と呼ばれるかの核心は、母集団の分布を問わない点にあります。
- サイコロの出目(離散一様分布)
- 指数分布(右に長い裾)
- ベルヌーイ分布(0か1だけ)
どんな分布であっても、標本平均は正規分布に近づきます。母集団の形がわからなくても、標本平均の分布は予測できるのです。
標準化の意味
中心極限定理で登場する は、標本平均を標準化したものです。
この変換は2つのステップからなります。
- 中心化:(期待値を にする)
- 尺度変換: で割る(標準偏差を にする)
標準化によって、サンプルサイズや元の分布に依存しない「共通の尺度」で比較できるようになります。
正規近似の精度
中心極限定理は「 が十分大きければ」という条件を含みますが、「十分」とはどれくらいでしょうか。
| 母集団の分布 | 近似が良好になる目安 |
|---|---|
| 正規分布 | で正確に成立する(正規分布の平均は正規分布) |
| 左右対称で裾が短い分布 | 程度 |
| やや歪んだ分布 | 程度 |
| 極端に歪んだ分布(指数分布など) | 〜 程度 |
「 なら正規近似できる」 という経験則はよく使われますが、母集団の歪みが大きいほど、より大きな が必要になります。
具体例:サイコロの出目の平均
サイコロの出目は 、、 です。
回投げたときの標本平均の分布を、中心極限定理で近似してみましょう。
標準偏差は です。
「平均が の範囲に入る確率」を計算すると、
つまり、36回投げれば平均が から の範囲に入る確率は約 です。
チェビシェフの不等式(大数の法則の単元)を同じ条件に適用すると、 となり、上限は約 (= )にとどまります。中心極限定理を使うことで、 というはるかに精度の高い評価が得られます。
中心極限定理の前提条件
中心極限定理が成り立つには、以下の条件が必要です。
- 独立同分布(i.i.d.): が独立で同じ分布に従う
- 分散が有限:
分散が無限大の分布(例:コーシー分布)では中心極限定理は成り立ちません。コーシー分布から標本を取ると、標本平均の分布は を増やしても正規分布に近づきません。
中心極限定理と推測統計
中心極限定理がなぜ推測統計の基盤となるのかを整理します。
推測統計で行いたいのは、「標本から母集団について語る」ことです。
中心極限定理のおかげで、 が十分大きければ次のことが言えます。
- 標本平均は正規分布に従う → 確率の計算ができる
- 母平均からのずれの幅が でわかる → 信頼区間が作れる
- 「母平均がこの値である」という仮説を確率で検証できる → 仮説検定ができる
このように、中心極限定理は推定と検定のすべての計算の土台です。
よくある誤解
「中心極限定理は母集団が正規分布のときだけ成り立つ」
逆です。母集団がどんな分布でも(分散が有限なら)、標本平均は正規分布に近づきます。正規分布でない母集団に対しても使えるからこそ、この定理は強力なのです。
「個々のデータ が正規分布に近づく」
中心極限定理が正規分布に近づくと言っているのは標本平均 の分布であり、個々のデータ の分布ではありません。サイコロの出目は何回投げても の離散分布のままですが、その「平均値」は正規分布に近づきます。
まとめ
中心極限定理は、母集団の分布によらず、標本平均の分布は正規分布に近づくことを示す定理です。
大数の法則が「平均がどこに収束するか」を教えるのに対し、中心極限定理は「平均がどんな形で分布するか」を教えてくれます。この定理のおかげで、母集団の分布が未知でも標本平均に基づく確率計算が可能になり、信頼区間の構成や仮説検定はこの定理の上に成り立っています。