中心極限定理

母集団がどんな分布でも、標本平均は正規分布に近づく

難易度 Lv 3 / 10想定時間:約25

できるようになること


大数の法則の「その先」

前の単元で、大数の法則を学びました。サンプルサイズ nn を大きくすれば、標本平均 Xˉn\bar{X}_n は母平均 μ\mu に確率収束します。

XˉnPμ\bar{X}_n \xrightarrow{P} \mu

これは「平均がどこに落ち着くか」を教えてくれますが、次の問いに答えてくれません。

「標本平均は母平均からどれくらいの幅でばらつくのか? そのばらつきはどんな形をしているのか?」

たとえば、100人の身長の平均をとったとき、その平均が母平均から ±0.5\pm 0.5 cm 以内に入る確率はどれくらいでしょうか。この問いに答えるには、標本平均の分布の形を知る必要があります。

中心極限定理(Central Limit Theorem, CLT)は、その答えを与えます。

中心極限定理

ポイント

中心極限定理

X1,X2,,XnX_1, X_2, \ldots, X_n が独立で同じ分布に従い(i.i.d.)、E[Xi]=μE[X_i] = \muV[Xi]=σ2V[X_i] = \sigma^20<σ2<0 < \sigma^2 < \infty)のとき、

Zn=Xˉnμσ/nZ_n = \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}}

nn \to \infty標準正規分布 N(0,1)N(0, 1) に分布収束します。

同じことを標本平均で書くと、nn が十分大きいとき、

Xˉn  ˙  N ⁣(μ,  σ2n)\bar{X}_n \;\dot{\sim}\; N\!\left(\mu,\; \frac{\sigma^2}{n}\right)

この定理の本質

中心極限定理がなぜ「驚異的」と呼ばれるかの核心は、母集団の分布を問わない点にあります。

どんな分布であっても、標本平均は正規分布に近づきます。母集団の形がわからなくても、標本平均の分布は予測できるのです。

標準化の意味

中心極限定理で登場する ZnZ_n は、標本平均を標準化したものです。

Zn=Xˉnμσ/nZ_n = \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}}

この変換は2つのステップからなります。

  1. 中心化Xˉnμ\bar{X}_n - \mu(期待値を 00 にする)
  2. 尺度変換σ/n\sigma / \sqrt{n} で割る(標準偏差を 11 にする)

標準化によって、サンプルサイズや元の分布に依存しない「共通の尺度」で比較できるようになります。

正規近似の精度

中心極限定理は「nn が十分大きければ」という条件を含みますが、「十分」とはどれくらいでしょうか。

母集団の分布近似が良好になる目安
正規分布n=1n = 1 で正確に成立する(正規分布の平均は正規分布)
左右対称で裾が短い分布n10n \geq 10 程度
やや歪んだ分布n30n \geq 30 程度
極端に歪んだ分布(指数分布など)n50n \geq 50100100 程度

n30n \geq 30 なら正規近似できる」 という経験則はよく使われますが、母集団の歪みが大きいほど、より大きな nn が必要になります。

具体例:サイコロの出目の平均

サイコロの出目は μ=3.5\mu = 3.5σ2=35/12\sigma^2 = 35/12σ1.71\sigma \approx 1.71 です。

n=36n = 36 回投げたときの標本平均の分布を、中心極限定理で近似してみましょう。

Xˉ36  ˙  N ⁣(3.5,  35/1236)=N(3.5,  0.081)\bar{X}_{36} \;\dot{\sim}\; N\!\left(3.5,\; \frac{35/12}{36}\right) = N(3.5,\; 0.081)

標準偏差は 0.0810.285\sqrt{0.081} \approx 0.285 です。

「平均が 3.5±0.53.5 \pm 0.5 の範囲に入る確率」を計算すると、

P(3.0Xˉ364.0)=P ⁣(3.03.50.285Z4.03.50.285)=P(1.75Z1.75)0.92P(3.0 \leq \bar{X}_{36} \leq 4.0) = P\!\left(\frac{3.0 - 3.5}{0.285} \leq Z \leq \frac{4.0 - 3.5}{0.285}\right) = P(-1.75 \leq Z \leq 1.75) \approx 0.92

つまり、36回投げれば平均が 3.03.0 から 4.04.0 の範囲に入る確率は約 92%92\% です。

補足

チェビシェフの不等式(大数の法則の単元)を同じ条件に適用すると、P(Xˉ363.50.5)35/12÷(36×0.25)=0.324P(|\bar{X}_{36} - 3.5| \geq 0.5) \leq 35/12 \div (36 \times 0.25) = 0.324 となり、上限は約 68%68\%(= 10.3241 - 0.324)にとどまります。中心極限定理を使うことで、92%92\% というはるかに精度の高い評価が得られます。

中心極限定理の前提条件

中心極限定理が成り立つには、以下の条件が必要です。

  1. 独立同分布(i.i.d.)X1,X2,,XnX_1, X_2, \ldots, X_n が独立で同じ分布に従う
  2. 分散が有限0<σ2<0 < \sigma^2 < \infty
注意

分散が無限大の分布(例:コーシー分布)では中心極限定理は成り立ちません。コーシー分布から標本を取ると、標本平均の分布は nn を増やしても正規分布に近づきません。

中心極限定理と推測統計

中心極限定理がなぜ推測統計の基盤となるのかを整理します。

推測統計で行いたいのは、「標本から母集団について語る」ことです。

標本平均 Xˉn母平均 μ について推論\text{標本平均 } \bar{X}_n \longrightarrow \text{母平均 } \mu \text{ について推論}

中心極限定理のおかげで、nn が十分大きければ次のことが言えます。

このように、中心極限定理は推定と検定のすべての計算の土台です。

よくある誤解

注意

「中心極限定理は母集団が正規分布のときだけ成り立つ」

逆です。母集団がどんな分布でも(分散が有限なら)、標本平均は正規分布に近づきます。正規分布でない母集団に対しても使えるからこそ、この定理は強力なのです。

注意

「個々のデータ XiX_i が正規分布に近づく」

中心極限定理が正規分布に近づくと言っているのは標本平均 Xˉn\bar{X}_n の分布であり、個々のデータ XiX_i の分布ではありません。サイコロの出目は何回投げても {1,2,3,4,5,6}\{1, 2, 3, 4, 5, 6\} の離散分布のままですが、その「平均値」は正規分布に近づきます。

まとめ

中心極限定理は、母集団の分布によらず、標本平均の分布は正規分布に近づくことを示す定理です。

Zn=Xˉnμσ/ndN(0,1)Z_n = \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1)

大数の法則が「平均がどこに収束するか」を教えるのに対し、中心極限定理は「平均がどんな形で分布するか」を教えてくれます。この定理のおかげで、母集団の分布が未知でも標本平均に基づく確率計算が可能になり、信頼区間の構成や仮説検定はこの定理の上に成り立っています。