大数の法則

サンプルサイズを大きくすれば標本平均は母平均に近づく、その数学的保証

難易度 Lv 3 / 10想定時間:約25

できるようになること


なぜ数を増やすと平均は安定するのか

サイコロを10回投げて、出た目の平均を計算してみましょう。期待値は 3.53.5 ですが、10回だけなら平均が 2.82.84.14.1 になることは珍しくありません。

では100回投げたらどうでしょう。平均は 3.53.5 にかなり近くなります。1000回なら、ほぼ 3.53.5 に一致するでしょう。

「試行回数を増やすほど、平均値が理論的な期待値に近づく」。これは私たちの経験からも自然に感じることです。しかし、なぜそう言えるのでしょうか。「たまたま偏りが続いて、いつまでも 3.53.5 に近づかない」という可能性はないのでしょうか。

大数の法則(law of large numbers)は、この直感を数学的に保証する定理です。そしてその証明の鍵となるのが、チェビシェフの不等式です。

チェビシェフの不等式

チェビシェフの不等式(Chebyshev's inequality)は、確率変数が期待値からどれだけ離れるかの上限を与える不等式です。

ポイント

チェビシェフの不等式

任意の確率変数 XX(期待値 μ\mu、分散 σ2\sigma^2 が有限)に対して、任意の正の数 ε>0\varepsilon > 0 について、

P(Xμε)σ2ε2P(|X - \mu| \geq \varepsilon) \leq \frac{\sigma^2}{\varepsilon^2}

この不等式は「XX が期待値 μ\mu から ε\varepsilon 以上離れる確率は、高々 σ2/ε2\sigma^2 / \varepsilon^2」と読めます。

具体例

サイコロ1回の出目 XX は、μ=3.5\mu = 3.5 です。分散は σ2=E[X2]μ2=(12+22++62)/63.52=91/612.25=35/122.92\sigma^2 = E[X^2] - \mu^2 = (1^2 + 2^2 + \cdots + 6^2)/6 - 3.5^2 = 91/6 - 12.25 = 35/12 \approx 2.92 です。

「出目が期待値 3.53.5 から 22 以上離れる確率」(つまり 1166 が出る確率)にチェビシェフの不等式を適用すると、

P(X3.52)2.9222=2.924=0.73P(|X - 3.5| \geq 2) \leq \frac{2.92}{2^2} = \frac{2.92}{4} = 0.73

実際の確率は P(X=1)+P(X=6)=2/60.33P(X = 1) + P(X = 6) = 2/6 \approx 0.33 なので、チェビシェフの不等式は上限を与えていることがわかります。

補足

チェビシェフの不等式は、分布の形を一切仮定せずに使える汎用的な不等式です。そのため上限は緩めですが、どんな分布にも適用できる点が強みです。

チェビシェフの不等式の証明

XX を期待値 μ\mu、分散 σ2\sigma^2 の確率変数とします。

分散の定義から、

σ2=E[(Xμ)2]\sigma^2 = E[(X - \mu)^2]

(Xμ)20(X - \mu)^2 \geq 0 なので、Xμε|X - \mu| \geq \varepsilon となる範囲だけで期待値を計算しても、全体の期待値より小さくなるか等しくなります。

σ2=E[(Xμ)2]E[(Xμ)2    Xμε  の範囲]P(Xμε)\sigma^2 = E[(X - \mu)^2] \geq E\bigl[(X - \mu)^2 \;\big|\; |X - \mu| \geq \varepsilon \;\text{の範囲}\bigr] \cdot P(|X - \mu| \geq \varepsilon)

Xμε|X - \mu| \geq \varepsilon の範囲では (Xμ)2ε2(X - \mu)^2 \geq \varepsilon^2 が成り立つので、

σ2ε2P(Xμε)\sigma^2 \geq \varepsilon^2 \cdot P(|X - \mu| \geq \varepsilon)

両辺を ε2\varepsilon^2 で割って、

P(Xμε)σ2ε2P(|X - \mu| \geq \varepsilon) \leq \frac{\sigma^2}{\varepsilon^2}

大数の法則(弱法則)

チェビシェフの不等式を標本平均に適用すると、大数の法則が得られます。

X1,X2,,XnX_1, X_2, \ldots, X_n が独立で同じ分布に従い(i.i.d.)、期待値 μ\mu、分散 σ2\sigma^2(有限)を持つとします。標本平均を

Xˉn=1ni=1nXi\bar{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i

とおくと、「標本分布という考え方」の単元で学んだように、

です。分母の nn が大きくなるほど分散が小さくなります。つまり、標本平均のばらつきはサンプルサイズに反比例して減少するということです。

ここで Xˉn\bar{X}_n にチェビシェフの不等式を適用します。

P(Xˉnμε)σ2/nε2=σ2nε2P(|\bar{X}_n - \mu| \geq \varepsilon) \leq \frac{\sigma^2 / n}{\varepsilon^2} = \frac{\sigma^2}{n\varepsilon^2}

右辺は nn \to \infty のとき 00 に近づきます。

ポイント

大数の弱法則

X1,X2,X_1, X_2, \ldots が独立で同じ分布に従い(i.i.d.)、E[Xi]=μE[X_i] = \muV[Xi]=σ2<V[X_i] = \sigma^2 < \infty のとき、任意の ε>0\varepsilon > 0 に対して、

limnP(Xˉnμε)=0\lim_{n \to \infty} P(|\bar{X}_n - \mu| \geq \varepsilon) = 0

つまり、nn が十分大きければ、標本平均 Xˉn\bar{X}_n が母平均 μ\mu から ε\varepsilon 以上離れる確率はいくらでも小さくできます。

これを確率収束(convergence in probability)といい、「Xˉn\bar{X}_nμ\mu に確率収束する」と表現します。記号では次のように書きます。

XˉnPμ\bar{X}_n \xrightarrow{P} \mu

補足

本証明ではチェビシェフの不等式を用いたため、分散が有限(σ2<\sigma^2 < \infty)であることを前提としました。実際には、期待値が有限でありさえすれば(分散が無限でも)大数の弱法則は成立することが知られています(ハインチンの定理)。ただし、その証明にはより高度な手法が必要になります。

具体例:サイコロで確認

サイコロの出目は μ=3.5\mu = 3.5σ2=35/12\sigma^2 = 35/12 です。標本平均が 3.53.5 から 0.10.1 以上離れる確率の上限を計算してみましょう。

P(Xˉn3.50.1)35/12n0.01=291.7nP(|\bar{X}_n - 3.5| \geq 0.1) \leq \frac{35/12}{n \cdot 0.01} = \frac{291.7}{n}

| nn | 上限(チェビシェフ) | 意味 | |---|---|---| | 100 | 2.922.92(確率1を超える) | nn が小さい段階では上限が緩く、有用な情報が得られない | | 1,000 | 0.290.29 | 平均が 3.43.43.63.6 を外れる確率は高々 29%29\% | | 10,000 | 0.0290.029 | 高々 2.9%2.9\% | | 100,000 | 0.00290.0029 | 高々 0.29%0.29\% |

nn が小さい段階ではチェビシェフの上限が緩くなることがあります。これはチェビシェフの不等式が分布の形を問わない汎用的な道具ゆえの限界です。nn が十分大きくなったところで効力を発揮し、上限が 00 に収束していく様子が確認できます。

大数の法則が保証すること・しないこと

大数の法則は強力な定理ですが、正しく理解することが重要です。

保証する保証しない
nn を大きくすれば、Xˉn\bar{X}_nμ\mu から離れる確率はいくらでも小さくできる有限の nnXˉn=μ\bar{X}_n = \mu になること
長期的に平均が安定すること偏りが「自然に修正される」こと(ギャンブラーの誤謬)

よくある誤解

注意

「表が続いたから、次は裏が出やすい」(ギャンブラーの誤謬)

コイン投げで表が10回続いたとき、「そろそろ裏が出るはず」と感じることがあります。しかし、各試行は独立なので、次にどちらが出るかの確率は常に 1/21/2 です。

大数の法則は「試行回数を増やせば表の割合が 1/21/2 に近づく」と言っています。しかしこれは「偏りが修正される」のではなく、偏りが新しいデータに埋もれていくためです。表が10回続いた後に1000回投げると、最初の偏り(10回分)は全体(1010回)の中でほとんど影響しません。

まとめ

大数の法則は、サンプルサイズを大きくすれば標本平均は母平均に確率収束することを保証する定理です。

P(Xˉnμε)σ2nε20(n)P(|\bar{X}_n - \mu| \geq \varepsilon) \leq \frac{\sigma^2}{n\varepsilon^2} \to 0 \quad (n \to \infty)

チェビシェフの不等式という「分布の形を問わない普遍的な道具」を使うことで、この結論が得られます。

大数の法則は「平均が安定する」ことを保証しますが、標本平均の分布がどんな形になるかまでは教えてくれません。それを示すのが「中心極限定理」で学ぶ内容です。

補足

大数の法則には、確率収束より強い「ほとんど確実な収束」を示す大数の強法則も存在しますが、本単元では扱いません。