t分布

母分散が未知のとき、標本平均の分布を扱う

難易度 Lv 3 / 10想定時間:約25

できるようになること


母分散がわからないとき、何が起きるか

標本平均 Xˉ\bar{X} を使って母平均 μ\mu を推定する場面を考えます。

母集団が正規分布 N(μ,σ2)N(\mu, \sigma^2) に従い、母分散 σ2\sigma^2 がわかっていれば、標本平均を標準化した統計量

Z=Xˉμσ/nZ = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}

は標準正規分布 N(0,1)N(0,1) に従います。これを使えば、区間推定や仮説検定ができます。

しかし現実には 母分散 σ2\sigma^2 がわからない ことがほとんどです。そこで σ\sigma の代わりに、標本から計算した不偏標準偏差 S=1n1(XiXˉ)2S = \sqrt{\frac{1}{n-1}\sum(X_i - \bar{X})^2} を使いたくなります。

T=XˉμS/nT = \frac{\bar{X} - \mu}{S / \sqrt{n}}

ところがこの統計量 TT は、もはや標準正規分布には従いません。SSσ\sigma と違って固定された定数ではなく、サンプルごとに異なる値をとる確率変数です。そのため σ\sigmaSS に置き換えたことで、不確実性が増す のです。

特にサンプルサイズが小さいとき、SS はたまたま非常に小さな値をとることがあり、そのとき TT は異常に大きな値になります。正規分布ではこの「たまたま」が考慮されていないため、TT の分布は正規分布より裾が厚く(極端な値が出やすく)なります。

この TT が従う分布が、t分布(t-distribution)です。

t分布の定義

ZN(0,1)Z \sim N(0, 1)Vχ2(k)V \sim \chi^2(k) が独立のとき、

T=ZV/kT = \frac{Z}{\sqrt{V / k}}

で定義される TT自由度 kk のt分布に従います。

Tt(k)T \sim t(k)

標本平均の場合は k=n1k = n - 1(サンプルサイズ − 1)です。これはカイ二乗分布の単元で学んだ、不偏分散に対応する自由度と同じです。

補足

t分布は、ギネスビール醸造所に勤めていた統計家ウィリアム・ゴセットが「Student」というペンネームで1908年に発表したことから、スチューデントのt分布(Student's t-distribution)とも呼ばれます。少数サンプルでの品質管理が動機でした。

t分布が成り立つための前提

前提意味
1. 母集団が正規分布に従う標本が正規母集団から抽出されている
2. 標本が独立各データが互いに影響しない
3. 母分散が未知σ2\sigma^2 がわからず、S2S^2 で推定する

母分散がわかっている場合は ZZ 統計量(正規分布)を使えばよく、t分布を使う必要はありません。サンプルサイズが大きい場合は、SSσ\sigma に近づくため、t分布も正規分布に近づきます。

分布の形

t分布は正規分布と似た左右対称の釣鐘型ですが、正規分布より裾が厚いのが特徴です。

t分布の確率密度関数:自由度による形の変化

裾が厚い理由は、母分散の推定の不確実性を分布に反映しているためです。サンプルサイズが小さいほど SS のばらつきが大きく、裾がより厚くなります。

確率密度関数

自由度 kk のt分布の確率密度関数は次の式で表されます。

f(t)=Γ(k+12)kπΓ(k2)(1+t2k)(k+1)/2f(t) = \frac{\Gamma\left(\frac{k+1}{2}\right)}{\sqrt{k\pi}\,\Gamma\left(\frac{k}{2}\right)} \left(1 + \frac{t^2}{k}\right)^{-(k+1)/2}

正規分布の et2/2e^{-t^2/2} の部分が (1+t2/k)(k+1)/2\left(1 + t^2/k\right)^{-(k+1)/2} に置き換わっている点が特徴です。t|t| が大きいとき、この項は指数関数より緩やかに減少するため、裾が厚くなります。

実際の計算では統計ソフトや数表(t分布表)を使うため、この式を直接計算する必要はありません。

期待値と分散

Tt(k)T \sim t(k) のとき、

分散は1より大きく、正規分布(分散1)よりばらつきが大きいことを示します。自由度 kk が大きくなると k/(k2)1k/(k-2) \to 1 となり、分散も正規分布の値に近づきます。

k=10k = 10 のとき、Var(T)=10/8=1.25\mathrm{Var}(T) = 10/8 = 1.25 です。正規分布の分散1と比べて25%大きく、その分だけ裾が厚くなっています。

正規分布との比較

| 性質 | 標準正規分布 N(0,1)N(0,1) | t分布 t(k)t(k) | |---|---|---| | 平均 | 00 | 00k>1k > 1) | | 分散 | 11 | k/(k2)>1k/(k-2) > 1k>2k > 2) | | 裾の厚さ | 薄い | 厚い(kk が小さいほど厚い) | | 使用条件 | 母分散が既知(σ\sigma) | 母分散が未知(SS で推定) | | kk \to \infty | — | 標準正規分布に一致 |

他の分布との関係

まとめ

t分布 t(k)t(k) は、母分散が未知のときに標本平均の標準化統計量が従う分布です。

T=XˉμS/nt(n1)T = \frac{\bar{X} - \mu}{S / \sqrt{n}} \sim t(n - 1)

正規分布より裾が厚い形を持ち、母分散の推定に伴う不確実性を反映しています。自由度が大きくなると正規分布に近づきます。

母平均の区間推定や仮説検定において、母分散が未知の場合にはt分布を使います。