t分布

母分散が未知のとき、標本平均の分布を扱う

難易度 Lv 3 / 10想定時間：約25分

できるようになること

母分散が未知のときに正規分布ではなくt分布を使う理由を説明できる
t分布の自由度による形の変化を理解できる
標本平均の検定・推定におけるt分布の役割を説明できる

母分散がわからないとき、何が起きるか

標本平均 $\bar{X}$ を使って母平均 $\mu$ を推定する場面を考えます。

母集団が正規分布 $N(\mu, \sigma^2)$ に従い、母分散 $\sigma^2$ がわかっていれば、標本平均を標準化した統計量

$Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}$

は標準正規分布 $N(0,1)$ に従います。これを使えば、区間推定や仮説検定ができます。

しかし現実には 母分散 $\sigma^2$ がわからない ことがほとんどです。そこで $\sigma$ の代わりに、標本から計算した不偏標準偏差 $S = \sqrt{\frac{1}{n-1}\sum(X_i - \bar{X})^2}$ を使いたくなります。

$T = \frac{\bar{X} - \mu}{S / \sqrt{n}}$

ところがこの統計量 $T$ は、もはや標準正規分布には従いません。 $S$ は $\sigma$ と違って固定された定数ではなく、サンプルごとに異なる値をとる確率変数です。そのため $\sigma$ を $S$ に置き換えたことで、不確実性が増す のです。

特にサンプルサイズが小さいとき、 $S$ はたまたま非常に小さな値をとることがあり、そのとき $T$ は異常に大きな値になります。正規分布ではこの「たまたま」が考慮されていないため、 $T$ の分布は正規分布より裾が厚く（極端な値が出やすく）なります。

この $T$ が従う分布が、t分布（t-distribution）です。

t分布の定義

$Z \sim N(0, 1)$ と $V \sim \chi^2(k)$ が独立のとき、

$T = \frac{Z}{\sqrt{V / k}}$

で定義される $T$ は自由度 $k$ のt分布に従います。

$T \sim t(k)$

標本平均の場合は $k = n - 1$ （サンプルサイズ − 1）です。これはカイ二乗分布の単元で学んだ、不偏分散に対応する自由度と同じです。

補足

t分布は、ギネスビール醸造所に勤めていた統計家ウィリアム・ゴセットが「Student」というペンネームで1908年に発表したことから、スチューデントのt分布（Student's t-distribution）とも呼ばれます。少数サンプルでの品質管理が動機でした。

t分布が成り立つための前提

前提	意味
1. 母集団が正規分布に従う	標本が正規母集団から抽出されている
2. 標本が独立	各データが互いに影響しない
3. 母分散が未知	$\sigma^2$ がわからず、 $S^2$ で推定する

母分散がわかっている場合は $Z$ 統計量（正規分布）を使えばよく、t分布を使う必要はありません。サンプルサイズが大きい場合は、 $S$ が $\sigma$ に近づくため、t分布も正規分布に近づきます。

分布の形

t分布は正規分布と似た左右対称の釣鐘型ですが、正規分布より裾が厚いのが特徴です。

平均は $0$ （ $k > 1$ のとき）
$k = 1$ ：コーシー分布と一致（裾が非常に厚く、期待値が存在しない）
$k$ が小さい：裾が厚く、極端な値が出やすい
$k$ が大きい：正規分布に近づく
$k \to \infty$ ：標準正規分布と一致

t分布の確率密度関数：自由度による形の変化

裾が厚い理由は、母分散の推定の不確実性を分布に反映しているためです。サンプルサイズが小さいほど $S$ のばらつきが大きく、裾がより厚くなります。

確率密度関数

自由度 $k$ のt分布の確率密度関数は次の式で表されます。

$f(t) = \frac{\Gamma\left(\frac{k+1}{2}\right)}{\sqrt{k\pi}\,\Gamma\left(\frac{k}{2}\right)} \left(1 + \frac{t^2}{k}\right)^{-(k+1)/2}$

正規分布の $e^{-t^2/2}$ の部分が $\left(1 + t^2/k\right)^{-(k+1)/2}$ に置き換わっている点が特徴です。 $|t|$ が大きいとき、この項は指数関数より緩やかに減少するため、裾が厚くなります。

実際の計算では統計ソフトや数表（t分布表）を使うため、この式を直接計算する必要はありません。

期待値と分散

$T \sim t(k)$ のとき、

期待値： $E[T] = 0$ （ $k > 1$ ）
分散： $\mathrm{Var}(T) = \dfrac{k}{k - 2}$ （ $k > 2$ ）

分散は1より大きく、正規分布（分散1）よりばらつきが大きいことを示します。自由度 $k$ が大きくなると $k/(k-2) \to 1$ となり、分散も正規分布の値に近づきます。

例： $k = 10$ のとき、 $\mathrm{Var}(T) = 10/8 = 1.25$ です。正規分布の分散1と比べて25%大きく、その分だけ裾が厚くなっています。

正規分布との比較

| 性質 | 標準正規分布 $N(0,1)$ | t分布 $t(k)$ | |---|---|---| | 平均 | $0$ | $0$ （ $k > 1$ ） | | 分散 | $1$ | $k/(k-2) > 1$ （ $k > 2$ ） | | 裾の厚さ | 薄い | 厚い（ $k$ が小さいほど厚い） | | 使用条件 | 母分散が既知（ $\sigma$ ） | 母分散が未知（ $S$ で推定） | | $k \to \infty$ | — | 標準正規分布に一致 |

他の分布との関係

$k = 1$ ：コーシー分布 $C(0, 1)$ と一致
$k \to \infty$ ：標準正規分布 $N(0, 1)$ に収束
t分布の2乗 $T^2$ は自由度 $(1, k)$ の F分布 に従う

まとめ

t分布 $t(k)$ は、母分散が未知のときに標本平均の標準化統計量が従う分布です。

$T = \frac{\bar{X} - \mu}{S / \sqrt{n}} \sim t(n - 1)$

正規分布より裾が厚い形を持ち、母分散の推定に伴う不確実性を反映しています。自由度が大きくなると正規分布に近づきます。

母平均の区間推定や仮説検定において、母分散が未知の場合にはt分布を使います。