1標本の区間推定

母平均・母分散・母比率の信頼区間を、実際のデータから計算する

難易度 Lv 4 / 10想定時間:約25

できるようになること


意味は分かった、では計算しよう

「信頼区間の意味」では、95%信頼区間が「同じ手続きで作った区間の約95%が母数を含む」ことを学びました。

しかし実際にデータを前にしたとき、信頼区間はどう計算するのでしょうか。「推定とは何か」の例を思い出してください。500世帯を調べて平均世帯年収が520万円だったとき、「520万円 ± どのくらい?」を具体的に求める必要があります。

この単元では、母平均・母分散・母比率について、信頼区間を実際に計算する方法を学びます。


母平均の区間推定

母集団の平均 μ\mu の信頼区間を求めます。母分散が分かっているかどうかで、使う方法が変わります。

母分散 σ2\sigma^2 が既知の場合

「信頼区間の意味」で見た式です。中心極限定理により、標本平均を標準化した

Xˉμσ/n\frac{\bar{X} - \mu}{\sigma / \sqrt{n}}

は近似的に標準正規分布に従います。これを μ\mu について解くと、信頼水準 (1α)(1-\alpha) の信頼区間は次のようになります。

xˉ±zα/2σn\bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}

ここで zα/2z_{\alpha/2} は標準正規分布の上側 α/2\alpha/2 点です。95%信頼区間なら z0.025=1.96z_{0.025} = 1.96 です。

例:灯油の充填量

あるガソリンスタンドでは、灯油を18Lタンクに充填しています。過去の大量データから、充填量の標準偏差は σ=0.3\sigma = 0.3 L と分かっています。今月の充填量を確認するため、36回分の充填量を記録したところ、標本平均 xˉ=17.85\bar{x} = 17.85 L でした。

母平均の95%信頼区間を求めます。

17.85±1.96×0.336=17.85±1.96×0.05=17.85±0.09817.85 \pm 1.96 \times \frac{0.3}{\sqrt{36}} = 17.85 \pm 1.96 \times 0.05 = 17.85 \pm 0.098

95%信頼区間は [17.752, 17.948] です。

この区間には公称値の18Lが含まれていません。充填量が18Lに達していない可能性があります。

母分散が未知の場合(t区間)

実際のデータ分析では、母分散 σ2\sigma^2 が分かっていることはほとんどありません。母集団が正規分布に従うと仮定できる場合、母分散が未知のときは標本標準偏差 ss(不偏分散の正の平方根)で σ\sigma を代用します。

Xˉμs/n\frac{\bar{X} - \mu}{s / \sqrt{n}}

この量は標準正規分布ではなく、自由度 n1n-1t分布に従います。σ\sigma(定数)を ss(標本ごとに変動する値)で置き換えたことにより不確実性が増すため、t分布は標準正規分布より裾が厚くなります。

信頼水準 (1α)(1-\alpha) の信頼区間は:

xˉ±tα/2(n1)sn\bar{x} \pm t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}}
例:コーヒー豆の内容量

あるブランドのコーヒー豆(公称200g)の内容量を確認するため、16袋を購入して測定しました(内容量は正規分布に従うと仮定します)。標本平均 xˉ=198.5\bar{x} = 198.5 g、標本標準偏差 s=3.2s = 3.2 g でした。

母平均の95%信頼区間を求めます。自由度 161=1516 - 1 = 15 のt分布の上側2.5%点は t0.025(15)=2.131t_{0.025}(15) = 2.131 です。

198.5±2.131×3.216=198.5±2.131×0.8=198.5±1.70198.5 \pm 2.131 \times \frac{3.2}{\sqrt{16}} = 198.5 \pm 2.131 \times 0.8 = 198.5 \pm 1.70

95%信頼区間は [196.8, 200.2] です。

ポイント

母分散が未知のとき、ssσ\sigma の代わりとしてz区間(正規分布の臨界値1.96を使う区間)を作ることは適切ではありません。σ\sigma を推定していることによる追加の不確実性を反映するには、t分布を使う必要があります。


母分散の区間推定

先ほどのコーヒー豆の例では、内容量の平均を推定しました。次は、ばらつきの大きさ、つまり母分散 σ2\sigma^2 を区間推定します。

正規母集団から得た標本について、

(n1)s2σ2\frac{(n-1)s^2}{\sigma^2}

は自由度 n1n-1カイ二乗分布に従います。これを σ2\sigma^2 について解くと、信頼水準 (1α)(1-\alpha) の信頼区間は:

[(n1)s2χα/22(n1),(n1)s2χ1α/22(n1)]\left[\frac{(n-1)s^2}{\chi^2_{\alpha/2}(n-1)},\quad \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}(n-1)}\right]

ここで χα/22\chi^2_{\alpha/2} は上側確率 α/2\alpha/2 に対応するカイ二乗分布のパーセント点です(添字は上側確率を示します)。χα/22\chi^2_{\alpha/2} は大きい値なので分母が大きくなり区間の下限を与え、χ1α/22\chi^2_{1-\alpha/2} は小さい値なので上限を与えます。

補足

カイ二乗分布は左右対称ではないため、信頼区間も左右対称にはなりません。母平均のように「s2±s^2 \pm 何か」の形にはならない点に注意してください。

例:コーヒー豆のばらつき

同じコーヒー豆のデータで、内容量のばらつきについても区間推定します。n=16n = 16、不偏分散 s2=3.22=10.24s^2 = 3.2^2 = 10.24 です。

自由度15のカイ二乗分布のパーセント点は、χ0.0252(15)=27.49\chi^2_{0.025}(15) = 27.49(上側2.5%点)、χ0.9752(15)=6.26\chi^2_{0.975}(15) = 6.26(上側97.5%点)です。

[15×10.2427.49,15×10.246.26]=[153.627.49,153.66.26]=[5.59,24.54]\left[\frac{15 \times 10.24}{27.49},\quad \frac{15 \times 10.24}{6.26}\right] = \left[\frac{153.6}{27.49},\quad \frac{153.6}{6.26}\right] = [5.59,\quad 24.54]

母分散 σ2\sigma^2 の95%信頼区間は [5.59, 24.54] です。母標準偏差に直すと [2.36, 4.95] g です。

下側の長さ(10.245.59=4.6510.24 - 5.59 = 4.65)と上側の長さ(24.5410.24=14.3024.54 - 10.24 = 14.30)を比べると、上側に大きく広がった非対称な区間になっていることが分かります。


母比率の区間推定

母集団における比率 pp の信頼区間を求めます。

標本比率 p^\hat{p} は、標本サイズが十分大きいとき、近似的に正規分布に従います。信頼水準 (1α)(1-\alpha) の信頼区間は:

p^±zα/2p^(1p^)n\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}

この区間はWald区間(正規近似区間)と呼ばれます。正規近似が妥当であるためには、np^5n\hat{p} \geq 5 かつ n(1p^)5n(1-\hat{p}) \geq 5 を満たす必要があります。

補足

標準誤差の計算で p^\hat{p}(標本比率)を使っています。母比率の検定では帰無仮説の基準値 p0p_0 を使いますが、区間推定では推定対象の pp が未知であるため、p^\hat{p} で代用します。

例:顧客のリピート率

あるオンラインショップで、購入者400人のうち112人がリピート購入していました。リピート率 p^=112/400=0.28\hat{p} = 112/400 = 0.28 です。母比率の95%信頼区間を求めます。

近似条件の確認:np^=1125n\hat{p} = 112 \geq 5n(1p^)=2885n(1-\hat{p}) = 288 \geq 5(OK)

0.28±1.960.28×0.72400=0.28±1.96×0.02245=0.28±0.0440.28 \pm 1.96 \sqrt{\frac{0.28 \times 0.72}{400}} = 0.28 \pm 1.96 \times 0.02245 = 0.28 \pm 0.044

95%信頼区間は [0.236, 0.324] です。リピート率はおよそ24〜32%と推定されます。


区間の幅を決める要因

信頼区間の幅は推定の精度を反映しています。区間が狭いほど精度が高く、広いほど不確実性が大きいことを示します。

母平均の信頼区間(σ\sigma 既知)の幅は

区間の幅=2×zα/2×σn\text{区間の幅} = 2 \times z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}

です。この式から、幅を決める3つの要因が見えます。

1. 信頼水準 (1α)(1-\alpha)

信頼水準を上げると zα/2z_{\alpha/2} が大きくなり、区間が広がります。

信頼水準zα/2z_{\alpha/2}幅の比(95%基準)
90%1.6450.84倍(狭い)
95%1.9601.00倍(基準)
99%2.5761.31倍(広い)

2. 標本サイズ nn

nn が大きくなると n\sqrt{n} で割る効果で区間が狭くなります。ただし精度は n\sqrt{n} に比例するため、幅を半分にするには4倍の標本が必要です。

3. 母集団のばらつき σ\sigma

σ\sigma が大きいほど区間は広くなります。ばらつき自体は母集団の性質なので、分析者がコントロールできるのは主に信頼水準と標本サイズです。

必要な標本サイズの逆算

調査の設計段階では、必要な精度から逆算して標本サイズを決めることがあります。「誤差(信頼区間の半幅)を EE 以下にしたい」場合、必要な標本サイズは次の式で求められます。

n(zα/2σE)2n \geq \left(\frac{z_{\alpha/2} \cdot \sigma}{E}\right)^2
例:年収調査の設計

平均年収を推定するとき、95%信頼区間の幅を±20万円以内にしたいとします。過去のデータから σ150\sigma \approx 150 万円と想定すると:

n(1.96×15020)2=(14.7)2=216.09n \geq \left(\frac{1.96 \times 150}{20}\right)^2 = \left(14.7\right)^2 = 216.09

したがって、最低でも217世帯のサンプルが必要です。

母比率の場合は n(zα/2E)2p^(1p^)n \geq \left(\frac{z_{\alpha/2}}{E}\right)^2 \hat{p}(1-\hat{p}) で求められます。p^\hat{p} の見当がつかないときは p^=0.5\hat{p} = 0.5(最も区間が広くなる値)とすると、安全側の見積もりになります。


区間推定の使い分け

推定対象信頼区間の式使う分布条件
母平均(σ\sigma 既知)xˉ±zα/2σn\bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}標準正規分布σ\sigma が既知、正規母集団または大標本
母平均(σ\sigma 未知)xˉ±tα/2(n1)sn\bar{x} \pm t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}}t分布(自由度 n1n-1正規母集団
母分散[(n1)s2χα/22(n1), (n1)s2χ1α/22(n1)]\left[\frac{(n-1)s^2}{\chi^2_{\alpha/2}(n-1)},\ \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}(n-1)}\right]カイ二乗分布(自由度 n1n-1正規母集団
母比率p^±zα/2p^(1p^)n\hat{p} \pm z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}標準正規分布np^5n\hat{p} \geq 5, n(1p^)5n(1-\hat{p}) \geq 5

よくある誤解

注意
  • 誤解1:信頼区間が狭ければ推定は正しい — 狭い区間は精度が高いことを示しますが、母数を含んでいるかどうかは分かりません。信頼区間の意味はあくまで「同じ手続きを繰り返したときの被覆率」です。
  • 誤解2:母分散が未知でも、nn が大きければz区間で十分 — 大標本ではt分布と標準正規分布がほぼ一致するため数値上の差は小さくなりますが、σ\sigma が未知であるという統計モデルの構造は nn に関わらず同じです。t区間を使うのは、推定の手続きとして正しい枠組みを反映するためです。
  • 誤解3:母分散の信頼区間も左右対称 — カイ二乗分布は左右対称ではないため、母分散の信頼区間は非対称です。
  • 誤解4:比率が極端でも区間推定が使えるp^\hat{p} が0や1に近い値のときは正規近似が成り立ちません。近似条件 np^5n\hat{p} \geq 5 かつ n(1p^)5n(1-\hat{p}) \geq 5 を確認してください。

まとめ

信頼区間は、推定したい母数の種類と手持ちの情報に応じて異なる方法で計算します。母平均では母分散が既知なら正規分布、未知ならt分布を使います。母分散にはカイ二乗分布、母比率には正規近似を使います。

信頼区間の幅は、信頼水準、標本サイズ、母集団のばらつきの3つで決まります。精度を高めるには標本サイズを増やすのが主な方法ですが、幅を半分にするには4倍のサンプルが必要です。調査の設計段階で必要な精度から逆算して標本サイズを決めることで、効率的なデータ収集が可能になります。