信頼区間の意味

95%信頼区間の正しい解釈と、推定結果を誤解なく伝える方法

難易度 Lv 4 / 10想定時間:約30

できるようになること


よくある誤解から始める

「平均年収は520万円、95%信頼区間は490〜550万円」という報告を見たとき、どう解釈すればよいでしょうか?

「母集団の平均年収が490〜550万円の範囲に入る確率が95%」と思ってしまうかもしれません。

しかし、これはよくある誤解です。実は、95%信頼区間の「95%」は確率を表していません。

では「95%」とは何を意味するのか?信頼区間の正しい意味を理解すると、推測統計の結果を適切に解釈できるようになります。


信頼区間とは何か

信頼区間(confidence interval)は、標本から母数(母平均、母比率など)を推定するための区間です。

同じ手続きで何度も区間を作ったとき、そのうちの一定の割合(例えば95%)が母数を捉える区間になるように設計されています。


信頼区間の正しい意味

信頼区間の意味は、直感に反するかもしれませんが、重要です。

まず押さえておきたいのは、母数(母平均など)は未知ではありますが固定された値であり、確率的に変動する対象ではないということです。

誤った解釈(よくある誤解)

❌ 「母平均が490〜550万円の範囲に入る確率が95%」

この解釈は間違いです。母平均は固定された値(未知だが確定している)であり、確率的に変動する対象ではありません。

正しい解釈

「同じ方法で区間を作り続けると、その約95%が母平均を含む」

言い換えると:

ポイント

95%信頼区間 = 「同じ作り方を繰り返したとき、作った区間の約95%が母数を含む区間となる」という意味です。信頼区間は「母数が区間に入る確率」ではなく、 「区間を作る手続きの信頼性」 を表しています。


信頼区間の作り方(基本的な考え方)

信頼区間がどのように作られるかを理解すると、意味が明確になります。

式の形を見やすくするため、ここではまず母標準偏差 σ\sigma が既知の場合で説明します。既知ではない場合については、別の単元で扱います。

標本平均の標本分布を使う

標本分布の単元で学んだように、標本平均 Xˉ\bar{X} は母平均 μ\mu の周りで分布します。

中心極限定理により、標本サイズが十分大きいとき:

XˉN(μ,σ2n)\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)

標準化すると:

Xˉμσ/nN(0,1)\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)

95%の範囲を求める

標準正規分布において、約95%のデータは 1.96-1.96 から 1.961.96 の範囲に収まります。

つまり:

P(1.96Xˉμσ/n1.96)=0.95P\left(-1.96 \leq \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \leq 1.96\right) = 0.95

これを μ\mu について解くと:

P(Xˉ1.96×σnμXˉ+1.96×σn)=0.95P\left(\bar{X} - 1.96 \times \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X} + 1.96 \times \frac{\sigma}{\sqrt{n}}\right) = 0.95

ここで確率変数として変動するのは区間の両端を決定する Xˉ\bar{X} であり、中央の μ\mu は固定された未知の定数であることに注意してください。

これが95%信頼区間の式です。


信頼水準の意味

「95%信頼区間」の「95%」を信頼水準(confidence level)といいます。

他の信頼水準

信頼水準係数(zz 値)区間の幅
90%1.645狭い
95%1.96標準的
99%2.576広い

信頼水準のトレードオフ

精度を上げたい(区間を狭くしたい)なら、主に標本サイズを増やす必要があります。

目的にもよりますが、実務では95%をよく用います。


信頼区間の解釈の注意点

信頼区間を解釈するとき、次の点に注意が必要です。

1. 計算した1つの区間について

計算した1つの信頼区間(例:513.4〜526.6万円)については、「母平均が含まれているかどうか」は分からない

区間は、データを観測した後は固定された1本の区間になります。「95%」は観測前に「区間を作る手続き」に付いている性質です。

2. 信頼区間が広い場合

信頼区間が広いということは:

区間を狭くするには、標本サイズを増やす、またはばらつきが小さい測定にする必要があります。

3. 信頼区間が母数を含まない場合

95%信頼区間でも、約5%は母数を含みません。つまり:


読み手への説明の仕方

信頼区間を報告するとき、読み手が誤解しないように説明することが重要です。

避けるべき表現

❌ 「母平均が513〜527万円の範囲に入る確率が95%」

❌ 「母平均は95%の確率で513〜527万円の間にある」

推奨される表現

⭕ 「平均年収は520万円(95%信頼区間:513〜527万円)と推定されました」

⭕ 「同じ調査方法を繰り返したとき、約95%の区間が母平均を含むという意味で、母平均は513〜527万円の範囲にあると推定されます」

⭕ 「統計的な手続きにより、母平均を513〜527万円と推定しました(信頼水準95%)」

ポイント

より丁寧に説明する場合:「この信頼区間は、同じ方法で標本を取り直して区間を作ることを100回繰り返したとき、約95回は母平均を含む区間が作られる、という意味です。今回計算した区間(513〜527万円)が母平均を含んでいるかは確実ではありませんが、この手続きは95%の信頼性があります。」


よくある誤解

注意
  • 誤解1:母数が確率的に動く — 母数(母平均など)は固定された値です。確率的に変動するのは、標本から計算される信頼区間の方です。
  • 誤解2:信頼区間が広い = 推定が悪い — 信頼区間が広いのは、データのばらつきが大きいか標本サイズが小さいことを反映しています。正直に不確実性を示しているだけで、推定手法が悪いわけではありません。
  • 誤解3:95%信頼区間なら、母数が含まれている可能性が95% — 計算した1つの区間について「含まれる可能性95%」とは言えません。「同じ手続きの95%が母数を含む」という意味です。
  • 誤解4:信頼水準を上げれば、推定が正確になる — 信頼水準を上げると区間が広くなり、区間推定としては結論が幅広くなります。精度を上げたい(区間を狭くしたい)なら、主に標本サイズを増やす必要があります。

まとめ

信頼区間は、同じ手続きで何度も区間を作ったとき、そのうちの一定の割合が母数を捉える区間になるように設計されたものです。

95%信頼区間の意味は、「同じ方法で区間を作り続けると、その約95%が母数を含む」ということです。

信頼区間は標本分布を利用して作られます。詳しい作り方については、別の単元で扱います。

信頼区間を報告するときは、「母数が区間に入る確率」という誤解を避ける表現を使うことが重要です。