推定とは何か
標本から母集団を推測するための考え方と、推定値の正しい報告方法
できるようになること
- 点推定と区間推定の違いを説明できる
- 推定量の望ましい性質(不偏性・一致性・効率性)を理解できる
- 標準誤差を使って推定値の不確実性を報告できる
推定値をどう報告するか
ある県で500世帯を無作為に選んで調査した結果、平均世帯年収が520万円でした。
この結果から、「この県の平均世帯年収は520万円です」と発表していいでしょうか。
全世帯を調査したわけではなく、500世帯の標本から推定したものです。別の500世帯を選べば、結果は少し変わるはずです。
では、「520万円」という1つの数字だけで報告していいのでしょうか。誤差の大きさは?この推定値はどれくらい信頼できるのか?
推定値を報告するには、不確実性も伝える必要があります。
推定とは何か
推定(estimation)は、標本のデータから母集団の特徴(母数)を推測することです。
母数とは
母数(parameter)は、母集団の特性を表す値です。
例:
- 母平均
- 母分散
- 母比率(割合)
母数は、母集団全体を調べないと正確には分かりません。しかし、標本から推定することはできます。
推定量とは
標本から母数を推定するために使う統計量を推定量(estimator)といいます。
例:
- 標本平均 → 母平均 の推定量
- 標本分散 → 母分散 の推定量
- 標本比率 → 母比率 の推定量
推定量から計算された具体的な値を推定値(estimate)といいます。
点推定と区間推定
推定には2つの方法があります。
点推定
点推定(point estimation)は、母数を1つの値で推定することです。
例:
- 標本平均が520万円 → 母平均を520万円と推定
区間推定
区間推定(interval estimation)は、母数が含まれそうな範囲(区間)で推定することです。
例:
- 母平均は「490万円〜550万円の範囲にある」と推定
区間推定(信頼区間)は別の単元で扱います。この単元では点推定を中心に整理します。
点推定の意味
点推定で得られた推定値(例:520万円)は、母数そのものではありません。
推定値と母数の違い
- 母数():母集団全体の真の値。固定された値だが、通常は未知
- 推定値(例:520万円):標本から計算した値。標本が変われば変わる
同じ方法で標本を取り直すと、標本平均は毎回少しずつ変わります。これは標本平均の標本分布の考え方です。
点推定の限界
点推定は便利ですが、不確実性が見えないという限界があります。
- 「520万円」だけでは、誤差の大きさが分からない
- 標本サイズが10でも1000でも、同じ「520万円」と表示される
推定量の望ましい性質
良い推定量には、いくつかの望ましい性質があります。
ここでは、推定したい母数を一般に (シータ)、それを推定する推定量を (シータハット)と書きます。
1. 不偏性
不偏性(unbiasedness):推定量の期待値が、推定したい母数と等しい。
例:標本平均 は母平均 の不偏推定量です()。
不偏性があると、「平均的には」正しい値を推定できます。
不偏性の実例:なぜ で割るのか
分散の単元で、標本分散を計算するとき「 ではなく で割る」と学びました。ここでその理由が明らかになります。
で割る標本分散(母集団全体を知っているときの計算方法):
で割る標本分散(不偏標本分散):
で割る標本分散の期待値は、 となり、母分散 より常に小さくなります。つまり、母集団のばらつきを常に小さめに見積もってしまいます。
で割る標本分散の期待値は、 となり、平均的には母分散と一致します。これが不偏推定量です。
なぜ過小評価になるのか(直感的な理解)
本来は母平均 からの偏差 で分散を計算したいのですが、 は未知なので、代わりに標本平均 を使います。ここに落とし穴があります。
具体例で見てみましょう。母平均が の母集団から、3つの値 を取ったとします。
- 母平均からの偏差の二乗和:
- 標本平均 からの偏差の二乗和:
標本平均からの偏差の二乗和(24.7)は、母平均からの偏差の二乗和(33)より小さくなっています。
これは偶然ではありません。 はそのデータから計算された値なので、 よりもデータに「フィット」してしまいます。その結果、 からの偏差は からの偏差より小さくなります。
で割るのは、この過小評価を補正するための操作です。
で割る vs で割る
- で割る:母分散を常に小さめに見積もる(偏った推定量)
- で割る:平均的には母分散と一致する(不偏推定量)
- が大きくなると となり、両者の差は小さくなります
2. 一致性
一致性(consistency):標本サイズを大きくすれば、母数から大きく外れた推定値が出る確率が極めて小さくなる。
例:標本平均 は一致推定量です。 が大きくなると、 は に近い値をとりやすくなります。
3. 効率性
効率性(efficiency):同じ母数を推定する不偏推定量どうしを比べるとき、分散が小さい推定量を(より)効率的といいます。
分散が小さいほど、推定値のばらつきが小さく、安定した推定ができます。
標準誤差と推定の精度
点推定の精度は、標準誤差で測ることができます。
標本平均の標準誤差
無作為抽出により、観測値が互いに独立で同じ分布に従うとき、標本平均の標準誤差は次の形になります:
標準誤差が小さいほど、推定値は母数に近い値になりやすく、推定が安定しています。
実務では母分散 が未知
実際には、母分散 も未知です。そのため、標本から計算した不偏標準偏差 (で割る)を使って推定します:
ここで は標本から計算した不偏標準偏差です。これを推定標準誤差といいます。
推定値の報告方法
推定値を報告するときは、不確実性も伝えることが重要です。
最低限の情報:推定値と標準誤差
例:
平均世帯年収:520万円(標準誤差:15万円)
または:
平均世帯年収:520万円 ± 15万円(平均値 ± 標準誤差)
標準誤差を ± で書くこともありますが、信頼区間と混同されやすいため、明示的に「標準誤差」と書く方が安全です。
より詳しい報告
次の情報も含めると、読み手が推定の信頼性を判断できます:
- 標本サイズ:500世帯
- 抽出方法:無作為抽出
- 標準誤差:15万円
- 信頼区間:490〜550万円(95%信頼区間)
(正規分布近似が妥当なとき)95%信頼区間はおおよそ「推定値 ± 2 × 標準誤差」になります。上の例では、 となります。
例:
ある県の500世帯を無作為に抽出して調査した結果、平均世帯年収は520万円(標準誤差15万円、95%信頼区間490〜550万円)と推定されました。
点推定だけでは不十分な理由
点推定値だけを報告すると、次のような問題があります:
1. 精度が分からない
「520万円」だけでは、±10万円の誤差なのか、±100万円の誤差なのか分かりません。
2. 標本サイズの影響が見えない
標本サイズ10でも1000でも、同じ「520万円」と表示されます。しかし、精度は大きく違います。
3. 読み手が誤解する
「520万円」という確定的な表現は、「母集団全体が正確に520万円」と誤解されやすいです。
よくある誤解
- 誤解1:推定値 = 母数の真の値 — 推定値は母数に近い値になりやすいですが、一致するとは限りません。推定値はあくまで標本から計算した近似値です。
- 誤解2:標本サイズが大きければ推定値 = 母数 — 標本サイズが大きくても、推定値と母数が完全に一致することはありません。ただし、標準誤差が小さくなるので、より正確な推定になります。
- 誤解3:標準誤差は「間違いの大きさ」 — 標準誤差は「推定値がどれくらいばらつくか」の目安です。「間違いの大きさ」ではなく、「不確実性の大きさ」を表します。
- 誤解4:標準誤差 = 標本標準偏差 — 標本標準偏差()は個々のデータの散らばり、標準誤差()は標本平均がどれくらい揺れるかを表します。標準誤差は標本標準偏差を で割ったものです。
- 誤解5:点推定だけで十分 — 点推定は分かりやすいですが、不確実性が見えません。標準誤差や信頼区間も合わせて報告することが重要です。
まとめ
推定は、標本のデータから母集団の特徴(母数)を推測することです。
点推定は母数を1つの値で推定する方法です。標本平均は母平均の推定量として使われます。
良い推定量の性質として、不偏性、一致性、効率性があります。
推定値を報告するときは、標準誤差や信頼区間など、不確実性も合わせて伝えることが重要です。
点推定は区間推定(信頼区間)と組み合わせて使います。