記述統計と推測統計
同じ「平均」でも役割が違う──手元のデータか、全体の推測か
できるようになること
- 記述統計と推測統計の違いを目的・対象・確実性の3点で説明できる
- 母集団と標本の違いを説明できる
- 手元のデータが母集団全体か標本かを判断し、適切な統計の枠組みを選べる
同じ「平均」でも役割が違う
クラス30人全員のテスト平均が75点でした。この「75点」は何を意味するでしょうか。
一方、クラスから5人を選んでテストをしたら平均80点でした。この「80点」からクラス全体について何が言えるでしょうか。
この2つの「平均」は、同じ計算方法でも役割が違います。
1つ目は「全体の事実」、2つ目は「一部から全体を推測する手がかり」です。この違いが、記述統計と推測統計の違いです。
ただし、5人の平均だけでクラス全体を断定はできません。どのくらい不確かかが、推測統計の中心になります。
母集団と標本
統計学では、知りたい対象全体を母集団、その一部を標本といいます。
母集団:
- 知りたい対象の全体
- 例:クラス全員30人、有権者全員、工場で作られた製品すべて
標本:
- 母集団から取り出した一部
- 例:クラスから選んだ5人、世論調査の回答者1000人、工場から抜き取った100個
母集団全体を調べることを全数調査(悉皆調査)、標本を調べることを標本調査といいます。
記述統計とは何か
記述統計(descriptive statistics)は、手元のデータを要約・整理するための統計学です。
クラス30人全員のテスト結果があるとき:
- 平均点は?
- 最高点と最低点は?
- どれくらいばらついている?
こうした「データの特徴を数値やグラフで表す」のが記述統計です。
記述統計で使う代表的な指標と手法
指標(数値で特徴を表す):
- 代表値:平均、中央値、最頻値
- ばらつき:分散、標準偏差、範囲
手法(視覚的に特徴を捉える):
- ヒストグラム、箱ひげ図などのグラフ
記述統計は「手元のデータについて確実に言えること」を整理します。手元のデータを超えた主張はしません。
推測統計とは何か
推測統計(inferential statistics)は、一部のデータ(標本)から全体(母集団)を推測するための統計学です。
クラスから選んだ5人のテスト平均が80点のとき:
- クラス全体の平均は何点くらいか?
- 「クラス全体も80点くらい」と言えるか?
- その推測はどれくらい信頼できるか?
こうした「一部から全体を推測する」のが推測統計です。
推測統計の2つの柱
推定:
- 標本から母集団の特徴(平均、割合など)を推測する
- 例:「5人の結果に基づき、クラス全体の平均は75〜85点の範囲にあると95%の確率で言えると推定する」
検定:
- 仮説が正しいかどうかを標本データから判断する
- その結果がたまたま(偶然)起こったのか、それとも意味がある違いなのかを判断する
- 例:「新しい教材で平均点が上がったと言えるか?」
記述統計と推測統計の違い
| 記述統計 | 推測統計 | |
|---|---|---|
| 目的 | 手元のデータを要約 | 一部から全体を推測 |
| 対象 | 得られたデータ(母集団データでも標本データでも) | 標本データを使って母集団を扱う |
| 主な指標 | 平均、中央値、分散など | 推定値、信頼区間など |
| 主な手法 | グラフ、表による要約 | 推定、検定 |
| 確実性 | そのデータについては計算で確定する | 母集団については不確実性(誤差)が残る |
| 例 | クラス30人全員の平均75点 | 5人の平均80点→全体は? |
なぜ推測統計が必要か
母集団全体を調べられない場合が多い:
- コスト:全国民に聞くより1000人に聞く方が安い(世論調査)
- 時間:全製品を検査する時間がない(品質検査)
- 破壊検査:全部調べたら製品が残らない(電球の寿命試験)
- 無限母集団:そもそも全体を調べられない(明日以降に作る製品すべて、何度でも繰り返せる科学実験など)
こうした場合、標本から母集団を推測する必要があります。
手元のデータは全体か一部か
統計を使う前に、必ず確認すべき前提があります:
「このデータは母集団全体ですか、それとも標本(一部)ですか?」
母集団全体のとき
そのデータが「知りたい対象の全体」である限り、平均や分散はその母集団の値(母数)として確定します。記述統計だけで十分です。
例:
- クラス30人全員のテスト結果 → 平均75点は事実
- ある月の全売上データ → その月の売上の特徴を記述
標本(一部)のとき
推測統計が必要です。標本の平均や分散は「推測の手がかり」であり、母集団の真の値とは異なる可能性があります。
例:
- 5人のテスト結果 → 全体は80点くらい?(推測)
- 1000人の世論調査 → 全国民の傾向はどうか?(推測)
よくある誤解
誤解1:標本の平均 = 母集団の平均
標本はあくまで一部なので、標本の平均と母集団の平均は一般には一致しません(たまたま一致することはあります)。ただし、適切に標本を取れば「ずれが小さくなりやすい」と言えます。
誤解2:標本が大きければ必ず正確
標本サイズも重要ですが、**標本の取り方(ランダムか、偏っていないか)**の方がより重要です。
たとえば、任意回答のアンケートは「意見の強い人」が集まりやすく、人数が多くても偏りが残ります。100万人の偏った調査より、1000人のランダムな調査の方が信頼できることもあります。
これから学ぶこと
この後の単元では、まず記述統計を学びます:
- 平均、中央値、最頻値(代表値)
- 分散、標準偏差(ばらつき)
- ヒストグラム(可視化)
これらは「手元のデータの特徴を数値やグラフで表す」方法です。
その後、推測統計の基礎として:
- 推定と検定の考え方
- 信頼区間
- 仮説検定
を学んでいきます。
推測統計は、標本が母集団を代表している(偏りが小さい)という前提のもとで成り立ちます。どちらも「手元のデータが全体か一部か」という前提を意識することが重要です。
まとめ
記述統計は手元のデータを要約・整理する統計学です。手元のデータについて確実に言えることを整理します。
推測統計は一部のデータ(標本)から全体(母集団)を推測する統計学です。確率的な判断を伴うため、誤る可能性が常に存在します。
統計を使う前に「このデータは母集団全体か標本か」を確認することが重要です。