分散・標準偏差の意味
平均だけでは分からないデータの「ばらつき」を数値にする
できるようになること
- 分散と標準偏差の定義を説明し、手計算で求めることができる
- 分散と標準偏差の違い(単位・解釈のしやすさ)を説明できる
- 確率分布の分散(理論)とデータの分散(現実)の違いを説明できる
平均だけでは分からない「散らばり」
2つのクラスのテスト平均がどちらも70点でした。
クラスA:60, 65, 70, 75, 80点 クラスB:40, 50, 70, 90, 100点
同じ平均70点でも、全く違う様子です。クラスAは平均付近に集まっていますが、クラスBは大きく散らばっています。
この「ばらつき」を数値で表すのが分散(variance)と標準偏差(standard deviation)です。
データの分散とは何か
個のデータ があり、その平均を とします。
分散は、各データと平均との差(平均との差を偏差といいます)の2乗の平均です:
(エス2乗)と書きます。
ここでは「手元のデータのばらつき」を表すために を使います。母分散を推定する目的では を使う(不偏分散)ことがあり、推論統計の単元で扱います。
計算例:クラスAとクラスB
クラスA:60, 65, 70, 75, 80点(平均70点)
クラスB:40, 50, 70, 90, 100点(平均70点)
クラスBの分散(520)はクラスAの分散(50)より大きく、ばらつきが大きいことが数値で確認できます。
標準偏差とは何か
分散には1つ問題があります。2乗しているため、元のデータと単位が変わってしまいます。
テストの点数の単位は「点」ですが、分散の単位は「点²」になります。これでは直感的に解釈しにくい。
そこで分散の平方根を取り、単位を元に戻したものが標準偏差です:
クラスA:
クラスB:
標準偏差なら、元のデータと同じ単位(点)で「平均からどれくらいばらついているか」を表せます。
標準偏差の解釈
標準偏差は「データが平均からどれくらい離れているかの目安」です。
- 標準偏差が小さい → データが平均付近に集まっている
- 標準偏差が大きい → データが平均から広くばらついている
クラスAの標準偏差7.1点は「平均との差の大きさの目安が約7点」、クラスBの標準偏差22.8点は「平均との差の大きさの目安が約23点」という意味です。
確率分布の分散・標準偏差との違い
確率分布の分野でも分散と標準偏差が登場します。どちらも「ばらつき」を扱いますが、何のばらつきを対象にしているかが違います。
確率分布では、平均を 、分散を 、標準偏差を と書くことが多いです。また は確率変数 の分散を表す記号です。
確率分布の分散:
- 「この分布から値を取り出したら、どれくらいばらつくか」という理論上のばらつき
- 例:サイコロを振ったとき、出る目は理論的にどれくらいばらつくか
データの分散:
- 「手元のデータが実際にどれくらいばらついているか」という観測されたばらつき
- 例:10回サイコロを振った結果が、実際にどれくらいばらついていたか
| 確率分布の分散 | データの分散 | |
|---|---|---|
| 対象 | 確率分布(理論) | 手元のデータ(現実) |
| 記号 | ||
| 計算 | ||
| 意味 | 理論上のばらつき | 観測されたばらつき |
| 例 | サイコロの期待値からのばらつき | 10回振った結果のばらつき |
同じ「ばらつき」という概念を、理論(確率分布)とデータ(観測値)という異なる対象に適用していると考えると分かりやすいです。
分散・標準偏差の性質
1. すべて同じ値なら分散は0
すべてのデータが同じ値なら、ばらつきはないので分散は0です。 例:5人全員が70点 →
2. 定数を足しても分散は変わらない
すべてのデータに同じ値を足しても、ばらつき具合は変わりません。全員に10点加点しても、分散・標準偏差は変わりません。
3. 定数倍すると分散は2乗倍
すべてのデータを 倍すると、分散は 倍、標準偏差は 倍になります。
範囲との違い
ばらつきを表す指標として、範囲(最大値 − 最小値)もあります。
- クラスAの範囲: 点
- クラスBの範囲: 点
範囲は計算が簡単ですが、最大値・最小値だけで決まるという弱点があります。一方、標準偏差は全データを使う指標です。ただし、極端に大きい(小さい)値(外れ値)があると標準偏差も大きくなりやすい点には注意が必要です。
分散と標準偏差、どちらを使うか
分散:
- 式変形で扱いやすい(平均との差を2乗して足す形なので、理論や計算上都合が良い)
- 統計的な推測(検定など)の計算過程でよく使われる
標準偏差:
- 単位が元に戻るので、データのスケール感を説明しやすい
- 実務で「ばらつきの大きさ」を直感的に伝えるときに適している
一般的には、実務では標準偏差を使い、理論計算では分散を使うことが多いです。
まとめ
分散 は、データのばらつきを表す指標です。
標準偏差 は、分散の平方根で、元のデータと同じ単位で解釈できます。
確率分布の分散(理論)とデータの分散(現実)は、どちらもばらつきを扱いますが、何のばらつきを対象にしているかが違います。
標準偏差は「平均からどれくらい離れているかの目安」として、実務でよく使われます。