中央値と代表値のズレ
外れ値に強い指標を知り、分布の「歪み」を読み解く
できるようになること
- 中央値と最頻値の定義を理解し、データから計算できる
- 外れ値が代表値に与える影響の違いを説明できる
- 平均・中央値・最頻値の関係から、分布の「歪み」を読み解ける
平均では見えなかった「真ん中」
平均の単元で、5人の年収(万円)が200, 220, 250, 280, 5000のとき、平均は1190万円になることを見ました。
では、この5人の「真ん中」はどこでしょうか。データを小さい順に並べると、3番目は250万円です。
これが中央値です。平均1190万円と中央値250万円、どちらが実態を表しているでしょうか。
この単元では、中央値をはじめとする他の代表値を学び、平均とのズレがなぜ生じるかを整理します。
中央値とは何か
代表値とは、データ全体を1つの数で要約するための値です。中央値は、その代表値の1つです。
中央値(median)は、データを小さい順に並べたときの順番的な真ん中の値です。
計算方法
データ数が奇数のとき:
真ん中の値をそのまま中央値とします。
例:5個のデータ 200, 220, 250, 280, 5000 の場合
並べると:200, 220, 250, 280, 5000
中央値 = 250万円
データ数が偶数のとき:
データ数をとすると、番目と番目の値の平均を中央値とします。
例:6個のデータ 200, 220, 250, 280, 300, 5000 の場合
並べると:200, 220, 250, 280, 300, 5000
番目と番目の平均を取ります:
※偶数個のときの中央値は、元のデータに含まれない値になることもあります(この例では265万円)。
最頻値とは何か
最頻値(モード)は、データの中で最も多く出現する値です。
例:10人のテスト結果が 60, 65, 70, 70, 70, 75, 80, 85, 90, 95 のとき
70点が3回出現しており最も多いので、最頻値 = 70点
最頻値の特徴
質的データ(カテゴリー:血液型、職種、好きな色など)では平均や中央値は定義しにくいので、最頻値が使えます。これは最頻値だけが持つ特徴です。
データによっては最頻値が複数あることもあります(例:70点と80点が両方3回出現)。
すべての値が1回ずつの場合、最頻値は「どれも同じ回数」なので代表値としては決めにくく、最頻値を使わないことが多いです。
3つの代表値の比較
| 平均 | 中央値 | 最頻値 | |
|---|---|---|---|
| 意味 | 合計を等分した値 | 順番的な真ん中 | 最も多く出現する値 |
| 計算 | 並べて真ん中を取る | 出現回数を数える | |
| 外れ値の影響 | 強く受ける | 受けにくい | 受けにくい |
| 使える場面 | 数値データ | 数値データ(順序があればOK) | すべてのデータ |
※は「すべてのデータの合計」を表します。
歪みと代表値のズレ
山が1つの左右対称な分布(正規分布など)では、平均・中央値・最頻値はほぼ一致します。
しかし、**分布が左右対称でない(右や左に偏る)**と、3つの代表値が同じ位置にならず、ずれます。
右に歪んだ分布(右裾が長い)
例:年収、資産、取引額など
右側に極端な値(外れ値)があると、平均がそちらに引っ張られます。
- 関係:最頻値 < 中央値 < 平均
年収の例(200, 220, 250, 280, 5000万円)では:
- 最頻値:なし(すべて1回ずつ)
- 中央値:250万円
- 平均:1190万円
平均が中央値より大きくずれています。
左に歪んだ分布(左裾が長い)
例:テストの点数(難しい試験で大半が低得点)、製品の不良率など
左側に極端な値があると、平均がそちらに引っ張られます。
- 関係:平均 < 中央値 < 最頻値
例:10人のテスト結果が 20, 30, 85, 90, 90, 90, 90, 95, 95, 100 のとき
- 平均:78.5点
- 中央値:90点
- 最頻値:90点
少数の低得点(20, 30)が平均を引き下げています。
どの代表値を使うとよいか
平均を使うとよい場面
- 外れ値がない、または外れ値も含めた「全体の傾向」を知りたい
- 左右対称な分布
- 合計との関係が重要(例:総売上 ÷ 従業員数)
中央値を使うとよい場面
- 外れ値がある
- 分布が歪んでいる
- 「半数以上がこの値以下」という情報が重要
- 年収、資産、不動産価格など
最頻値を使うとよい場面
- 質的データ(好きな色、職業など)
- 「最も多い値」を知りたい
- 在庫管理、品揃えの判断など
平均と中央値のズレで分布を読む
平均と中央値の関係から、分布の歪みを推測できます。



| 関係 | 分布の形 |
|---|---|
| 平均 ≈ 中央値 | 左右対称 |
| 平均 > 中央値 | 右に歪んでいる(高い値に引っ張られている) |
| 平均 < 中央値 | 左に歪んでいる(低い値に引っ張られている) |
例:「平均年収450万円、中央値380万円」というデータなら、平均 > 中央値なので、「右に歪んでいる(一部の高所得者が平均を引き上げている)」と推測できます。
よくある誤解
- 誤解:平均は「真ん中の人」を表す — 外れ値が少数でも大きいと、平均は簡単に引き上げられます。真ん中の人(順位の中央)を知りたいなら中央値のほうが合っています。年収の例では、5人中4人は平均(1190万円)より大幅に低い年収です。平均は「典型的な人」を表しているわけではありません。
まとめ
中央値は、データを並べたときの順番的な真ん中の値です。最頻値は最も多く出現する値です。
平均・中央値・最頻値は、山が1つの左右対称な分布なら一致しますが、歪んでいるとずれます。
外れ値がある場合や分布が歪んでいる場合は、中央値の方が実態を表すことが多くあります。
平均と中央値の関係を見ることで、分布の歪みを推測できます。