平均とは何か

「中心」を表す最も代表的な指標を正しく理解する

難易度 Lv 2 / 10想定時間:約15

できるようになること


平均では分からないこと

「平均年収500万円」と聞いて、年収の分布をどのように想像しますか。

全員が450〜550万円の社会でしょうか。それとも、200万円の人が大半で、一部の高所得者が平均を引き上げている社会でしょうか。

平均だけでは、分布の形が見えません。

この単元では、平均が教えてくれることと、教えてくれないことを整理します。


平均とは何か

nn個のデータx1,x2,,xnx_1, x_2, \ldots, x_n平均(mean)(算術平均)は、次の式で計算します:

xˉ=x1+x2++xnn=1ni=1nxi\bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} = \frac{1}{n}\sum_{i=1}^{n} x_i

xˉ\bar{x}(エックスバー)と書きます。i=1n\sum_{i=1}^{n}は、iiを1からnnまで変えながら足し合わせることを表します。

平均は、合計を個数で等分した「1個あたり」の値です。結果として、データの中心的な位置を1つの値で表す代表値になります。

:5人のテスト結果が60, 70, 75, 80, 90点のとき

xˉ=60+70+75+80+905=3755=75\bar{x} = \frac{60 + 70 + 75 + 80 + 90}{5} = \frac{375}{5} = 75

期待値との違い

期待値の単元で、期待値とデータの平均の違いに触れました。簡単に振り返ります。

期待値データの平均
対象確率分布(理論)手元のデータ(現実)
計算xP(X=x)\sum x \cdot P(X=x)(離散型の場合)1nxi\frac{1}{n}\sum x_i
意味理論上の平均観測された平均

同じ仕組みで繰り返し観測できる状況では、データ数を増やすほどデータの平均は期待値に近づきやすくなります(大数の法則)。


平均の性質

1. 合計との関係

平均に個数を掛けると、合計に戻ります:

nxˉ=x1+x2++xnn \cdot \bar{x} = x_1 + x_2 + \cdots + x_n

:5人の平均が75点なら、合計は5×75=3755 \times 75 = 375点です。

2. 定数の足し引き

すべてのデータxix_iに定数aaを足した新しいデータをyi=xi+ay_i = x_i + aとすると、その平均yˉ\bar{y}は:

yˉ=1ni=1n(xi+a)=1n(i=1nxi+na)=xˉ+a\bar{y} = \frac{1}{n}\sum_{i=1}^{n} (x_i + a) = \frac{1}{n}\left(\sum_{i=1}^{n} x_i + na\right) = \bar{x} + a

:全員に10点加点すると、平均も10点上がります。

3. 定数倍

すべてのデータxix_iaa倍した新しいデータをzi=axiz_i = a \cdot x_iとすると、その平均zˉ\bar{z}は:

zˉ=1ni=1n(axi)=a1ni=1nxi=axˉ\bar{z} = \frac{1}{n}\sum_{i=1}^{n} (a \cdot x_i) = a \cdot \frac{1}{n}\sum_{i=1}^{n} x_i = a \cdot \bar{x}

4. 偏差の和は0

各データと平均との差を偏差といいます。すべての偏差を足すと必ず0になります:

i=1n(xixˉ)=0\sum_{i=1}^{n} (x_i - \bar{x}) = 0

これは平均が「データの中心」であることを示す重要な性質です。


平均の弱点

平均は便利な代表値ですが、3つの弱点があります。

1. 外れ値の影響を強く受ける

:5人の年収(万円)が200, 220, 250, 280, 5000のとき

xˉ=200+220+250+280+50005=1190万円\bar{x} = \frac{200 + 220 + 250 + 280 + 5000}{5} = 1190 \text{万円}

5000万円という極端な値が平均を大きく増加させています。「1190万円が中心」と言われても、実態とはかけ離れています。

このように、外れ値があると平均は実態を表しにくくなります

2. ばらつきが分からない

冒頭の例のように、同じ平均500万円でも:

では全く違う分布です。平均だけではデータの散らばり具合が見えません

3. 分布の形が分からない

平均は「中心の位置」は教えてくれますが、「分布の形」は教えてくれません。

こうした情報は、平均だけでは分かりません。

平均の弱点を補うために

平均だけでは不十分な場合、他の指標と併用することで実態が見えやすくなります。

状況併用すべき指標理由
外れ値がある中央値外れ値の影響を受けにくい
ばらつきも知りたい分散・標準偏差散らばり具合を数値化
分布が歪んでいる中央値多数派の位置を表す

外れ値を含めて「全体の傾向」を知りたい場合(例:総売上を従業員数で割った平均売上)は、平均が適しています。


よくある誤解

注意
  • 誤解1:平均は「典型的な人」を表す — 外れ値があると、平均は「典型的」な値からずれます。上の年収の例では、5人中4人は平均(1190万円)より大幅に低い年収です。
  • 誤解2:平均が同じなら「だいたい同じ分布」 — 平均が同じでも、ばらつきや形が全く違うことがあります。平均だけで分布を判断することはできません。

まとめ

平均xˉ=1nxi\bar{x} = \frac{1}{n}\sum x_iは、データの中心的な位置を表す代表値です。

合計との関係や、定数の足し引き・定数倍といった性質を持ちます。また、偏差の和が0になることも重要な性質です。

ただし、平均には弱点があります。外れ値の影響を強く受け、ばらつきや分布の形は分かりません。

外れ値がある場合や分布が歪んでいる場合は、平均だけでなく中央値や分散も一緒に見ることが重要です。