分散と標準偏差

平均からのズレの大きさを考える

難易度 Lv 3 / 10想定時間:約20

できるようになること


期待値が同じでも、ばらつきは違います

同じ「平均の金額」になっていても、結果の出方が違うことがあります。 賞金(円)を確率変数 XXYY で表す2つのゲームを比べます。

ゲームX:サイコロを1回振って、1〜2なら500円、3〜4なら1,000円、5〜6なら1,500円の賞金をもらえる

xx(円)5001,0001,500
P(X=x)P(X=x)1/31/31/3

ゲームY:コインを1回投げて、表なら2,000円の賞金がもらえ、裏なら何ももらえない

yy(円)02,000
P(Y=y)P(Y=y)1/21/2

どちらも期待値(平均)は1,000円になります。

E[X]=500×13+1000×13+1500×13=1000E[X] = 500 \times \dfrac{1}{3} + 1000 \times \dfrac{1}{3} + 1500 \times \dfrac{1}{3} = 1000

E[Y]=0×12+2000×12=1000E[Y] = 0 \times \dfrac{1}{2} + 2000 \times \dfrac{1}{2} = 1000

ゲームXは500円・1,000円・1,500円の三択、ゲームYは0円・2,000円の二択です。 この違いを期待値だけで表すのは難しいです。

そこで「平均からどれくらい離れやすいか」を数値で表す指標として、分散と標準偏差 を導入します。

分散とは何か

分散は、平均(期待値)からのズレの大きさを表す指標です。

ズレを XE[X]X - E[X] で表すと、プラスとマイナスが打ち消し合い、平均すると0になってしまいます。 そこで、ズレを2乗して「大きさ」だけを残します。 その 2乗を、確率で重み付けして平均 したものが分散です。

V[X]=E ⁣[(XE[X])2]V[X] = E\!\left[(X - E[X])^2\right]

V[X]=すべての x(xE[X])2P(X=x)V[X] = \sum_{\text{すべての } x} (x - E[X])^2 \cdot P(X=x)

連続型では和(\sum)が積分(\int)に置き換わりますが、「平均からのズレの2乗を確率(密度)で重み付けして平均する」という考え方は同じです。

分散は V[X]V[X] のほかに σ2\sigma^2(シグマ二乗)と書くこともあります。

分散を計算してみる

ゲームXの分散

E[X]=1000E[X] = 1000 なので、平均からのズレは 500円・0円・500円 になります。

V[X]=(5001000)2×13+(10001000)2×13+(15001000)2×13V[X] = (500-1000)^2 \times \dfrac{1}{3} + (1000-1000)^2 \times \dfrac{1}{3} + (1500-1000)^2 \times \dfrac{1}{3}

=250000×13+0+250000×13=5000003166666.7= 250000 \times \dfrac{1}{3} + 0 + 250000 \times \dfrac{1}{3} = \dfrac{500000}{3} \approx 166666.7

ゲームYの分散

E[Y]=1000E[Y] = 1000 です。平均からのズレは 1000円(0円のとき)と1000円(2000円のとき)になります。

V[Y]=(01000)2×12+(20001000)2×12V[Y] = (0-1000)^2 \times \dfrac{1}{2} + (2000-1000)^2 \times \dfrac{1}{2}

=1000000×12+1000000×12=1000000= 1000000 \times \dfrac{1}{2} + 1000000 \times \dfrac{1}{2} = 1000000

ゲームYの方が分散が大きく、「平均から離れた値が出やすい」ことが数値で確認できます。

標準偏差とは何か

分散はズレを2乗しているため、単位が元の変数と変わります。 賞金が「円」でも、分散の単位は「円²」になります。

そこで、分散の平方根を取り、単位を元に戻したものが標準偏差です。

σ=V[X]\sigma = \sqrt{V[X]}

ゲームXとYの標準偏差は以下のとおりです。

σX=5000003408.2(円)\sigma_X = \sqrt{\dfrac{500000}{3}} \approx 408.2 \text{(円)}

σY=1000000=1000(円)\sigma_Y = \sqrt{1000000} = 1000 \text{(円)}

標準偏差は「平均からのズレの大きさ」を 元の単位(円)で読み取ることができます。 分散の単位は元の単位の2乗になる点に注意してください。

分散の計算に便利な公式

定義 V[X]=E[(XE[X])2]V[X] = E[(X-E[X])^2] のまま計算すると手間がかかることがあります。 次の公式を使うと計算が単純になる場合があります。

V[X]=E[X2](E[X])2V[X] = E[X^2] - (E[X])^2

導出は次のとおりです。

V[X]=E ⁣[(XE[X])2]=E ⁣[X22XE[X]+(E[X])2]V[X] = E\!\left[(X-E[X])^2\right] = E\!\left[X^2 - 2X \cdot E[X] + (E[X])^2\right]

=E[X2]2E[X]E[X]+(E[X])2=E[X2](E[X])2= E[X^2] - 2E[X] \cdot E[X] + (E[X])^2 = E[X^2] - (E[X])^2

分散の性質(よく使う2つ)

1. 定数倍と平行移動

aabb を定数とすると、分散は次のように変化します。 +b+b(平行移動)はばらつきに影響しませんaa 倍すると、ばらつきは a2a^2 倍になります

V[aX+b]=a2V[X]V[aX + b] = a^2 V[X]

例として、V[X]166666.7V[X] \approx 166666.7 なら、V[2X+1]4×166666.7666666.8V[2X+1] \approx 4 \times 166666.7 \approx 666666.8 になります。

2. 和の分散(独立な場合)

確率変数 XXYY が独立のとき、和の分散は足し算になります。

V[X+Y]=V[X]+V[Y](X と Y が独立のとき)V[X + Y] = V[X] + V[Y] \qquad (X \text{ と } Y \text{ が独立のとき})

注意

独立でない場合は、この式だけでは決まりません(共分散が関係します)。独立が条件になる点を押さえておくと混同しにくいです。

まとめ

分散 V[X]=E[(XE[X])2]V[X] = E[(X-E[X])^2] は、平均(期待値)からのズレの大きさを表します。 標準偏差 σ=V[X]\sigma = \sqrt{V[X]} は分散の平方根で、元の単位のまま解釈できます。

計算では V[X]=E[X2](E[X])2V[X] = E[X^2] - (E[X])^2 が便利な場合があります。

性質を使うときは適用条件を確認してください。