離散分布

取りうる値が「数え上げられる」確率変数を扱う

難易度 Lv 3 / 10想定時間:約20

できるようになること


離散型か、連続型か

次の3つの確率変数は、離散型でしょうか、連続型でしょうか。

1つ目と2つ目は離散型です。どちらも「中間の値」を取りません(1.5人は存在しません)。 3つ目について、身長という量そのものは連続型です。区間の中のどの値も取りうる、と考えます。

ただし、3つ目については何を確率変数としているかで、離散型にも連続型にもなります。 たとえば「1cm単位で記録した身長(170, 171, 172, …)」を確率変数にするなら離散型です。一方で「実際の身長」を確率変数にするなら連続型になります。

実務では、観測できるのは丸め後の記録値であることも多いので、この違いを理解しておくことは重要になります。

この単元では、離散型の判定基準と、離散型の確率分布の表し方を整理します。

離散型確率変数とは何か

確率変数 XX が離散型(discrete)であるとは、XX が取りうる値を x1,x2,x3,x_1, x_2, x_3, \ldots のように「順番に並べて数え上げられる」ということです。

取りうる値の個数は、有限個の場合もあれば、無限個の場合もあります。

可算無限個とは、「無限にあるが、1番目、2番目、3番目…と番号を付けて数え上げられる」個数のことです。 離散型では、取りうる値が点として並び、その間の値(例:1と2の間の1.5)は取りません。

離散型かどうかの判定

離散型かどうかを判定するときは、次の2点を順に確認します。

1. その量は「中間の値」を取りうるか

2. 何を確率変数としているか(実際の値か、記録された値か)

離散型の確率分布:確率質量関数

離散型の確率分布を表す代表的な方法が、確率質量関数です。 p(x)p(x) で表し、次で定義します。

p(x)=P(X=x)p(x) = P(X = x)

ここで大事なのは、離散型では確率が「区間」ではなく「点(特定の値)」に割り当てられる、という点です。

例として、サイコロを1回振って出た目を XX とします。このときの p(x)p(x) は次のとおりです。

xx123456
p(x)p(x)1/61/61/61/61/61/6

確率質量関数の性質

確率質量関数は、必ず次の2つの性質を満たします。

1. すべての値で0以上

p(x)0p(x) \geq 0

サイコロの例では、次のように確認できます。

p(x)=160(x=1,2,3,4,5,6)p(x) = \dfrac{1}{6} \geq 0 \quad (x = 1, 2, 3, 4, 5, 6)

2. 取りうる値について足し合わせると1

取りうるすべての xp(x)=1\sum_{\text{取りうるすべての } x} p(x) = 1

サイコロの例では、次のように確認できます。

x=16p(x)=16+16++16=1\sum_{x=1}^{6} p(x) = \dfrac{1}{6} + \dfrac{1}{6} + \cdots + \dfrac{1}{6} = 1

確率質量関数と分布関数の関係

分布関数は F(x)=P(Xx)F(x) = P(X \leq x) で定義されます。 離散型では、xx 以下の点の確率を足し合わせることで F(x)F(x) を作れます。

F(x)=txp(t)F(x) = \sum_{t \leq x} p(t)

サイコロの例で F(3)F(3) を求めると、

F(3)=p(1)+p(2)+p(3)=16+16+16=36F(3) = p(1) + p(2) + p(3) = \dfrac{1}{6} + \dfrac{1}{6} + \dfrac{1}{6} = \dfrac{3}{6}

分布関数から確率質量関数を求める

XX が整数値を取るタイプなら、次が使えます。

p(k)=F(k)F(k1)p(k) = F(k) - F(k-1)

サイコロなら、p(3)=F(3)F(2)p(3) = F(3) - F(2) です。

p(3)=3626=16p(3) = \dfrac{3}{6} - \dfrac{2}{6} = \dfrac{1}{6}

また、取りうる値が x1<x2<x3<x_1 < x_2 < x_3 < \cdots のように並べられる場合は、「直前の値までの累積」を引いて求めます。

p(xi)=F(xi)F(xi1)(i2),p(x1)=F(x1)p(x_i) = F(x_i) - F(x_{i-1}) \quad (i \geq 2), \qquad p(x_1) = F(x_1)

まとめ

離散型確率変数とは、取りうる値を順番に数え上げられる確率変数です。 離散型の確率分布は、確率質量関数 p(x)=P(X=x)p(x) = P(X=x) で表します。

確率質量関数は p(x)0p(x) \geq 0p(x)=1\sum p(x) = 1 を満たします。 分布関数 F(x)=P(Xx)F(x) = P(X \leq x) とは役割が異なります。

離散型では F(x)=txp(t)F(x) = \sum_{t \leq x} p(t) でつながっています。 判定に迷うときは、「中間の値を取るか」「実際の値か記録値か」の2点を順に確認してください。