同時分布と周辺分布

2つの確率変数を「セットで」見て、片方を取り出す

難易度 Lv 3 / 10想定時間：約20分

できるようになること

同時分布を表（同時確率表）で表現し、読み取ることができる
周辺分布を同時分布から取り出す操作（足し上げ）を実行できる
同時分布から独立かどうかを判定できる

部品の重さと長さ、片方だけ見ていませんか

ある工場で部品を生産しています。品質管理では、重さと長さの2つを測定しています。

重さの分布を見れば、重さが基準内かどうかは分かります。長さの分布を見れば、長さが基準内かどうかも分かります。しかし、重さと長さを別々に見ているだけでは、両者がどう連動しているかは分かりません。

材料を多く使った部品は重くて長くなりやすいのか、それとも重さと長さはバラバラに決まるのか——この「関係の情報」は、2つの変数をセットで見る分布にしか含まれていません。

この「2つの確率変数を組にして確率を割り当てたもの」が同時分布（joint distribution）です。

同時分布とは

2つの確率変数 $X$ と $Y$ について、 $(X, Y)$ の値の組み合わせごとに確率を割り当てたものを同時分布といいます。

離散型の場合、各組 $(x, y)$ に対する確率を

$P(X = x, Y = y)$

と書きます。括弧内のカンマは「かつ（AND）」を意味し、「 $X$ が $x$ であり、同時に $Y$ が $y$ である」確率を表します。この関数を同時確率質量関数（joint probability mass function）と呼びます。

同時確率表で全体像を見る

品質検査を簡略化して、部品の重さ $X$ を「軽」「標準」「重」の3段階、長さ $Y$ を「短」「標準」「長」の3段階で分類します。大量の部品を検査した結果、各組み合わせの割合は以下のようになりました。

	$Y$ = 短	$Y$ = 標準	$Y$ = 長
$X$ = 軽	0.05	0.10	0.02
$X$ = 標準	0.08	0.50	0.07
$X$ = 重	0.02	0.12	0.04

この表が同時確率表です。各セルの値は $P(X = x, Y = y)$ を表しています。

例えば「 $X$ = 標準, $Y$ = 標準」のセルが $0.50$ であることは、部品の重さが標準で長さも標準である確率が50%であることを意味します。

同時確率表が満たすべき条件は、確率分布と同じく2つです。

すべてのセルの値が0以上： $P(X = x, Y = y) \geq 0$ （すべての $x, y$ について）
すべてのセルの合計が1：

$\sum_x \sum_y P(X = x, Y = y) = 1$

上の表を確認すると、 $0.05 + 0.10 + 0.02 + 0.08 + 0.50 + 0.07 + 0.02 + 0.12 + 0.04 = 1.00$ なので、確かに合計は1です。

周辺分布：片方の変数を「無視する」

同時分布は2つの変数の全体像です。ここから、片方の変数だけに注目した分布を取り出すことができます。

例えば「重さ $X$ の分布だけ知りたい。長さ $Y$ は気にしない」という場合を考えます。

「 $X$ = 軽」となる確率は、長さ $Y$ がどの値であっても構いません。長さが「短」「標準」「長」のいずれかであるという3つの事象は互いに排反なので、それぞれの確率を足し合わせることができます。

$P(X = \text{軽}) = P(X = \text{軽}, Y = \text{短}) + P(X = \text{軽}, Y = \text{標準}) + P(X = \text{軽}, Y = \text{長}) = 0.05 + 0.10 + 0.02 = 0.17$

同様に、

$P(X = \text{標準}) = 0.08 + 0.50 + 0.07 = 0.65$

$P(X = \text{重}) = 0.02 + 0.12 + 0.04 = 0.18$

このようにして得られた分布を周辺分布（marginal distribution）といいます。 $Y$ についても同じ操作ができます。

	$Y$ = 短	$Y$ = 標準	$Y$ = 長	周辺分布 $P(X = x)$
$X$ = 軽	0.05	0.10	0.02	0.17
$X$ = 標準	0.08	0.50	0.07	0.65
$X$ = 重	0.02	0.12	0.04	0.18
周辺分布 $P(Y = y)$	0.15	0.72	0.13	1.00

表の辺（margin）に足し上げた値を書くことから、「周辺」分布と呼ばれます。

一般に、周辺分布は次の式で定義されます。 $\sum_y$ は「 $Y$ がとりうるすべての値について和をとる」ことを意味します。

$P(X = x) = \sum_y P(X = x, Y = y)$

$P(Y = y) = \sum_x P(X = x, Y = y)$

ここで同時確率表をもう一度見てみましょう。重さが標準な部品は全体の65%、長さが標準な部品は全体の72%です。しかし、両方とも標準である部品は50%しかありません。個別の分布だけを見ていると、良品率を過大評価してしまう可能性があることが分かります。

ポイント

周辺分布は同時分布から常に求められます。しかし逆に、周辺分布から同時分布を復元することは一般にはできません。2つの変数の「関係」の情報は、同時分布にしか含まれていないからです。

独立性の判定

「事象の独立」の単元で学んだように、2つの変数が独立であるとは、一方の情報がもう一方に影響しないことを意味します。言い換えれば、 $X$ の値を知っても $Y$ の予測が変わらない、ということです。

同時分布を使うと、独立かどうかを直接判定できます。 $X$ と $Y$ が独立であるとは、すべての $(x, y)$ の組み合わせについて

$P(X = x, Y = y) = P(X = x) \cdot P(Y = y)$

が成り立つことです。

先ほどの品質検査の例で確認してみましょう。「 $X$ = 軽, $Y$ = 短」の場合、

$P(X = \text{軽}) \times P(Y = \text{短}) = 0.17 \times 0.15 = 0.0255$

しかし同時確率表では $P(X = \text{軽}, Y = \text{短}) = 0.05$ です。 $0.05 \neq 0.0255$ なので、 $X$ と $Y$ は独立ではありません。

これは直感的にも納得できます。材料を多く使えば重くて長くなりやすいなど、製造工程では重さと長さが連動するのは自然です。他のセルについても $P(X = x) \times P(Y = y)$ を計算してみてください。どの組み合わせでも同時確率とのずれが確認できるはずです。

ヒント

独立でないことを示すには「1つでも等式が崩れた組み合わせがあればよい」ので、すべてのセルを確認する必要はありません。ただし独立であることを示すには、すべての組み合わせで等式の成立を確認する必要があります。

連続型の同時分布

ここまでは離散型（値を段階で分類できる場合）でしたが、連続型にも同時分布は拡張できます。

連続型の場合、同時分布は同時確率密度関数（joint probability density function） $f(x, y)$ で表します。離散型と連続型の対応を整理します。

操作	離散型	連続型
同時分布	$P(X = x, Y = y)$	$f(x, y)$
非負の条件	$P(X = x, Y = y) \geq 0$	$f(x, y) \geq 0$
全体の合計 $= 1$	$\sum_x \sum_y P(X = x, Y = y) = 1$	$\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} f(x, y)\,dx\,dy = 1$
$X$ の周辺分布	$\sum_y P(X = x, Y = y)$	$f_X(x) = \int_{-\infty}^{\infty} f(x, y)\,dy$
$Y$ の周辺分布	$\sum_x P(X = x, Y = y)$	$f_Y(y) = \int_{-\infty}^{\infty} f(x, y)\,dx$
独立の条件	$P(X = x, Y = y) = P(X = x) \cdot P(Y = y)$	$f(x, y) = f_X(x) \cdot f_Y(y)$

連続型の周辺分布で使われている $f_X(x)$ や $f_Y(y)$ のように下付き文字をつけるのは、同時密度関数 $f(x,y)$ と区別して「 $X$ 単独の密度関数」であることを明示するためです。

離散型で「足し上げる」操作が、連続型では「積分する」操作に変わるだけで、考え方は同じです。3次元の山（同時密度）を片方の軸方向に押しつぶして（積分して）平面のグラフにする操作が、周辺分布の取り出しに当たります。

品質管理の例でいえば、重さと長さを3段階に分類する代わりに、グラム単位・ミリ単位の実数値のまま扱うのが連続型です。重さが $a$ g 以上 $b$ g 以下で、かつ長さが $c$ mm 以上 $d$ mm 以下となる確率は、

$P(a \leq X \leq b,\; c \leq Y \leq d) = \int_a^b \left( \int_c^d f(x, y)\,dy \right) dx$

と二重積分で計算します。内側の $\int_c^d \dots\, dy$ で $y$ （長さ）について先に計算し、その結果を外側の $\int_a^b \dots\, dx$ で $x$ （重さ）について計算します。

よくある誤解

注意

「周辺分布が分かれば同時分布が分かる」 — これは誤りです。 $P(X = x)$ と $P(Y = y)$ が分かっても、 $P(X = x, Y = y)$ は一意に定まりません。 $X$ と $Y$ が独立なときに限り $P(X = x, Y = y) = P(X = x) \cdot P(Y = y)$ で復元できますが、独立でない場合は復元するための情報が足りません。同時分布は、周辺分布にはない「2変数の関係」を保持しています。

まとめ

同時分布は、2つの確率変数 $X$ と $Y$ を組にして確率を割り当てたものです。離散型では同時確率表、連続型では同時確率密度関数 $f(x, y)$ で表します。

同時分布から片方の変数を足し上げる（連続型では積分する）ことで周辺分布を取り出せます。ただしその逆は一般にできません。同時分布には、周辺分布にはない「2変数の関係」の情報が含まれているからです。独立性の判定は、すべての $(x, y)$ で $P(X = x, Y = y) = P(X = x) \cdot P(Y = y)$ が成り立つかを確認します。