条件付き分布と条件付き期待値

片方が分かったとき、もう片方の分布と平均はどうなるか

難易度 Lv 3 / 10想定時間：約20分

できるようになること

同時確率表から条件付き分布を取り出す操作（1行の取り出し＋正規化）を実行できる
条件付き期待値 $E[Y \mid X = x]$ を計算し、 $x$ ごとの予測として解釈できる
全期待値の法則を使って、条件付き期待値から全体の期待値を復元できる

重い部品の長さは、やっぱり長いのか

「同時分布と周辺分布」の単元で、2つの確率変数をセットで見ることの重要性を学びました。周辺分布では片方を「無視」しましたが、今度は逆に、片方が分かったときもう片方がどうなるかを考えます。

品質検査で部品の重さと長さを測定しているとします。「重い部品は長さも長い傾向があるのか？」を知りたいとき、必要なのは重さが「重」と分かったうえでの長さの分布です。

これを条件付き分布（conditional distribution）と呼びます。

条件付き分布の定義

「条件付き確率の意味」の単元で学んだ条件付き確率の式を思い出してください。

$P(Y = y \mid X = x) = \dfrac{P(X = x, Y = y)}{P(X = x)} \quad (\text{ただし } P(X = x) > 0)$

この式は、 $X = x$ と分かったときに $Y = y$ となる確率を求めるものでした。 $X$ の値を固定して、 $Y$ がとりうるすべての値についてこの確率を並べたものが条件付き分布です。

同時確率表から条件付き分布を取り出す

ある工場で部品の重さ（ $X$ ）と長さ（ $Y$ ）を3段階で分類した同時確率表を考えます。長さの各カテゴリには測定の代表値として短 $= 95$ mm、標準 $= 100$ mm、長 $= 105$ mm を割り当てています。

	$Y$ = 短 (95mm)	$Y$ = 標準 (100mm)	$Y$ = 長 (105mm)	$P(X = x)$
$X$ = 軽	0.10	0.08	0.02	0.20
$X$ = 標準	0.06	0.40	0.04	0.50
$X$ = 重	0.03	0.12	0.15	0.30
$P(Y = y)$	0.19	0.60	0.21	1.00

「重い部品の長さの分布」、つまり $X$ = 重のときの $Y$ の条件付き分布を求めてみましょう。

操作は2ステップです。

ステップ1：1行を取り出す

$X$ = 重の行だけを抜き出します。

$P(X = \text{重}, Y = \text{短}) = 0.03, \quad P(X = \text{重}, Y = \text{標準}) = 0.12, \quad P(X = \text{重}, Y = \text{長}) = 0.15$

ステップ2：行の合計（周辺確率）で割る（正規化）

$P(X = \text{重}) = 0.30$ で割ります。「重い部品」という条件に世界を絞り込んだため、その世界の中で確率の合計が1（100%）になるようにスケールを合わせ直す操作です。

$P(Y = \text{短} \mid X = \text{重}) = \dfrac{0.03}{0.30} = 0.10$

$P(Y = \text{標準} \mid X = \text{重}) = \dfrac{0.12}{0.30} = 0.40$

$P(Y = \text{長} \mid X = \text{重}) = \dfrac{0.15}{0.30} = 0.50$

合計を確認すると $0.10 + 0.40 + 0.50 = 1.00$ です。きちんと確率分布になっています。

条件付き分布の比較

同じ操作を3つの重さカテゴリすべてに行うと、次の表が得られます。

$X$ の値	$P(Y=\text{短} \mid X=x)$	$P(Y=\text{標準} \mid X=x)$	$P(Y=\text{長} \mid X=x)$
$X$ = 軽	0.50	0.40	0.10
$X$ = 標準	0.12	0.80	0.08
$X$ = 重	0.10	0.40	0.50

表を比べると、重さによって長さの分布が大きく変わることが読み取れます。

軽い部品：長さが「短い」方に50%偏っています。
標準の部品：長さも「標準」に80%が集中しています。
重い部品：長さが「長い」方に50%偏っています。

もし $X$ と $Y$ が独立であれば、どの行も同じ分布（周辺分布 $P(Y = y)$ と一致）になるはずです。条件付き分布が行ごとに異なるということは、 $X$ と $Y$ が独立でないことの直接的な証拠です。

条件付き期待値

条件付き分布は、それ自体が1つの確率分布です。したがって、通常の期待値と同じように「値 × 確率」の和で平均を計算できます。この「 $X$ が決まったときの $Y$ の平均」を条件付き期待値（conditional expectation）と呼びます。

先ほどの代表値（短 $= 95$ mm、標準 $= 100$ mm、長 $= 105$ mm）を使って、各重さカテゴリでの長さの期待値を求めます。

$E[Y \mid X = \text{軽}] = 95 \times 0.50 + 100 \times 0.40 + 105 \times 0.10 = 98.0 \text{ mm}$

$E[Y \mid X = \text{標準}] = 95 \times 0.12 + 100 \times 0.80 + 105 \times 0.08 = 99.8 \text{ mm}$

$E[Y \mid X = \text{重}] = 95 \times 0.10 + 100 \times 0.40 + 105 \times 0.50 = 102.0 \text{ mm}$

軽い部品は平均98.0 mm、標準は99.8 mm、重い部品は102.0 mm です。重さが増すほど長さの平均も大きくなることが数値で確認できます。

ポイント

$E[Y \mid X = x]$ は $x$ の値ごとに異なる数値を返します。つまり、 $E[Y \mid X]$ は** $X$ の関数であり、1つの数値ではありません。「 $X$ が分かったときの $Y$ の予測ルール」と考えるとイメージしやすいでしょう。さらに、 $X$ は確率変数なので、 $X$ の関数である $E[Y \mid X]$ もまた確率変数**です。この性質が、次に紹介する全期待値の法則の土台になります。

全期待値の法則

条件付き期待値を使って、 $Y$ 全体の期待値 $E[Y]$ を求めることもできます。

$E[Y \mid X = x]$ を各 $x$ の確率で加重平均すると、 $E[Y]$ になります。

$E[Y] = \sum_x E[Y \mid X = x] \cdot P(X = x)$

先ほどの例で確認しましょう。

$E[Y] = 98.0 \times 0.20 + 99.8 \times 0.50 + 102.0 \times 0.30 = 19.6 + 49.9 + 30.6 = 100.1 \text{ mm}$

周辺分布から直接計算しても、

$E[Y] = 95 \times 0.19 + 100 \times 0.60 + 105 \times 0.21 = 18.05 + 60.0 + 22.05 = 100.1 \text{ mm}$

と一致します。この関係を全期待値の法則（law of total expectation）と呼びます。

$E[Y] = E[E[Y \mid X]]$

と書くこともあります。内側の $E$ は「 $X$ が決まったときの $Y$ の期待値」、外側の $E$ は「その結果を $X$ について期待値を取る」という二段階の操作です。 $E[Y \mid X]$ が確率変数だからこそ、外側で期待値を計算できるのです。

ヒント

全期待値の法則は、グループ別の平均から全体の平均を求めるときにも使えます。例えば、部門ごとの平均給与と部門の人数比が分かれば、全社の平均給与が計算できます。条件付き期待値は「部分→全体」の橋渡しをする道具です。

連続型への拡張

離散型の条件付き分布と条件付き期待値は、連続型にも自然に拡張できます。

操作	離散型	連続型
条件付き分布	$P(Y = y \mid X = x) = \dfrac{P(X=x,Y=y)}{P(X=x)}$	$f_{Y \mid X}(y \mid x) = \dfrac{f_{X,Y}(x, y)}{f_X(x)}$ 　（ $f_X(x) > 0$ ）
条件付き期待値	$E[Y \mid X=x] = \sum_y y \cdot P(Y=y \mid X=x)$	$E[Y \mid X=x] = \int_{-\infty}^{\infty} y \cdot f_{Y \mid X}(y \mid x)\,dy$
全期待値の法則	$E[Y] = \sum_x E[Y \mid X=x] \cdot P(X=x)$	$E[Y] = \int_{-\infty}^{\infty} E[Y \mid X=x] \cdot f_X(x)\,dx$

連続型では、離散型の確率 $P$ が密度関数 $f$ に、足し上げ（ $\sum$ ）が積分（ $\int$ ）に置き換わります。添字 $f_{X,Y}$ は同時密度関数、 $f_X$ は $X$ の周辺密度関数、 $f_{Y \mid X}$ は条件付き密度関数を表します。

よくある誤解

注意

「 $E[Y \mid X = x]$ は $E[Y]$ と同じ」 — これは $X$ と $Y$ が独立なときに限り正しいです。独立なら条件づけても分布が変わらないので $E[Y \mid X = x] = E[Y]$ が成り立ちますが、独立でない場合は $x$ の値によって条件付き期待値が変わります。先ほどの例では、 $E[Y \mid X = \text{重}] = 102.0$ ですが $E[Y] = 100.1$ であり、一致していません。

注意

「 $E[Y \mid X]$ は1つの数値である」 — $E[Y \mid X = x]$ は $x$ を具体的に与えれば1つの数値になりますが、 $x$ を固定せず $E[Y \mid X]$ と書いた場合、これは $X$ の値に応じて変化する確率変数です。全期待値の法則 $E[Y] = E[E[Y \mid X]]$ の外側の期待値が意味を持つのは、 $E[Y \mid X]$ が確率変数だからです。

まとめ

条件付き分布は、 $X$ の値が分かったときの $Y$ の確率分布です。同時確率表から「1行を取り出し」「 $P(X = x)$ で割る（正規化する）」ことで得られます。

条件付き期待値 $E[Y \mid X = x]$ は、条件付き分布のもとでの $Y$ の加重平均です。 $x$ の値に応じて変わる関数（さらには確率変数）であり、「 $X$ が分かったときの $Y$ の予測ルール」として使えます。

条件付き期待値を $X$ の確率で加重平均すると $Y$ 全体の期待値に一致します。これが全期待値の法則 $E[Y] = E[E[Y \mid X]]$ であり、部分的な予測から全体を復元する道具です。