ガンマ分布

複数の事象が起きるまでの待ち時間を扱う

難易度 Lv 4 / 10想定時間:約25

できるようになること


通話1件分から合計時間へ

指数分布では「次の1件の電話がかかってくるまでの待ち時間」を扱いました。

ここでは問いを広げます。「α\alpha 件分の電話の合計通話時間はどのような分布になるか」です。

たとえばコールセンターで、1件あたりの通話時間が平均5分(λ=0.2\lambda = 0.2/分)の指数分布に従うとき、3件分の合計通話時間はどう分布するでしょうか。平均15分の前後に散らばりますが、その確率的な振る舞いを記述するのがガンマ分布(gamma distribution)です。

ガンマ分布とは何か

確率変数 XX がガンマ分布に従うとき、次のように書きます。

XGamma(α,λ)X \sim \mathrm{Gamma}(\alpha, \lambda)

ここで、

XX は非負の実数値をとります(X0X \geq 0)。

注意

ガンマ分布のパラメータ表記は文献によって異なります。Gamma(α,λ)\mathrm{Gamma}(\alpha, \lambda)(率パラメータ)と書く流儀と、Gamma(α,θ)\mathrm{Gamma}(\alpha, \theta)θ=1/λ\theta = 1/\lambda で尺度パラメータ)と書く流儀があります。本単元では指数分布と揃えて率パラメータ λ\lambda を使います。

指数分布との関係

ガンマ分布は指数分布を一般化したものです。

つまり α=1\alpha = 1 のとき、ガンマ分布は指数分布と一致します。

指数分布の和としての解釈

α\alpha が正の整数のとき、ガンマ分布は独立な指数分布 α\alpha 個の和として解釈できます。

X=Y1+Y2++Yα(YiExp(λ))X = Y_1 + Y_2 + \cdots + Y_\alpha \qquad (Y_i \sim \mathrm{Exp}(\lambda))

この見方は、幾何分布と負の二項分布の関係(離散版)と同じ構造です。

補足

α\alpha が正の整数のとき、ガンマ分布は特にアーラン分布(Erlang distribution)と呼ばれます。ガンマ分布はこれをさらに一般化し、α\alpha が正の実数でも定義されます。

ガンマ分布が成り立つための前提

ガンマ分布の前提は、基本的に指数分布と同じです。

前提意味コールセンターの例
1. 事象が独立に発生1件の電話が他の電話に影響しない前の通話が長くても次に影響しない
2. 発生率が一定単位時間あたりの発生率 λ\lambda が変わらない時間帯によらず通話ペースが一定
3. 非負の連続値時間や量など、0以上の連続値を扱う通話時間は0分以上

前提が怪しいときの確認ポイント

前提1:事象が独立に発生しているか

ある電話が終わった直後に関連する問い合わせが来るといった依存関係がある場合、独立の前提が崩れます。

前提2:発生率 λ\lambda は一定か

α\alpha 件分の合計を考えるため、観測する期間全体にわたって λ\lambda が一定であることが求められます。朝と夕方で通話ペースが変わる場合などは注意が必要です。

確率密度関数

ガンマ分布の確率密度関数は次の式で表されます(x0x \geq 0)。

f(x)=λαΓ(α)xα1eλxf(x) = \frac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha - 1} e^{-\lambda x}

ここで Γ(α)\Gamma(\alpha)ガンマ関数です。

Γ(α)=0tα1etdt\Gamma(\alpha) = \int_0^{\infty} t^{\alpha - 1} e^{-t} \, dt

実際の計算では統計ソフトや数表が値を与えてくれるため、この積分を手計算する必要はありません。

ガンマ関数は階乗の一般化で、α\alpha が正の整数のとき Γ(α)=(α1)!\Gamma(\alpha) = (\alpha - 1)! が成り立ちます。

密度関数の各項の意味

α=1\alpha = 1 のとき

Γ(1)=0!=1\Gamma(1) = 0! = 1 なので、

f(x)=λ11x0eλx=λeλxf(x) = \frac{\lambda^1}{1} x^{0} e^{-\lambda x} = \lambda e^{-\lambda x}

これは指数分布の密度関数と一致します。

分布の形

ガンマ分布の形は α\alpha の値によって大きく変わります。

ガンマ分布の確率密度関数:α による形の変化(λ=1 固定)

λ\lambda を変えると、分布の「スケール」が変わります。λ\lambda が大きいほど分布が左に凝縮し、λ\lambda が小さいほど右に広がります。

ガンマ分布の確率密度関数:λ による形の変化(α=3 固定)

α\alpha が十分大きいとき、ガンマ分布の形は正規分布に近づきます。

期待値と分散

XGamma(α,λ)X \sim \mathrm{Gamma}(\alpha, \lambda) のとき、

指数分布の和からの導出

α\alpha が正の整数のとき、ガンマ分布は独立な指数分布 α\alpha 個の和です。各 YiExp(λ)Y_i \sim \mathrm{Exp}(\lambda) の期待値と分散は、

期待値の線形性と独立性に基づく分散の加法性より、

E[X]=α1λ=αλE[X] = \alpha \cdot \dfrac{1}{\lambda} = \dfrac{\alpha}{\lambda}

Var(X)=α1λ2=αλ2\mathrm{Var}(X) = \alpha \cdot \dfrac{1}{\lambda^2} = \dfrac{\alpha}{\lambda^2}

:1件あたり平均5分(λ=0.2\lambda = 0.2/分)の通話が3件なら、合計通話時間の期待値は 3/0.2=153 / 0.2 = 15 分、分散は 3/0.04=753 / 0.04 = 75(標準偏差約8.7分)です。15分の平均に対してかなりのばらつきがあることがわかります。

なお、この期待値と分散の公式は α\alpha が整数でない正の実数であってもそのまま成り立ちます。

他の分布との関係

ガンマ分布はいくつかの重要な分布の基盤になっています。

まとめ

ガンマ分布 Gamma(α,λ)\mathrm{Gamma}(\alpha, \lambda) は、発生率 λ\lambda の事象が α\alpha 回起きるまでの時間を表す連続分布です。

f(x)=λαΓ(α)xα1eλxf(x) = \frac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha - 1} e^{-\lambda x}

期待値は αλ\dfrac{\alpha}{\lambda}、分散は αλ2\dfrac{\alpha}{\lambda^2} です。

α=1\alpha = 1 のとき指数分布と一致し、独立な指数分布 α\alpha 個の和として解釈できます。

使う前に 事象の独立性発生率の一定性 を確認してください。