オッズ比と連関指標

クロス表から変数間の関連の強さを数値化するオッズ比と連関係数を学びます。リスク比との違いや、医療・社会科学での応用例を扱います。

難易度 Lv 3 / 10想定時間：約20分

できるようになること

オッズとオッズ比の定義を理解し、2×2表から計算できる
オッズ比がリスク比と異なる場面で必要となる理由を説明できる
ファイ係数とクラメールのVを使い、クロス表の関連の強さを計算・解釈できる

リスク比が計算できない研究がある

ある病気の原因を調べるために、すでに発症した患者200人と、発症していない健常者200人を集めて、過去の喫煙歴を調べたとします。

喫煙歴＼発症	発症あり	発症なし	合計
喫煙あり	180	120	300
喫煙なし	20	80	100
合計	200	200	400

この研究で「喫煙者が発症するリスク（確率）」を計算しようとすると、180 / 300 = 0.60 となります。しかし、この0.60をそのまま発症リスクとして解釈するのは適切ではありません。なぜなら、患者と健常者をあらかじめ200人ずつ集めたからです。列の合計（発症あり = 200、発症なし = 200）は研究者が決めた数であり、現実の集団における発症割合（有病率）を反映していません。

このような研究デザインを**症例対照研究（**case-control study）と呼びます。症例対照研究では、研究者が発症の有無によってグループを作るため、行方向で計算する「喫煙者の発症リスク」は歪んでしまいます。

2つのグループのリスク（確率）の比を**リスク比（**risk ratio）と呼びます。たとえば、喫煙者の発症リスクが0.60、非喫煙者が0.20なら、リスク比は $0.60 / 0.20 = 3.0$ （喫煙者は非喫煙者の3倍発症しやすい）です。しかし症例対照研究では元のリスクが正しくないため、リスク比も正しく計算できません。

ではこのようなデータから、喫煙と発症の関連の強さを測るにはどうすればよいでしょうか。リスク（確率）の代わりに、「起きない場合に対する起きる場合の比」という別の尺度を使えば、この問題を回避できます。それがオッズです。

オッズとは

ある事象が起きる確率と起きない確率の比を考えます。起きる確率を $p$ （ $0 \leq p < 1$ ）とすると、**オッズ（**odds）は次のように定義されます。

$\text{オッズ} = \frac{p}{1 - p}$

オッズは「起きない確率に対する、起きる確率の比」です。

確率 $p$	オッズ $p/(1-p)$	意味
0.50	1.0	起きる／起きないが同じ
0.80	4.0	起きる方が4倍
0.20	0.25	起きない方が4倍

確率が0.5のときオッズは1、確率が高いほどオッズは大きくなり、確率が低いほどオッズは0に近づきます。オッズは0以上の値をとり、上限はありません（ $p = 1$ のとき分母が0になるためオッズは定義できません）。

オッズ比の計算

2×2のクロス表で、2つのグループのオッズを比較したものが**オッズ比（**odds ratio, OR）です。

先ほどの喫煙と発症のデータに戻りましょう。

喫煙歴＼発症	発症あり	発症なし
喫煙あり	$a = 180$	$b = 120$
喫煙なし	$c = 20$	$d = 80$

グループ内での発症確率を $p$ とすると、オッズは $p/(1-p)$ ですが、 $p = a/(a+b)$ を代入すると $\frac{a/(a+b)}{b/(a+b)} = a/b$ となり、分母の合計人数が打ち消されて単純な人数の比になります。

喫煙ありの発症オッズ： $a / b = 180 / 120 = 1.5$

喫煙なしの発症オッズ： $c / d = 20 / 80 = 0.25$

オッズ比はこの2つのオッズの比です。

$OR = \frac{a / b}{c / d} = \frac{ad}{bc} = \frac{180 \times 80}{120 \times 20} = \frac{14400}{2400} = 6.0$

補足

$OR = ad / bc$ という**交差積（**cross-product）の形で覚えると便利です。 $a$ と $d$ はクロス表の対角線上にある値です。

オッズ比の解釈

オッズ比の値は次のように解釈します。

$OR$ の値	意味
$OR = 1$	2つのグループのオッズが等しい（関連なし）
$OR > 1$	第1グループのオッズが大きい（正の関連）
$OR < 1$	第1グループのオッズが小さい（負の関連）

上の例では $OR = 6.0$ なので、喫煙者の発症オッズは非喫煙者の6倍です。

なぜオッズ比が必要か

オッズ比の最大の利点は、研究デザインによらず計算できることです。

症例対照研究では行方向のリスク（発症の確率）が現実の有病率を反映しないため、リスク比は無効です。しかし、オッズ比には対称性という重要な性質があります。行と列を入れ替えても同じ値になるのです。

行方向で計算した場合（喫煙者 vs 非喫煙者の発症オッズ比）：

$OR = \frac{180/120}{20/80} = \frac{1.5}{0.25} = 6.0$

列方向で計算した場合（発症者 vs 非発症者の喫煙オッズ比）：

$OR = \frac{180/20}{120/80} = \frac{9.0}{1.5} = 6.0$

途中式は全く異なりますが、どちらも同じ $ad/bc = 6.0$ になります。リスク比にはこの性質がないため、症例対照研究ではオッズ比が唯一の選択肢になります。

ヒント

発症率が低い病気（まれな疾患）では、オッズ比はリスク比に近い値になります。これを**まれな疾患の仮定（**rare disease assumption）と呼びます。 $p$ が小さいとき $p/(1-p) \approx p$ となるため、オッズ ≈ リスクとなりオッズ比 ≈ リスク比が成り立ちます。

オッズ比の利点と弱点

オッズ比には研究デザインに依存しない点のほかにも利点があります。対称性（行と列を入れ替えても同じ値）があること、そして対数をとると $\log(OR)$ が正規分布に近づきやすいため、信頼区間の構成やメタ分析で扱いやすいことです。

一方で弱点もあります。最も大きいのは、直感的にわかりにくいことです。リスク比が「A群はB群の何倍発症しやすい」と読めるのに対し、オッズ比の「オッズが何倍」は一般の人に伝わりにくい面があります。また、発症率が高い場合はリスク比と乖離します。たとえば $OR = 6.0$ でも実際のリスク比はそれより小さいことがあり、リスクを過大に見積もる恐れがあります。さらに、 $a, b, c, d$ のいずれかが0のセルがあると計算不能になります（実務では0.5を加えるホールデーン補正が使われることがあります）。

クロス表全体の関連の強さ：連関指標

オッズ比は2×2表に特化した指標であり、行や列が3つ以上あるクロス表には対応していません。クロス表全体の関連の強さを0〜1の範囲で表す指標が連関指標です。

ファイ係数（ $\phi$ ）

2×2表専用の指標で、カイ二乗統計量 $\chi^2$ と次の関係があります。

$\phi = \sqrt{\frac{\chi^2}{n}}$

$n$ は総度数です。 $\phi$ は0以上1以下の値をとり、0は完全に独立、1は完全な関連を意味します。

先ほどの喫煙データで計算してみましょう。各セルの期待度数は「度数表と2元クロス表」で学んだように $E_{ij} = \text{行}i\text{の合計} \times \text{列}j\text{の合計} \mathbin{/} \text{総度数}$ で求めます。たとえば「喫煙あり × 発症あり」の期待度数は $300 \times 200 / 400 = 150$ です。

$\chi^2 = \frac{(180-150)^2}{150} + \frac{(120-150)^2}{150} + \frac{(20-50)^2}{50} + \frac{(80-50)^2}{50} = 6 + 6 + 18 + 18 = 48$

$\phi = \sqrt{\frac{48}{400}} = \sqrt{0.12} \approx 0.35$

$\phi \approx 0.35$ は中程度の関連を示しています。

クラメールのV

ファイ係数を、行数 $r$ ・列数 $c$ が大きいクロス表にも使えるよう一般化した指標が**クラメールのV（**Cramér's V）です。

$V = \sqrt{\frac{\chi^2}{n \cdot (k - 1)}}$

$k = \min(r, c)$ はクロス表の行数と列数の小さい方です。

2×2表では $k = 2$ なので $k - 1 = 1$ となり、 $V = \phi$ に一致します。行や列が3つ以上のクロス表では、 $k - 1$ で割ることで $V$ の上限が1に収まるよう調整されています。

$V$ の目安	解釈
0.10 未満	ほとんど関連なし
0.10 〜 0.30	弱い関連
0.30 〜 0.50	中程度の関連
0.50 以上	強い関連

ポイント

カイ二乗統計量 $\chi^2$ は標本サイズが大きくなると値が増大するため、関連の「有意性」は示せても「強さ」の比較には使えません。クラメールのVは標本サイズの影響を取り除いた指標であり、異なるデータ間で関連の強さを比較するときに適しています。

まとめ

オッズは確率を $p/(1-p)$ の形で表したもので、オッズ比（ $OR = ad/bc$ ）は2つのグループのオッズを比較する指標です。リスク比が計算できない症例対照研究でも使える点がオッズ比の最大の特長であり、対称性（行と列を入れ替えても同じ値）や対数をとったときの扱いやすさから、疫学や医療統計で広く用いられています。

ただし、オッズ比はリスク比に比べて直感的にわかりにくく、発症率が高い場合にはリスク比と乖離するため解釈に注意が必要です。

クロス表全体の関連の強さを0〜1で測るには、2×2表ではファイ係数（ $\phi = \sqrt{\chi^2/n}$ ）、行や列が3つ以上のクロス表ではクラメールのV（ $V = \sqrt{\chi^2/(n(k-1))}$ ）を使います。カイ二乗統計量は標本サイズの影響を受けるため、関連の有意性と強さは区別して評価することが重要です。

ヒント

オッズ比やクラメールのVは関連の強さを示す指標であり、因果関係を証明するものではありません。因果の判断には、「擬相関と偏相関」で学んだ交絡変数の検討や、研究デザインの吟味が必要です。