擬相関と偏相関

見かけの相関を見抜き、第3の変数を制御する

難易度 Lv 3 / 10想定時間:約20

できるようになること


アイスクリームと水難事故

アイスクリームの売上と水難事故の件数を月別に調べると、相関係数は r=0.90r = 0.90 を超えるほど強い正の相関があります。

では、アイスの販売を禁止すれば水難事故は減るでしょうか?

実際にはそうなりません。両方に影響を与えている第3の変数があるからです。それは気温です。

アイスと水難事故は直接の関係がないのに、気温を介して見かけ上の強い相関が生じています。このような相関を擬相関(spurious correlation)といい、背後にある第3の変数を交絡変数(confounding variable)と呼びます。


擬相関のメカニズム

擬相関は、2変数 XX, YY の間に直接の関係がなくても、両方に影響する変数 ZZ(交絡変数)が存在するときに生じます。この関係を矢印で表すと次のようになります(矢印は影響の方向を示します)。

XZYX \leftarrow Z \rightarrow Y

この構造では、XXYY の相関係数 rXYr_{XY}ZZ の影響を反映した「見かけの値」になります。

注意

相関係数が高いからといって因果関係があるとは限りません。単なる相関は「2変数が一緒に動く」ことを示すだけであり、擬相関の可能性を常に疑う必要があります。

擬相関が起きやすい典型的な例をいくつか挙げます。

XX(変数1)YY(変数2)ZZ(交絡変数)
消防車の出動台数火災の被害額火災の規模
靴のサイズ語彙力テストの点数年齢
チョコレート消費量ノーベル賞受賞者数国の経済力

偏相関係数

擬相関を見抜くために、第3の変数 ZZ の影響を除去したうえで XXYY の関係を測る指標が偏相関係数(partial correlation coefficient)です。

ZZ を固定したときの XXYY の偏相関係数 rXYZr_{XY \cdot Z} は、次の式で計算します。

rXYZ=rXYrXZrYZ1rXZ21rYZ2r_{XY \cdot Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{1 - r_{XZ}^2} \cdot \sqrt{1 - r_{YZ}^2}}

ただし、rXZ21r_{XZ}^2 \neq 1 かつ rYZ21r_{YZ}^2 \neq 1 である必要があります(XX または YYZZ と完全に線形従属の場合は計算できません)。


計算例

アイスクリームの売上 XX、水難事故の件数 YY、気温 ZZ の相関係数が次の値だったとします(以下、小数第4位まで計算します)。

相関係数
rXYr_{XY}(アイス↔水難事故)0.85
rXZr_{XZ}(アイス↔気温)0.95
rYZr_{YZ}(水難事故↔気温)0.90

偏相関係数を計算します。

rXYZ=0.850.95×0.9010.952×10.902r_{XY \cdot Z} = \frac{0.85 - 0.95 \times 0.90}{\sqrt{1 - 0.95^2} \times \sqrt{1 - 0.90^2}}

分子:0.850.855=0.0050.85 - 0.855 = -0.005

分母:10.9025×10.81=0.0975×0.19\sqrt{1 - 0.9025} \times \sqrt{1 - 0.81} = \sqrt{0.0975} \times \sqrt{0.19}

=0.3122×0.4359=0.1361= 0.3122 \times 0.4359 = 0.1361

rXYZ=0.0050.1361=0.037r_{XY \cdot Z} = \frac{-0.005}{0.1361} = -0.037

元の相関係数 rXY=0.85r_{XY} = 0.85 に対して、気温の影響を除くと rXYZ0.04r_{XY \cdot Z} \approx -0.04 とほぼ0になりました。これは、アイスと水難事故の相関がほぼすべて気温を介したものであり、気温を固定すると両者の間に線形関係がほとんど残らないことを示しています。

補足

偏相関係数が0に近ければ、元の相関の多くが ZZ を介したものだったと判断できます。偏相関がまだ大きければ、ZZ を統制しても XXYY の間に直接的な線形関係が残っている可能性があります。


偏相関と重回帰の関係

偏相関係数は、重回帰分析と深く結びついています。

「重回帰モデルの基礎」で学んだ偏回帰係数 bjb_j は、「他の変数を固定したときの xjx_j の効果」を表していました。偏相関係数も同じ考え方で、「ZZ を固定したときの XXYY の相関」を表します。

具体的には、次の手順で偏相関係数を求めることもできます。

  1. XX を目的変数、ZZ を説明変数とする単回帰式 X^=α1+β1Z\hat{X} = \alpha_1 + \beta_1 Z を求め、残差 eX=XX^e_X = X - \hat{X} を計算する
  2. YY を目的変数、ZZ を説明変数とする単回帰式 Y^=α2+β2Z\hat{Y} = \alpha_2 + \beta_2 Z を求め、残差 eY=YY^e_Y = Y - \hat{Y} を計算する
  3. eXe_XeYe_Y のピアソンの積率相関係数を求める

この値が偏相関係数 rXYZr_{XY \cdot Z} と数学的に一致します。残差は「ZZ では説明できなかった部分」なので、ZZ の影響を統計的に除去したうえでの XXYY の線形関係を捉えています。


偏相関の活用場面

偏相関係数が有用な場面をまとめます。

擬相関の検出

2変数に強い相関があるとき、交絡が疑われる第3の変数を特定し、偏相関を計算します。偏相関が大幅に低下すれば、元の相関の多くは交絡によるものだったと判断できます。

変数の独自の寄与の確認

重回帰で説明変数を追加する際、他の変数で説明済みの部分を除いた「独自の関係」を偏相関で確認できます。偏相関が小さい変数を追加しても、モデルの改善はわずかです。

研究報告での標準的な手法

心理学や社会科学の研究では、年齢・性別などの統制変数の影響を除いたうえで変数間の関係を報告することが多く、偏相関は頻繁に用いられます。


よくある誤解

「相関が高ければ因果関係がある」

相関係数は2変数の線形関係の強さを測るだけで、因果の方向はわかりません。XYX \to YYXY \to XZXZ \to X かつ ZYZ \to Y(擬相関)のいずれも同じ相関を生みます。因果関係の検証には、実験や他の手法が必要です。

「偏相関が低ければ変数は無関係」

偏相関が低いのは「ZZ を固定した場合に線形関係が弱い」ということです。たとえば XXYY の間にU字型の関係がある場合、偏相関は低くても変数間に意味のある関係が存在します。また、ZZ 以外の交絡変数がある場合には、偏相関だけでは判断できません。

「交絡変数を1つ制御すれば十分」

実際の現象では、複数の変数が同時に影響を及ぼしています。1つの変数で偏相関を計算しても、他の交絡が残っている可能性があります。複数の変数を同時に制御するには、重回帰分析を使います。


まとめ

2変数 XX, YY の間に直接の関係がなくても、両方に影響する第3の変数 ZZ(交絡変数)が存在すると、見かけ上の強い相関が生じます。これが擬相関です。

擬相関を見抜くための指標が偏相関係数 rXYZr_{XY \cdot Z} です。偏相関係数は ZZ の影響を統計的に除去したうえでの XXYY の線形関係を測り、rXYZ=rXYrXZrYZ1rXZ21rYZ2r_{XY \cdot Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{1 - r_{XZ}^2} \cdot \sqrt{1 - r_{YZ}^2}} で計算されます。この値は、XXYY それぞれを ZZ で回帰した残差の相関に数学的に一致します。

偏相関は、擬相関の検出、変数の独自の寄与の確認、研究報告での統制変数の処理など、幅広い場面で活用されます。ただし、相関が高いだけでは因果関係は言えず、常に交絡の可能性を検討することが重要です。

ヒント

この単元では1つの変数を制御する偏相関を扱いました。複数の変数を同時に制御して効果を見るには、「重回帰モデルの基礎」で学んだ偏回帰係数を用います。