共分散
2つの変数の関係の「向き」を数値にする
できるようになること
- 共分散の定義と、偏差の積がなぜ関係を測れるのかを説明できる
- 共分散の符号(正・負・ゼロ付近)から関係の向きを判断できる
- 共分散がスケール(単位)に依存するという限界を理解している
「関係がありそう」を数値にしたい
散布図を見れば、2つの変数に「関係がありそうだ」とは分かります。
しかし、何かを判断しないといけない場面では「関係がありそうに見えます」では不十分です。「どれくらい関係があるの?」「AとBの関係と、CとDの関係と、どちらが強いの?」という問いに、散布図だけでは答えられません。
関係の向き(正・負)を数値で確認する方法が必要です。
分散のアイデアを2変数に拡張する
分散は「平均からのずれの二乗の平均」で、1つの変数のばらつきを測りました。
は各データの平均からのずれ、つまり偏差です。偏差を二乗して平均をとると、ばらつきの大きさが1つの数値になりました。
では、2つの変数 と が「一緒にずれる度合い」はどう測れるでしょうか。
分散では の偏差を2回掛けていました()。ここで、片方を の偏差に置き換えたものを考えます。
これが共分散(covariance)です。分散は共分散において2つの変数が同一である場合の特殊ケースであり、分散と共分散は共通の数理的構造を持つ指標です。
ここでは手元のデータの特徴を記述するため、データ数 で割る定義を使用しています。実務では、標本から母集団を推定する目的で で割ることがあります(推測統計の単元で扱います)。
偏差の積はなぜ関係を測れるのか
共分散の中身は、 の偏差と の偏差の積を平均したものです。なぜ偏差の積が「関係」を測れるのでしょうか。
各データ点について、 が平均より大きいか小さいか、 が平均より大きいか小さいかで、偏差の積の符号が決まります。
- が平均より大きく、 も平均より大きい → 正 × 正 = 正
- が平均より小さく、 も平均より小さい → 負 × 負 = 正
- が平均より大きく、 が平均より小さい → 正 × 負 = 負
- が平均より小さく、 が平均より大きい → 負 × 正 = 負
と が同じ方向にずれるデータが多ければ、正の積が多くなり、共分散は正になります。逆の方向にずれるデータが多ければ、負の積が多くなり、共分散は負になります。
| 共分散の符号 | 意味 |
|---|---|
| が大きいとき も大きい傾向(正の関係) | |
| が大きいとき は小さい傾向(負の関係) | |
| と に直線的な関係が見えない |
でも、曲線的な関係(例:U字型)が存在する場合があります。共分散が測るのはあくまで「直線的な関係」です。
計算例
5人の身長と体重のデータで共分散を計算してみましょう。
| 人 | 身長(cm) | 体重(kg) |
|---|---|---|
| A | 160 | 55 |
| B | 165 | 58 |
| C | 170 | 64 |
| D | 175 | 68 |
| E | 180 | 72 |
平均:(cm)、(kg)
各偏差の積を求めます:
| 人 | |||
|---|---|---|---|
| A | |||
| B | |||
| C | |||
| D | |||
| E |
すべての偏差の積が正(または0)です。身長が平均より高い人は体重も平均より重く、身長が平均より低い人は体重も平均より軽い。 と が同じ方向にずれています。
共分散が正なので、身長と体重には正の関係があることが数値で確認できます。
このデータは計算の仕組みを理解するために簡略化した数値です。実際の人間集団ではもっとばらつきが大きく、偏差の積が負になるデータ(身長は高いが体重は軽いなど)も混じります。
確率変数の共分散
ここまではデータ(観測値)の共分散を扱いました。確率変数にも共分散が定義されます。
| 確率変数(理論) | データ(観測) | |
|---|---|---|
| 共分散 |
データの場合は「偏差の積の平均」、確率変数の場合は「偏差の積の期待値」で、アイデアは同じです。
確率変数の分散と標準偏差の単元で、「 と が独立なら 」という性質がありました。 と が独立でない場合、和の分散には共分散が関わります:
と が独立なら になるため、 に戻ります。つまり、「独立なら和の分散はそれぞれの分散の和」という性質は、共分散がゼロの特殊ケースだったのです。
と が独立であれば共分散は必ず0になりますが、逆は成り立ちません。共分散が0であっても独立であるとは限らないのです。共分散はあくまで「直線的な関係」を測る指標であるため、非線形な依存関係があっても共分散はゼロになりえます。
共分散の限界
共分散の符号は関係の「向き」を教えてくれますが、関係の「強さ」は比較できません。
なぜなら、共分散は変数のスケール(単位)に依存するからです。
例えば、身長の単位を cm から m に変えるだけで共分散の値は変わります。 cm → m に変換すると、偏差も100分の1になるため、共分散も100分の1になります。
同じデータ、同じ関係なのに、値が44.0と0.44では強さを比較できません。
また、異なる変数の組み合わせ同士の比較もできません。「身長と体重の共分散は44.0」「広告費と売上の共分散は500万」と言われても、どちらの関係が強いかは分かりません。単位も桁も全く異なるためです。
単位に依存しない指標が必要です。この問題を解決するのが、別の単元で学ぶ相関係数です。
まとめ
共分散は、2つの変数の偏差の積を平均したもので、関係の「向き」を数値で表します。
分散は共分散において2つの変数が同一である場合の特殊ケースであり、分散の自然な拡張として理解できます。
共分散が正なら と は同じ方向に動く傾向があり、負なら逆方向に動く傾向があります。ただし、スケール(単位)に依存するため、関係の「強さ」を比較するには使えません。この限界を克服する方法については、相関係数の単元で詳しく学びます。