度数表と2元クロス表

カテゴリデータの集計と関係の読み取り方

難易度 Lv 2 / 10想定時間:約20

できるようになること


アンケート結果をどう整理するか

あるカフェが来店客100人に「性別」と「好きなドリンク(コーヒー・紅茶・ジュース)」を聞いたとします。

生データには「男性・コーヒー」「女性・紅茶」「男性・ジュース」…と100件の回答が並びます。しかし、そのまま眺めても性別とドリンクの好みに関係があるかはわかりません。

カテゴリ(質的)データを整理して関係を見るには、回答を数え上げて表にまとめる必要があります。それが度数表クロス表です。


度数表:まず1変数を整理する

まず、1つの変数だけを整理する場合を考えます。「好きなドリンク」の回答を数えた結果が次の表です。

ドリンク人数(度数)相対度数
コーヒー450.45
紅茶350.35
ジュース200.20
合計1001.00

度数表は、1変数のカテゴリ分布を把握するための最も基本的な集計方法です。


2元クロス表

2つのカテゴリ変数の関係を見るには、2元クロス表(two-way cross tabulation)を使います。行に一方の変数、列にもう一方の変数を配置し、各セルに同時度数を記入します。

性別 × ドリンクのクロス表を見てみましょう。

性別\ドリンクコーヒー紅茶ジュース行合計
男性30101050
女性15251050
列合計453520100

クロス表の用語

補足

行合計と列合計をそれぞれ「行の周辺分布」「列の周辺分布」と呼びます。これらは、もう一方の変数を無視して集計した度数表に相当します。


比率の読み方

クロス表の度数をそのまま比較するだけでは不十分なことがあります。今回はたまたま男女が同数(50人ずつ)ですが、一般にはグループ間で合計人数が異なります。そのため、比率に変換してから比較する習慣を身につけましょう。

比率には3つの種類があります。まず、各セルの度数を総度数で割った全体比率(同時相対度数)を見てみましょう。

性別\ドリンクコーヒー紅茶ジュース行合計
男性30/100 = 0.3010/100 = 0.1010/100 = 0.100.50
女性15/100 = 0.1525/100 = 0.2510/100 = 0.100.50
列合計0.450.350.201.00

これは「全体100人のうち何%か」を示す表です。たとえば「男性かつコーヒー」は全体の30%を占めます。全体比率は各セルの相対的な大きさを示しますが、行や列ごとの分布の違いを比較するには、次に紹介する行比率・列比率のほうが適しています。

行比率(行パーセント)

各行の合計を分母にした割合です。「性別ごとのドリンク選択の分布」を見るときに使います。

性別\ドリンクコーヒー紅茶ジュース合計
男性30/50 = 0.6010/50 = 0.2010/50 = 0.201.00
女性15/50 = 0.3025/50 = 0.5010/50 = 0.201.00

男性はコーヒーが60%で最多、女性は紅茶が50%で最多。ジュースは性別で差がなく20%。このように、行比率を比べると性別によるドリンク選択の違いがわかります。

列比率(列パーセント)

各列の合計を分母にした割合です。「ドリンクごとの性別構成」を見るときに使います(※比率は小数第3位を四捨五入しています)。

性別\ドリンクコーヒー紅茶ジュース
男性30/45 = 0.6710/35 = 0.2910/20 = 0.50
女性15/45 = 0.3325/35 = 0.7110/20 = 0.50
合計1.001.001.00

コーヒーを選んだ人のうち67%が男性、紅茶を選んだ人のうち71%が女性。どの比率を使うかは、何を知りたいかによって決まります

ポイント

行比率と列比率は異なる問いに答えます。「男性はどのドリンクを好むか」(行比率)と「コーヒーを好む人はどの性別が多いか」(列比率)は異なる問いです。分析の目的に合わせて選びましょう。


2変数は独立か?

クロス表を作ったとき、まず確認したいのは「2つの変数に関係があるか」です。この問いを統計的に言い換えると、「2変数は独立か」という問いになります。

もし性別とドリンクの好みが独立(無関係)であれば、男性のドリンク選択比と女性のドリンク選択比は同じはずです。つまり、行比率がすべての行で等しければ、2変数は独立です。

独立を確率の言葉で表すと、P(AB)=P(A)P(B)P(A \cap B) = P(A) \cdot P(B) です。この仮定のもとで、行 ii と列 jj が交差するセルの期待度数 EijE_{ij} は次のように計算されます。

Eij=iの合計×jの合計総度数E_{ij} = \frac{\text{行}i\text{の合計} \times \text{列}j\text{の合計}}{\text{総度数}}

これは、行の周辺割合(行合計 ÷ 総度数)と列の周辺割合(列合計 ÷ 総度数)の積に総度数を掛けた値です。

たとえば「男性 × コーヒー」の期待度数は

E=50×45100=22.5E = \frac{50 \times 45}{100} = 22.5

実際の度数(30人)と期待度数(22.5人)の差が大きいほど、独立ではない(関連がある)ことを示唆しています。

ヒント

期待度数と実際の度数のずれを統計的に検定するのがカイ二乗検定です。その詳細は「カイ二乗検定(適合度・独立性)」で学びます。

まとめ

度数表は、1変数のカテゴリ分布を度数と相対度数で整理する基本的な集計方法です。2つのカテゴリ変数の関連を見るには、行と列に変数を配置して同時度数を記録する2元クロス表を使います。

行合計・列合計は周辺度数と呼ばれ、もう一方の変数を無視した分布に相当します。クロス表の度数を比率に変換する際は、全体比率・行比率列比率の3種類があり、分析の目的に応じて使い分けます。行比率(各行の合計で割る)は「グループごとの構成の違い」を、列比率(各列の合計で割る)は「カテゴリごとのグループ構成」を見るのに適しています。

2変数が独立であれば行比率はすべての行で等しくなります。独立の仮定のもとで計算される期待度数は、周辺度数の積を総度数で割った値であり、実際の度数との差が大きいほど変数間に関連があることを示唆します。

ヒント

クロス表で見つけた関連が統計的に有意かどうかを判断するには、「カイ二乗検定(適合度・独立性)」を用います。また、関連の強さを1つの数値で表す指標については「オッズ比と連関指標」で学びます。