データの種類と分布の記述
質的変数と量的変数を区別し、度数分布で特徴を捉える
できるようになること
- 質的変数と量的変数の違いを説明できる
- 4つの尺度水準(名義・順序・間隔・比率)の違いを説明できる
- 度数分布表・累積度数グラフを使ってデータの特徴を読み取れる
アンケートの回答は全部同じように集計できるか
あるカフェが来店客に次の3つの質問をしました。
- 好きなドリンクは何ですか?(コーヒー・紅茶・ジュース)
- このカフェの満足度を5段階で評価してください(1〜5)
- 来店回数は月に何回ですか?
さて、この3つの回答に「平均」を計算してみましょう。
- 来店回数の平均:意味がありそうです。「月平均4.2回」と言えます
- 満足度の平均:「平均3.8」と計算はできますが、3と4の差と4と5の差が本当に同じとは限りません。厳密には不適切ですが、実務では参考値として使われることもあります
- 好きなドリンクの平均:計算しようがありません
このように、データの種類によって「できる操作」が異なります。こうした違いは、4つの尺度水準を知ると整理できます。集計やグラフを作る前に、手元のデータがどんな種類かを確認することが第一歩です。
質的変数と量的変数
データ(変数)は大きく質的変数と量的変数の2種類に分かれます。
質的変数(qualitative variable / categorical variable)は、カテゴリや分類を表す変数です。数値で表せないか、数値であっても大小や差に意味がありません。
- 好きなドリンク(コーヒー・紅茶・ジュース)
- 血液型(A・B・O・AB)
- 都道府県コード(01〜47)
量的変数(quantitative variable / numerical variable)は、数量を表す変数です。数値の大小や差に意味があります。
- 来店回数(0回、1回、2回…)
- 身長(165.3cm、172.8cm…)
- 気温(25.0℃、-3.5℃…)
質的変数と量的変数では、使える集計方法やグラフが異なります。質的変数には度数表や棒グラフ、量的変数にはヒストグラムや平均・分散などが適しています。この区別を最初に行うことで、適切な分析手法を選べるようになります。
4つの尺度水準
質的・量的の2分類をさらに細かく分けたのが尺度水準(scale of measurement)です。データに対して「何ができるか」を4段階で整理します。
| 尺度 | 種類 | 特徴 | できる操作 | 例 |
|---|---|---|---|---|
| 名義尺度 | 質的 | 分類のみ | 等しいか違うか | 血液型、性別、郵便番号 |
| 順序尺度 | 質的 | 順序がある | 大小比較 | 満足度(1〜5)、学年順位 |
| 間隔尺度 | 量的 | 差に意味がある | 加減 | 気温(℃)、テストの偏差値 |
| 比率尺度 | 量的 | 0が「ない」を意味し、比にも意味がある | 加減乗除 | 身長、体重、来店回数 |
上の表で下に行くほど、できる操作が増えます。名義尺度では「等しいか違うか」しか言えませんが、比率尺度では「Aの2倍」「Bの半分」といった比の議論まで意味を持ちます。
間隔尺度と比率尺度の違いは0の意味です。間隔尺度では0は便宜上の基点に過ぎません(気温0℃は「温度がない」わけではない)。一方、比率尺度では0が「存在しない」ことを意味します(来店回数0回は「来店していない」)。この差が、比を語れるかどうかに直結します。気温が10℃から20℃に上がっても「2倍暑くなった」とは言えませんが、来店回数が2回から4回になれば「2倍に増えた」と言えます。
実務では名義・順序を「質的変数」、間隔・比率を「量的変数」とまとめて扱うことが多いです。4水準を意識する必要が出るのは、主に統計手法を選ぶとき(例:順序尺度に平均は適切か?)です。
度数分布表
データの種類がわかったら、次は分布の形を把握します。最も基本的な方法が度数分布表です。
質的変数の場合は「度数表と2元クロス表」で学んだように、カテゴリごとに人数を数えます。ここでは量的変数の場合を見てみましょう。
来店客50人に1回あたりの滞在時間(分)を聞いた結果を、階級に分けて整理します。
| 階級(分) | 度数 | 相対度数 | 累積相対度数 |
|---|---|---|---|
| 0以上〜20未満 | 8 | 0.16 | 0.16 |
| 20以上〜40未満 | 15 | 0.30 | 0.46 |
| 40以上〜60未満 | 12 | 0.24 | 0.70 |
| 60以上〜80未満 | 10 | 0.20 | 0.90 |
| 80以上〜100未満 | 5 | 0.10 | 1.00 |
| 合計 | 50 | 1.00 | — |
度数分布表の構成要素を整理します。
- 階級(class):データを区切る区間。「0以上〜20未満」のように、以上・未満で境界を明示します
- 度数(frequency):各階級に入るデータの個数
- 相対度数(relative frequency):度数を全体のデータ数 で割った割合()
- 累積相対度数(cumulative relative frequency):その階級以下の相対度数をすべて足した値
階級の幅は分析の目的に応じて選びますが、すべての階級で同じ幅にするのが基本です。幅を狭くすれば細かい形がわかりますが、各階級の度数が小さくなって偶然の影響を受けやすくなります。データ数が50〜100程度なら5〜10階級が実用的な目安です。
累積度数グラフ
累積相対度数を折れ線グラフにしたものが累積度数グラフ(ogive、オジャイブ)です。横軸に階級の上端、縦軸に累積相対度数をプロットし、線で結びます。累積相対度数は0から1へ単調に増加するため、グラフはS字状の曲線(またはそれに近い形)になります。
累積度数グラフからは次のことが読み取れます。
- 「〇分以下の人は全体の何%か」 を直読みできる(例:累積相対度数が0.70の点は「全体の70%がその値以下」)
- 中央値の近似値を視覚的に求められる(縦軸0.50に対応する横軸の値。各階級内でデータが均等に散らばっていると仮定した直線補間による近似です)
- 四分位数も同様に読み取れる(Q1は0.25、Q3は0.75に対応)
上の度数分布表からは、滞在時間60分未満の人が全体の70%を占めることがわかります。グラフの傾きが急な部分はデータが密集しており、緩やかな部分はデータが散らばっていることを示します。
累積度数グラフは「箱ひげ図と分布の形」で学んだ四分位数と深く関係しています。累積度数グラフで0.25、0.50、0.75に対応する値が、それぞれQ1、中央値、Q3です。
まとめ
データを分析する第一歩は、変数の種類を確認することです。質的変数はカテゴリや分類を表し、量的変数は数量を表します。さらに細かく見ると、名義・順序・間隔・比率の4つの尺度水準があり、尺度が上がるほどできる操作(等号→大小→加減→比)が増えます。尺度水準を誤ると許されない演算を行ってしまうため、この「できること・できないこと」の境界を意識することが統計的判断の出発点です。
データの分布を整理するには度数分布表を使います。量的変数は階級に分けて度数・相対度数・累積相対度数を計算し、累積度数グラフを描くことで「全体の何%がある値以下か」を視覚的に読み取れます。中央値や四分位数の近似値もこのグラフから求めることができます。
度数分布表をグラフ化したものが「ヒストグラムの読み方」で学ぶヒストグラムです。また、質的変数の度数表を2変数に拡張したものが「度数表と2元クロス表」で学んだクロス表です。