データの種類と分布の記述

質的変数と量的変数を区別し、度数分布で特徴を捉える

難易度 Lv 1 / 10想定時間:約15

できるようになること


アンケートの回答は全部同じように集計できるか

あるカフェが来店客に次の3つの質問をしました。

  1. 好きなドリンクは何ですか?(コーヒー・紅茶・ジュース)
  2. このカフェの満足度を5段階で評価してください(1〜5)
  3. 来店回数は月に何回ですか?

さて、この3つの回答に「平均」を計算してみましょう。

このように、データの種類によって「できる操作」が異なります。こうした違いは、4つの尺度水準を知ると整理できます。集計やグラフを作る前に、手元のデータがどんな種類かを確認することが第一歩です。


質的変数と量的変数

データ(変数)は大きく質的変数量的変数の2種類に分かれます。

質的変数(qualitative variable / categorical variable)は、カテゴリや分類を表す変数です。数値で表せないか、数値であっても大小や差に意味がありません。

量的変数(quantitative variable / numerical variable)は、数量を表す変数です。数値の大小や差に意味があります。

ポイント

質的変数と量的変数では、使える集計方法やグラフが異なります。質的変数には度数表や棒グラフ、量的変数にはヒストグラムや平均・分散などが適しています。この区別を最初に行うことで、適切な分析手法を選べるようになります。


4つの尺度水準

質的・量的の2分類をさらに細かく分けたのが尺度水準(scale of measurement)です。データに対して「何ができるか」を4段階で整理します。

尺度種類特徴できる操作
名義尺度質的分類のみ等しいか違うか血液型、性別、郵便番号
順序尺度質的順序がある大小比較満足度(1〜5)、学年順位
間隔尺度量的差に意味がある加減気温(℃)、テストの偏差値
比率尺度量的0が「ない」を意味し、比にも意味がある加減乗除身長、体重、来店回数

上の表で下に行くほど、できる操作が増えます。名義尺度では「等しいか違うか」しか言えませんが、比率尺度では「Aの2倍」「Bの半分」といった比の議論まで意味を持ちます。

間隔尺度と比率尺度の違いは0の意味です。間隔尺度では0は便宜上の基点に過ぎません(気温0℃は「温度がない」わけではない)。一方、比率尺度では0が「存在しない」ことを意味します(来店回数0回は「来店していない」)。この差が、比を語れるかどうかに直結します。気温が10℃から20℃に上がっても「2倍暑くなった」とは言えませんが、来店回数が2回から4回になれば「2倍に増えた」と言えます。

補足

実務では名義・順序を「質的変数」、間隔・比率を「量的変数」とまとめて扱うことが多いです。4水準を意識する必要が出るのは、主に統計手法を選ぶとき(例:順序尺度に平均は適切か?)です。


度数分布表

データの種類がわかったら、次は分布の形を把握します。最も基本的な方法が度数分布表です。

質的変数の場合は「度数表と2元クロス表」で学んだように、カテゴリごとに人数を数えます。ここでは量的変数の場合を見てみましょう。

来店客50人に1回あたりの滞在時間(分)を聞いた結果を、階級に分けて整理します。

階級(分)度数相対度数累積相対度数
0以上〜20未満80.160.16
20以上〜40未満150.300.46
40以上〜60未満120.240.70
60以上〜80未満100.200.90
80以上〜100未満50.101.00
合計501.00

度数分布表の構成要素を整理します。

階級の幅は分析の目的に応じて選びますが、すべての階級で同じ幅にするのが基本です。幅を狭くすれば細かい形がわかりますが、各階級の度数が小さくなって偶然の影響を受けやすくなります。データ数が50〜100程度なら5〜10階級が実用的な目安です。


累積度数グラフ

累積相対度数を折れ線グラフにしたものが累積度数グラフ(ogive、オジャイブ)です。横軸に階級の上端、縦軸に累積相対度数をプロットし、線で結びます。累積相対度数は0から1へ単調に増加するため、グラフはS字状の曲線(またはそれに近い形)になります。

累積度数グラフからは次のことが読み取れます。

上の度数分布表からは、滞在時間60分未満の人が全体の70%を占めることがわかります。グラフの傾きが急な部分はデータが密集しており、緩やかな部分はデータが散らばっていることを示します。

ヒント

累積度数グラフは「箱ひげ図と分布の形」で学んだ四分位数と深く関係しています。累積度数グラフで0.25、0.50、0.75に対応する値が、それぞれQ1、中央値、Q3です。


まとめ

データを分析する第一歩は、変数の種類を確認することです。質的変数はカテゴリや分類を表し、量的変数は数量を表します。さらに細かく見ると、名義・順序・間隔・比率の4つの尺度水準があり、尺度が上がるほどできる操作(等号→大小→加減→比)が増えます。尺度水準を誤ると許されない演算を行ってしまうため、この「できること・できないこと」の境界を意識することが統計的判断の出発点です。

データの分布を整理するには度数分布表を使います。量的変数は階級に分けて度数・相対度数・累積相対度数を計算し、累積度数グラフを描くことで「全体の何%がある値以下か」を視覚的に読み取れます。中央値や四分位数の近似値もこのグラフから求めることができます。

ヒント

度数分布表をグラフ化したものが「ヒストグラムの読み方」で学ぶヒストグラムです。また、質的変数の度数表を2変数に拡張したものが「度数表と2元クロス表」で学んだクロス表です。