データソースと公的統計

分析に使えるデータの入手先と、公的統計の読み方・活かし方

難易度 Lv 2 / 10想定時間:約15

できるようになること


データがなければ分析は始まらない

統計の手法をいくら学んでも、分析対象のデータがなければ何も始まりません。

しかし現実には、「どこにデータがあるのか」「そのデータは信頼できるのか」がわからないまま分析に手をつけてしまうケースが珍しくありません。

この単元では、データの入手先(データソース)の全体像と、日本の公的統計の基本的な仕組みを学びます。


1次データと2次データ

データの入手方法は大きく2つに分かれます。

1次データ(primary data)2次データ(secondary data)
定義分析者自身が目的に合わせて収集したデータ他の主体がすでに収集・公開しているデータ
アンケート調査、実験データ、インタビュー政府統計、企業の公開データ、論文のデータ
利点目的に完全に合致した設計ができる低コスト・短時間で入手できる
限界コスト・時間がかかる、標本規模に制約がある他者が別の目的で設計・収集したデータのため、自らの分析目的や変数の定義と合致しない場合がある

研究や業務の場面では、まず2次データで大まかな傾向をつかみ、足りない部分を1次データで補うという組み合わせが一般的です。


公的統計とは

公的統計とは、国・地方自治体などの公的機関が作成する統計のことです。日本では統計法に基づいて体系的に整備されています。

公的統計は、その重要度によって2つに分類されます。

基幹統計一般統計
定義国の行政に特に重要な統計(総務大臣が指定)基幹統計以外の公的統計
報告義務対象者に回答義務がある(基幹統計調査の場合、罰則あり)報告義務はない
国勢調査、国民生活基礎調査、経済センサス家計消費状況調査、民間給与実態統計調査 など
統計数53(2024年時点)数百以上
補足

基幹統計の名称を暗記する必要はありません。大切なのは「回答義務があるため回収率が高く、信頼性の高いデータが得られる」という特徴を理解することです。ただし、回答義務があっても未回答・記入ミスをゼロにすることはできないため、「義務がある=完全なデータ」ではありません。


全数調査と標本調査

公的統計には、全数調査(悉皆調査)と標本調査の2種類があります。

全数調査標本調査
対象母集団のすべてを調査母集団から一部を抽出して調査
利点標本誤差がないコスト・時間を大幅に節約できる
限界膘大なコスト、調査項目を増やしにくい標本誤差が生じる、標本抽出の偏りと非回答バイアスが複合するリスク
国勢調査(5年ごと、全世帯対象)家計調査(約9,000世帯)、労働力調査(約4万世帯)

全数調査は正確ですが費用と時間がかかるため、多くの公的統計は標本調査です。


横断調査と縦断調査

全数・標本の区別が「誰を対象にするか」の話であるのに対し、横断・縦断は「いつのデータを取るか」という時間軸の話です。公的統計に限らず、1次データの設計でも意識すべき観点です。

横断調査(cross-sectional)縦断調査(longitudinal)
特徴ある一時点でデータを収集同じ対象を時間をおいて繰り返し調査
わかることその時点での分布や関連変化の追跡、因果の推測
限界変化を追えない脱落(途中で回答しなくなる)が起きやすい
国勢調査21世紀出生児縦断調査
注意

横断データで「年齢が高いほど貯蓄が多い」という結果が出ても、これだけでは「年を取ると貯蓄が増える」とは言えません。世代(コホート)の違いが反映されている可能性があります。因果の推測には縦断調査が適しています。


公的統計の入手先

日本の公的統計は、以下のサービスから無料で入手できます。


データの信頼性を確認するポイント

2次データを使う際は、利用前に以下のポイントを必ず確認してください。

  1. 出所(source)— 誰が、何の目的で作成したか
  2. 調査方法— 全数か標本か、どのように対象を選んだか、標本サイズは十分か
  3. 定義— 用語の定義は自分の分析目的と合っているか(例:「世帯所得」は税前か税後か)
  4. 時期— いつのデータか、古くないか
  5. 回収率— 標本調査の場合、十分な回収率か
注意
  • 誤解1:ネットで見つけたデータはすべて信頼できる — 出所や調査方法が不明なデータは信頼性を判断できません。公的統計などの信頼できるデータソースを優先してください。
  • 誤解2:公的統計は完璧である — 公的統計にも標本誤差、非回答バイアス、定義変更による時系列の不連続などの限界があります。調査の概要(メタデータ)を確認する習慣が大切です。

まとめ

1次データは分析目的に完全に合致させられますが、コストがかかります。2次データは低コストで入手でき、特に公的統計は信頼性が高い重要なデータソースです。

公的統計には基幹統計(回答義務あり・高信頼性)と一般統計があり、全数調査標本調査横断調査縦断調査といった分類を理解することで、データの特性と限界を見極められるようになります。

どのデータも完璧ではありません。出所・調査方法・定義・時期・回収率を確認し、限界を理解した上で使うことが、正しい分析の第一歩です。