データソースと公的統計
分析に使えるデータの入手先と、公的統計の読み方・活かし方
できるようになること
- 1次データと2次データの違いを説明し、目的に応じて使い分けられる
- 公的統計の基本的な仕組み(基幹統計・一般統計)を理解している
- データの信頼性を評価する際のチェックポイントを知っている
データがなければ分析は始まらない
統計の手法をいくら学んでも、分析対象のデータがなければ何も始まりません。
しかし現実には、「どこにデータがあるのか」「そのデータは信頼できるのか」がわからないまま分析に手をつけてしまうケースが珍しくありません。
この単元では、データの入手先(データソース)の全体像と、日本の公的統計の基本的な仕組みを学びます。
1次データと2次データ
データの入手方法は大きく2つに分かれます。
| 1次データ(primary data) | 2次データ(secondary data) | |
|---|---|---|
| 定義 | 分析者自身が目的に合わせて収集したデータ | 他の主体がすでに収集・公開しているデータ |
| 例 | アンケート調査、実験データ、インタビュー | 政府統計、企業の公開データ、論文のデータ |
| 利点 | 目的に完全に合致した設計ができる | 低コスト・短時間で入手できる |
| 限界 | コスト・時間がかかる、標本規模に制約がある | 他者が別の目的で設計・収集したデータのため、自らの分析目的や変数の定義と合致しない場合がある |
研究や業務の場面では、まず2次データで大まかな傾向をつかみ、足りない部分を1次データで補うという組み合わせが一般的です。
公的統計とは
公的統計とは、国・地方自治体などの公的機関が作成する統計のことです。日本では統計法に基づいて体系的に整備されています。
公的統計は、その重要度によって2つに分類されます。
| 基幹統計 | 一般統計 | |
|---|---|---|
| 定義 | 国の行政に特に重要な統計(総務大臣が指定) | 基幹統計以外の公的統計 |
| 報告義務 | 対象者に回答義務がある(基幹統計調査の場合、罰則あり) | 報告義務はない |
| 例 | 国勢調査、国民生活基礎調査、経済センサス | 家計消費状況調査、民間給与実態統計調査 など |
| 統計数 | 53(2024年時点) | 数百以上 |
基幹統計の名称を暗記する必要はありません。大切なのは「回答義務があるため回収率が高く、信頼性の高いデータが得られる」という特徴を理解することです。ただし、回答義務があっても未回答・記入ミスをゼロにすることはできないため、「義務がある=完全なデータ」ではありません。
全数調査と標本調査
公的統計には、全数調査(悉皆調査)と標本調査の2種類があります。
| 全数調査 | 標本調査 | |
|---|---|---|
| 対象 | 母集団のすべてを調査 | 母集団から一部を抽出して調査 |
| 利点 | 標本誤差がない | コスト・時間を大幅に節約できる |
| 限界 | 膘大なコスト、調査項目を増やしにくい | 標本誤差が生じる、標本抽出の偏りと非回答バイアスが複合するリスク |
| 例 | 国勢調査(5年ごと、全世帯対象) | 家計調査(約9,000世帯)、労働力調査(約4万世帯) |
全数調査は正確ですが費用と時間がかかるため、多くの公的統計は標本調査です。
横断調査と縦断調査
全数・標本の区別が「誰を対象にするか」の話であるのに対し、横断・縦断は「いつのデータを取るか」という時間軸の話です。公的統計に限らず、1次データの設計でも意識すべき観点です。
| 横断調査(cross-sectional) | 縦断調査(longitudinal) | |
|---|---|---|
| 特徴 | ある一時点でデータを収集 | 同じ対象を時間をおいて繰り返し調査 |
| わかること | その時点での分布や関連 | 変化の追跡、因果の推測 |
| 限界 | 変化を追えない | 脱落(途中で回答しなくなる)が起きやすい |
| 例 | 国勢調査 | 21世紀出生児縦断調査 |
横断データで「年齢が高いほど貯蓄が多い」という結果が出ても、これだけでは「年を取ると貯蓄が増える」とは言えません。世代(コホート)の違いが反映されている可能性があります。因果の推測には縦断調査が適しています。
公的統計の入手先
日本の公的統計は、以下のサービスから無料で入手できます。
- e-Stat(https://www.e-stat.go.jp/)— 政府統計の総合窓口。ほぼすべての公的統計がここで検索・ダウンロードできる。APIも提供されており、プログラムから直接データを取得することも可能
- RESAS(https://resas.go.jp/)— 地域経済分析システム。地域間比較の可視化ツール
- 総務省統計局(https://www.stat.go.jp/)— 統計に関する解説やデータの公開
データの信頼性を確認するポイント
2次データを使う際は、利用前に以下のポイントを必ず確認してください。
- 出所(source)— 誰が、何の目的で作成したか
- 調査方法— 全数か標本か、どのように対象を選んだか、標本サイズは十分か
- 定義— 用語の定義は自分の分析目的と合っているか(例:「世帯所得」は税前か税後か)
- 時期— いつのデータか、古くないか
- 回収率— 標本調査の場合、十分な回収率か
- 誤解1:ネットで見つけたデータはすべて信頼できる — 出所や調査方法が不明なデータは信頼性を判断できません。公的統計などの信頼できるデータソースを優先してください。
- 誤解2:公的統計は完璧である — 公的統計にも標本誤差、非回答バイアス、定義変更による時系列の不連続などの限界があります。調査の概要(メタデータ)を確認する習慣が大切です。
まとめ
1次データは分析目的に完全に合致させられますが、コストがかかります。2次データは低コストで入手でき、特に公的統計は信頼性が高い重要なデータソースです。
公的統計には基幹統計(回答義務あり・高信頼性)と一般統計があり、全数調査と標本調査、横断調査と縦断調査といった分類を理解することで、データの特性と限界を見極められるようになります。
どのデータも完璧ではありません。出所・調査方法・定義・時期・回収率を確認し、限界を理解した上で使うことが、正しい分析の第一歩です。